JP2016105210A

JP2016105210A - 読み記号列編集装置および読み記号列編集方法

Info

Publication number: JP2016105210A
Application number: JP2016042762A
Authority: JP
Inventors: 籠嶋　岳彦; Takehiko Kagoshima; 岳彦籠嶋; 伸晃水谷; Nobuaki Mizutani
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2016-06-09
Anticipated expiration: 2031-02-04
Also published as: JP6159436B2

Abstract

【課題】読み記号列の編集に要する時間を短縮すると共に編集後の音声波形の品質を確保する読み記号列編集装置を実現することである。【解決手段】実施形態の読み記号列編集装置は、読み記号列を生成する言語処理手段と、前記読み記号列を記憶する読み記号列記憶手段と、前記読み記号列記憶手段の読み記号列を第１の音声波形に変換する第１の音声合成手段と、前記読み記号列記憶手段の読み記号列を第２の音声波形に変換する第２の音声合成手段と、前記第２の音声合成手段を利用して、前記読み記号列記憶手段の読み記号列の少なくともアクセント型を編集する読み記号列編集手段とを備える。前記第２の音声合成手段の処理時間は、前記第１の音声合成手段の処理時間よりも短い、あるいは、前記第２の音声合成手段で変換された前記第２の音声波形の発話速度は、前記第１の音声合成手段で変換された前記第１の音声波形の発話速度とは異なる読み記号列編集装置である。【選択図】図１

Description

本発明の実施形態は、読み記号列編集装置および読み記号列編集方法に関する。

日本語に対するテキスト音声合成は、入力された漢字仮名混じりテキストに言語処理を行って、読みやアクセントなどの情報を記号化した読み記号列を生成し、読み記号列に韻律生成と波形生成を行って音声波形をスピーカから再生する。言語処理では読みやアクセントなどの情報に誤りが生じる可能性があるため、正確な音声波形に変換するためには読み記号列を修正する必要がある。読み記号列の修正を支援するために、アクセント型などが異なる読み記号列の次候補群を表示し、各候補の音声波形を再生してユーザに試聴させる方法が提案されている。これにより、ユーザは再生された音声波形を聞き比べてより自然な読み記号列を選択することができる。

しかしながら、上述した方法では、読み記号列の各候補の音声合成に時間がかかってしまい、編集効率が低下するという問題があった。また、編集効率の低下を防ぐために音声合成の処理速度を速くすると、読み記号列の編集後に生成される最終的な音声波形の品質が劣化するという問題があった。

特開平６−２０２６８４号公報特許第３２３０８６８号公報

発明が解決しようとする課題は、読み記号列の編集に要する時間を短縮すると共に編集後の音声波形の品質を確保する読み記号列編集装置を実現することである。

実施形態の読み記号列編集装置は、読み記号列を生成する言語処理手段と、前記読み記号列を記憶する読み記号列記憶手段と、前記読み記号列記憶手段の読み記号列を第１の音声波形に変換する第１の音声合成手段と、前記読み記号列記憶手段の読み記号列を第２の音声波形に変換する第２の音声合成手段と、前記第２の音声合成手段を利用して、前記読み記号列記憶手段の読み記号列の少なくともアクセント型を編集する読み記号列編集手段とを備える。前記第２の音声合成手段の処理時間は、前記第１の音声合成手段の処理時間よりも短い、あるいは、前記第２の音声合成手段で変換された前記第２の音声波形の発話速度は、前記第１の音声合成手段で変換された前記第１の音声波形の発話速度とは異なる読み記号列編集装置である。

第１の実施形態の読み記号列編集装置を示すブロック図。実施形態の読み記号列編集装置のハードウェア構成を示す図。実施形態の読み記号列編集部１０４の外観図。実施形態の音声合成部１０５及び１０６の処理時間及び発話速度に関するパラメータを設定するインタフェースの外観図。実施形態の読み記号列編集装置のフローチャート。第２の実施形態の読み記号列編集装置を示すブロック図。第３の実施形態の音声合成部１０６のブロック図。実施形態の音声合成部１０６で合成された音声のピッチパターンを表す模式図。実施形態の読み記号列編集部１０４の外観図。

以下、本発明の実施形態について図面を参照しながら説明する。

（第１の実施形態）
第１の実施形態の読み記号列編集装置は、テキスト音声合成においてテキストから自動推定された読み記号列のうちアクセント型を対話的に編集する装置である。この読み記号列編集装置は、高音質な音声波形を得る第１の音声合成部と、音声波形の品質は劣るが音声合成に要する処理時間の短い第２の音声合成部とを有する。読み記号列の編集中においては、第２の音声合成部を用いて編集中の読み記号列を音声波形に変換することにより、ユーザは音声波形に対応する再生音を短時間で試聴・確認しながら編集作業を行うことができる。一方、読み記号列の編集が終了した後は、第１の音声合成部を使用して編集済みの読み記号列を音声波形に変換することで、高音質な音声波形を得ることができる。

（全体のブロック構成）
図１は、第１の実施形態にかかる読み記号列編集装置を示すブロック図である。本実施形態の読み記号列編集装置は、合成対象となるテキストを入力するテキスト入力部１０１と、テキスト入力部１０１で入力されたテキストに言語処理を行って音声を合成するための読み記号列を生成する言語処理部１０２と、言語処理部１０２で生成された読み記号列を記憶する読み記号列記憶部１０３と、読み記号列記憶部１０３に記憶された読み記号列を対話的に編集する読み記号列編集部１０４と、読み記号列記憶部１０３に記憶された読み記号列を音声波形に変換する第１の音声合成部１０５と、読み記号列編集部１０４で編集中の読み記号列を音声波形に変換する第２の音声合成部１０６と、音声合成部１０５が変換した音声波形をファイルに保存する音声出力部１０７と、音声合成部１０５あるいは音声合成部１０６が変換した音声波形を再生して再生音を発生させるスピーカ１０８とを備える。

（ハードウェア構成）
本実施形態の読み記号列編集装置は、図２に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するＣＰＵ（Central Processing Unit）等の制御部２０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部２０２と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部２０３と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部２０４と、外部装置との通信を制御する通信部２０５と、音声波形を再生して再生音を発生させるスピーカ１０８と、映像を表示するディスプレイ２０７と、これらを接続するバス２０８とを備えている。

このようなハードウェア構成において、制御部２０１がＲＯＭ等の記憶部２０２や外部記憶部２０３に記憶された各種プログラムを実行することにより以下の機能が実現される。

（テキスト入力部）
テキスト入力部１０１は、操作部２０４のキーボードを介して合成対象となるテキストを入力する。この他にも、外部記憶部２０３に記憶されたファイルからテキストを入力したり、通信部２０５と接続された外部装置からテキストを受信したりすることもできる。

（言語処理部）
言語処理部１０２は、テキスト入力部１０１に入力されたテキストから読み記号列を生成する。具体的には、単語の表層・読み・アクセント・品詞などから成る言語辞書データを参照して、テキストに対して形態素解析や読みの付与、アクセント推定などを行って、読み記号列を生成する。読み記号列とは、読みやアクセント句境界、アクセント核位置、ポーズの位置と長さなどの情報を記号化したものである。このような読み記号列としては、電子情報技術産業協会（JEITA）が規格化した「IT-4002日本語テキスト音声合成用記号」や「TT-6004 ITS車載機器用音声合成記号」などを用いることができる。読み記号列の例は後述する。

（読み記号列記憶部）
読み記号列記憶部１０３は、言語処理部１０２で生成された読み記号列を記憶する。読み記号列記憶部１０３には、記憶部２０２や外部記憶部２０３を用いることができる。

（読み記号列編集部）
読み記号列編集部１０４は、ディスプレイ２０７と操作部２０４を用いて読み記号列記憶部１０３に記憶された読み記号列を編集する。本実施形態では、読み記号列のアクセント型の編集について説明する。ディスプレイ２０７に表示された概観の一部を図３(a)に示す。編集ウィンドウ３０１は、全文試聴ボタン３０２と、音声ファイル保存ボタン３０３と、編集開始ボタン３０９と、編集終了ボタン３１０を備え、読み記号列記憶部１０３に記憶されている読み記号列３０４を表示する。全文試聴ボタン３０２は、読み記号列３０４全体を音声波形に変換してスピーカ１０８から再生する際に使用する。編集終了ボタン３１０の押下前は、全文試聴ボタン３０２を押下すると音声合成部１０６で音声合成が行われる。一方、編集終了ボタン３１０の押下後は、全文試聴ボタン３０２を押下すると音声合成部１０５で音声合成が行われる。また、音声ファイル保存ボタン３０３を押下すると、音声合成部１０５で変換された音声波形がユーザ指定のファイルに保存される。なお、この例では読み記号列としてTT-6004の音声合成記号を用いており、カタカナが読みを、「％」が母音の無声化を、「'」がアクセント核位置を、「：」が文中の短いポーズを、スペースがアクセント区切りを、「．」が文末ポーズをそれぞれ表している。この例は、「あれが私の彼氏です。」というテキストから生成された読み記号列である。

ユーザが編集開始ボタン３０９を押下すると、編集対象となるアクセント句を表すフォーカス３０５が表示される。フォーカス３０５の位置は、操作部２０４のキーボードに割り当てられた「アクセント句移動キー」の入力により順次移動し、所望のアクセント句を選択することができる。また、キーボードに割り当てられた「アクセント句試聴キー」の入力により、当該アクセント句の読み記号列が、音声合成部１０６に出力される。例えば、図２(a)の状態で「アクセント句試聴キー」を入力すると、フォーカス３０５でフォーカスされた読み記号列「カ'レシデス％」が出力される。そして、音声合成部１０６は読み記号列「カ'レシデス％」を音声波形に変換し、スピーカ１０８は当該音声波形を再生して再生音を発生させる。ユーザは、試聴したアクセントが所望のアクセントと異なる場合、操作部２０４のキーボードの「次候補キー」を入力する。「次候補キー」が入力されると、フォーカス３０５のあるアクセント句に対して、図２(b)に示される次候補表示ウィンドウ３０６を表示し、フォーカス３０７でフォーカスされた読み記号列の次候補「カレシデス％」を音声合成部１０６で音声波形に変換する。そして、スピーカ１０８は、当該音声波形を再生して再生音を発生させる。さらに「次候補キー」を入力する毎に、フォーカス３０７が一つ下に移動し、選択された候補の音声合成が行われる。ユーザは、試聴した再生音が所望のアクセント型になった場合に、キーボードの「確定キー」を入力する。図２(c)は、アクセント型の異なる再生音を順次確認して、「カレシデ'ス％」を試聴した状態を表している。この状態で「確定キー」を入力すると、図２(d)のように次候補表示ウィンドウが非表示となり、読み記号列３０４が所望のアクセント型に修正される。

日本語では、モーラ数がｎ個のアクセント句にはｎとおりのアクセント型が存在する。「モーラ」は発音の単位を表し、通常は１音節（「ア」、「カ」など）が１モーラに相当するが、拗音（「キャ」など）、促音（「ッ」）、長音（「−」）、撥音（「ン」）、無声化音節（「ス％」）なども１モーラと数える。アクセント核が無いのが０型、先頭モーラにアクセント核があるのが１型で、以下２モーラ目からｎ−１モーラ目にアクセント核があるものをそれぞれ２型からｎ−１型と呼ぶ。このように、アクセント句の読み記号列が与えられれば、アクセント型の次候補は規則的に生成することができる。

以上の処理で読み記号列３０４全体の編集が終了したら、ユーザは編集終了ボタン３１０を押下する。この状態で全文試聴ボタン３０２を押すと、読み記号列記憶部１０３に記憶された編集後の読み記号列３０４全体が音声合成部１０５で音声波形に変換され、スピーカ１０８は当該音声波形を再生して再生音を発生させる。また、音声ファイル保存ボタン３０３を押すと、音声出力部１０７を介して、音声合成部１０５で変換された音声波形がユーザ指定のファイルに保存される。

（第１の音声合成部、第２の音声合成部）
音声合成部１０５及び音声合成部１０６について述べる。音声合成部１０５は、読み記号列編集部１０４で編集が終了した読み記号列を音声波形に変換する。一方、音声合成部１０６は、編集開始前あるいは読み記号列編集部１０４で編集中の読み記号列を音声波形に変換する。ここで、音声合成部１０５と音声合成部１０６は、処理時間と発話速度をそれぞれ個別に設定することができる。処理時間は、入力した読み記号列を音声波形に変換してスピーカ１０８あるいは音声出力部１０７に出力する際に要する時間長を表している。長い処理時間が使える程、音声波形の音質を向上させることができる。本実施形態では、音声合成部１０６における音声合成の処理時間が音声合成部１０５における音声合成の処理時間よりも短くなるように、後述する処理時間のパラメータを予め設定する。発話速度は合成された音声波形の話速を表しており、音声合成部１０６で変換された音声波形の発話速度が音声合成部１０５で変換された音声波形の発話速度よりも速くなるように、後述する発話速度のパラメータを予め設定する。

音声合成部１０５と音声合成部１０６における処理時間および発話速度の設定について説明する。図４は、処理時間および発話速度のパラメータを設定する際のウィンドウである。パラメータ４０１とパラメータ４０２は音声合成部１０５の発話速度と処理時間をそれぞれ設定し、パラメータ４０３とパラメータ４０３は音声合成部１０６の発話速度と処理時間をそれぞれ設定するものである。

まず、処理時間について説明する。処理時間は、音声合成の計算量に依存し、計算量と音質のトレードオフを制御する。処理時間のパラメータを音質重視の設定にすると、音声波形の音質が向上する一方で計算量が増加して処理時間が長くなる。逆に、処理時間のパラメータを速度重視の設定にすると、計算量が低減して処理時間が短くなる一方で音声波形の音質が劣化する。このようなトレードオフを制御する処理時間のパラメータとしては、サンプリング周波数、音声コーパスサイズ、素片選択のビーム幅などがある。例えば、サンプリング周波数を16000Hzに設定すると、音質は向上するが計算量の増加により処理時間が長くなる。一方、サンプリング周波数を8000Hzに設定すると、計算量の低減により処理時間は短くなるが音質が劣化する。本実施形態では、計算量と音質のトレードオフを制御する処理時間のパラメータを、パラメータ４０２およびパラメータ４０４として用いる。図４では、パラメータ４０２およびパラメータ４０４は、それぞれ１種類としているが、複数種類のパラメータを設定できるようにしてもよい。また、複数種類のパラメータの組み合わせを１つのパラメータとして用いてもよい。

この他にも、処理時間のパラメータとして、合成された音声波形のバッファサイズを用いてもよい。音声合成では、ＲＡＭ等の記憶部２０２で実現されるバッファに一定サイズの音声波形が記憶された段階で、当該バッファに記憶された音声波形をスピーカ１０８に出力すると同時に、バッファの空きに新たな音声波形を記憶する。これを繰り返すことで、音声波形への変換とスピーカ１０８への出力を並行して行う。バッファサイズを小さくすると、バッファに記憶された音声波形をスピーカ１０８に出力するまでの遅延も短くなるという利点がある。一方でバッファサイズを小さくすると、ＣＰＵの負荷の変動に伴ってスピーカ１０８に出力される音声波形が途切れる可能性が高くなるという欠点がある。

次に、発話速度について説明する。発話速度は音声波形の話速を表しており、発話速度を制御するパラメータとしては、フレーム長などがある。一定のフレーム周期に従って波形を生成する音声合成では、フレーム長を長くすることによって音声波形が長くなり、発話速度が遅くなる。逆にフレーム長を短くすることにより音声波形が短くなり、発話速度が速くなる。また、各音素のフレーム数に倍率を乗じてフレーム数を変更することにより、発話速度を変更することもできる。この他にも、一旦生成された音声波形に対して話速変換を適用することで発話速度を制御してもよい。話速変換を用いる場合は、再生倍率（例えば、1.5倍速）を発話速度のパラメータとして用いることができる。

本実施形態では、音声合成部１０５は、編集が終了した読み記号列の音声波形への変換に用いられる。したがって、発話速度のパラメータ４０１は所望の話速となるように設定し（図４の例では少し遅めの−２）、処理時間のパラメータ４０２は処理時間が長くなっても音質が向上するように設定する（図４の例では音質最重視の−１０）。一方、音声合成部１０６は、アクセント句単位でアクセント型の自然性を確認するための音声波形の変換に用いられる。したがって、発話速度のパラメータ４０３はアクセント型が確認可能な範囲で早めの話速に設定し（図４の例では＋５）、処理時間のパラメータ４０４は音質を犠牲にしても処理時間重視に設定する（図４の例では処理時間最重視の＋１０）。

（フローチャート）
図５は、本実施形態にかかる読み記号列生成装置のフローチャートである。まず、テキスト入力部１０１は、操作部２０４のキーボードから合成対象となるテキストを入力する（ステップＳ５１）。次に、言語処理部１０２は、入力されたテキストを読み記号列に変換し、読み記号列記憶部１０３に記憶する（ステップＳ５２）。次に、音声合成部１０６は、ユーザの試聴のために、読み記号列記憶部１０３に記憶された読み記号列全体を音声波形に変換し、スピーカ１０８は当該音声波形を再生して再生音を発生させる（ステップＳ５３）。ユーザは、再生音を試聴して編集が必要なアクセント句を特定する。編集が必要なアクセント句がある場合、ユーザは編集開始ボタン３０９を押下する（ステップＳ５４のYesの分岐）。編集開始ボタン３０９が押下されると、読み記号列編集部１０４はアクセント句の候補を編集ウィンドウ３０１に提示し、ユーザに選択されたアクセント句の候補を取得する（ステップＳ５５）。次に、音声合成部１０６は当該アクセント句の候補を含む読み記号列を音声波形に変換し、スピーカ１０８は当該音声波形を再生して再生音を発生させる（ステップＳ５６）。ここで、ユーザは、再生音を試聴してアクセント型の自然性を確認する。選択されたアクセント句の候補に問題がある場合、ステップＳ５５に戻り別のアクセント句の候補を取得する（ステップＳ５７のYesの分岐）。一方、選択されたアクセント句の候補に問題がない場合、編集前のアクセント句をこのアクセント句候補に置換して読み記号列記憶部１０３に記憶する（ステップＳ５８）。そして、ステップＳ５４に戻り、他のアクセント句の編集の必要性を確認する（ステップＳ５７のNoの分岐）。以上の処理の繰り返しにより、全てのアクセント句の編集が終了すると、ユーザは編集終了ボタン３１０を押下する（ステップＳ５４のNoの分岐）。そして、ユーザが全文試聴ボタン３０２を押下すると、編集が終了したアクセント句を含む読み記号列全体が音声合成部１０５で音声波形に変換され、スピーカ１０８は当該音声波形を再生して再生音を発生させる（ステップＳ５９）。また、ユーザが音声ファイル保存ボタン３０３を押下すると、音声出力部１０７を介して、音声合成部１０５で変換された音声波形がユーザ指定のファイルに保存される（ステップＳ６０）。

このように、本実施形態にかかる読み記号列生成装置は、高品質で処理時間の長い音声合成部１０５と処理時間の短い音声合成部１０６を有しており、読み記号列の編集開始前あるいは編集中に音声を合成する際には音声合成部１０６を、読み記号列の編集が終了した後に音声を合成する際には音声合成部１０５を使用する。これにより、編集時の音声合成に要する時間を短縮すると共に編集後の音声波形の品質を確保することができる。

また、本実施形態にかかる読み記号列生成装置は、読み記号列の編集開始前あるいは編集中に使用される音声合成部１０６の発話速度を速く設定する。これにより、編集時の再生音の試聴に要する時間を短縮することができる。

また、本実施形態にかかる読み記号列生成装置は、音声合成部１０５と音声合成部１０６における処理時間および発話速度のパラメータを予め設定している。これにより、アクセント句の編集と１文全体の品質確認や音声のファイルへの保存などを交互に行う場合に、わずらわしいパラメータの変更をする必要がない。

（変形例１）
視覚障害者向けの音声波形を生成する場合、発話速度を通常の数倍の速さに設定することがある。このように、発話速度が速い音声波形の読み記号列を健聴者が編集する場合、そのままの発話話速ではアクセント型の自然性の確認が難しく、編集にかえって時間を要することがあった。このような場合は、音声合成部１０６の発話速度のパラメータ４０３を音声合成部１０５の発話速度のパラメータ４０１より遅く設定することで、編集者がアクセント型を聞き取れる程度の発話速度で編集を行うことができる。このように、編集者の試聴能力に合致した発話速度を音声合成部１０６で設定することにより、編集に要する時間を短縮することができる。

（変形例２）
本実施形態では、計算量と音質のトレードオフを制御するパラメータを用いて、音声合成部１０５と音声合成部１０６の処理時間を設定したが、そもそも処理時間が異なる複数の方式で実装した音声合成部を用いるようにしてもよい。例えば、音声合成部１０６は、アクセント型の自然性を確認できれば良く、必ずしも音韻が聞き取れる必要は無いため、１種類の音節だけで音声を合成してもよいし、ピッチ変化をつけた断続的なブザー音のようなものを用いてもよい。例えば、「カレシデ'ス％」をごうせいする代わりに、「タタタタ'タ」を合成することで、音声素片選択に要する計算量を削減し、処理時間を短くすることができる。

（変形例３）
本実施形態では、編集開始前の読み記号列全体の音声合成に音声合成部１０６を用いたが、編集開始前の読み記号列全体の音声合成に音声合成部１０５を用いてもよい。

（第２の実施形態）
図６は、第２の実施形態にかかる読み記号列生成装置の構成を示すブロック図である。第２の実施形態にかかる読み記号列生成装置は、ユーザの手元にあるクライアント計算機６０１と当該クライアント計算機６０１とネットワーク６１０を介して接続するサーバ計算機６０２で構成される。クライアント計算機６０１は、テキスト入力部１０１と、読み記号列記憶部１０３と、読み記号列編集部１０４と、第２の音声合成部１０６と、音声出力部１０７と、スピーカ１０８と、サーバ計算機６０２と通信する通信部２０５ａとを備える。一方、サーバ計算機６０２は、言語処理部１０２と、第１の音声合成部１０５と、ローカル計算機６０１と通信する通信部２０５ｂとを備える。ここで、サーバ計算機６０２は、複数台のコンピュータで構成することができ、クライアント計算機６０１と比較して大容量のメモリや高速なＣＰＵを利用できる。なお、本実施形態の音声合成部１０５の処理時間は、通信部２０５ｂおよび通信部２０５ａを介した通信の遅延を含むものとする。

本実施形態では、言語処理部１０２と音声合成部１０５をサーバ計算機６０２で動作させることにより、大容量のメモリや高速なＣＰＵを利用して、読みの精度が高く高音質な音声波形を生成できる利点がある。ただし、通信部２０５ｂおよび通信部２０５ａの通信遅延により、音声合成部１０５で変換した音声波形がスピーカ１０８に到達するまでの処理時間が長くなる。そこで、アクセント型を編集する場合の音声波形の変換には、ユーザの手元にあるクライアント計算機６０１上の音声合成部１０６を利用する。これにより、短い処理時間でアクセントが確認でき、編集作業を短時間で実施できる。また、本実施形態でも、第１の実施形態と同様に、音声合成部１０５と音声合成部１０６の発話速度や処理時間のパラメータをそれぞれ設定してもよい。

このように、本実施形態にかかる読み記号列生成装置は、音声合成部１０５を大容量のメモリや高速なＣＰＵを利用できるサーバ計算機６０２上で、音声合成部１０６を通信の遅延がないクライアント計算機６０１上でそれぞれ動作させる。これにより、編集時の音声合成に要する処理時間を短縮すると共に編集後の音声波形の品質を確保することができる。

（第３の実施形態）
第１の実施形態において、第２の音声合成部１０６は、アクセント句単位の読み記号列から当該アクセント句の音声を合成するものであった。このように、アクセント句単位で合成した場合の抑揚は、１文全体を入力して合成した場合の当該アクセント句抑揚と異なる場合がある。これは、アクセント型は同一でも、前後のコンテキストが異なる場合、ピッチの変化パターンが異なることに起因する。本実施形態は、この問題を解決する方法を提供する。

図７は、音声合成部１０６の内部構成を示すブロック図である。音声合成部１０６は、韻律生成部７０１、アクセント句抽出部７０２、波形生成部７０３を備える。韻律生成部７０１は、入力された１文全体の読み記号列について、各音節の継続時間長とピッチパターンを生成する。図８(a)に、読み記号列「ワタシワタナカイチローデ’ス」から生成したピッチパターンの例を示す。次に、アクセント句抽出部７０２では、アクセント型を確認する対象のアクセント句に対応する音節系列とピッチパターンを抽出する。図８(b)に、対象アクセント句が「タナカ」であった場合に抽出されたアクセント句のピッチパターンの例を示す。次に、波形生成部７０３で、音節系列とピッチパターンから音声波形を生成する。ここで、図８(b)のピッチパターンは、対象アクセント句の読み記号列のみから生成されたピッチパターン（図８(c)）とは異なり、１文全体として生成された場合のピッチパターン（図８(a)）と同一である。このように、本実施形態では、対象アクセント句の読み記号列のみではなく、１文全体の読み記号列を利用して当該対象アクセント句のピッチパターンを生成する。したがって、本実施形態では、アクセント句単位の自然性をユーザがより確実に確認できる。

以上の例では、１文全体のピッチパターンから当該アクセント句を抽出する例について説明したが、必ずしも１文全体でなくとも良く、例えば、当該アクセント句の先行および後続のアクセント句を含む３つの連続するアクセント句のピッチパターンから抽出してもよい。当該アクセント句のピッチパターンに強い影響を与えるのは、先行および後続のアクセント句であるから、これらの両方またはいずれか一方を当該アクセント句に付加すれば、一定の効果が得られる。

このように、本実施形態にかかる読み記号列生成装置は、編集対象となるアクセント句のピッチパターンを生成する場合、少なくとも当該アクセント句の先行もしくは後続のアクセント句を含む連続するアクセント句を利用する。これにより、音声波形の自然性の判断が確実になり、結果として編集効率が向上する。

以上の実施形態では、アクセント型の編集について述べたが、編集の対象はこれに限定されるものでは無く、例えばアクセント句境界位置、母音無声化の有無、長音化の有無、区切り記号の種類、アクセントの強弱、文末のイントネーションなどユーザが再生音を試聴して確認する必要がある読み記号列を編集するものであってもよい。

また、以上の実施形態では、図３(b)に示されるように、アクセント型の異なる読み記号列を列挙して、その中から選択するものとして説明したが、アクセント型の編集方法はこれに限定されるものではない。例えば、図９に示したようなインタフェースを用いてもよい。この場合は、読み記号列９０１は1モーラずつ区切られ、アクセント核がフォーカス９０２で表示される。各モーラをマウスでクリックすることで、当該モーラがアクセント核に変更され、変更された読み記号列の音声を合成して再生する。平板型に変更するには、最終モーラをクリックするか、現在アクセント核になっているモーラをクリックすることで、アクセント核を非表示にするようにすればよい。

また、以上の実施形態では、日本語の読み記号列の編集について述べたが、編集対象となる言語は日本語に限定されない。例えば、英語などのヨーロッパ言語の読み記号列の編集において、単語内のストレスが置かれるシラブルの位置の編集に適応してもよい。また、中国語などの声調言語の読み記号列の編集において、各シラブルの声調（四声）の編集に適応してもよい。

以上述べた少なくとも一つの実施形態の読み記号列生成装置によれば、高品質で処理時間の長い音声合成部１０５と処理時間の短い音声合成部１０６を有しており、読み記号列の編集中に音声を合成する際には音声合成部１０６を、読み記号列の編集が終了した後に音声を合成する際には音声合成部１０５を使用する。これにより、編集時の音声合成に要する時間を短縮すると共に編集後の音声波形の品質を確保することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１テキスト入力部
１０２言語処理部
１０３読み記号列記憶部
１０４読み記号列編集部
１０５第１の音声合成部
１０６第２の音声合成部
１０７音声出力部
１０８スピーカ
２０１制御部
２０２記憶部
２０３外部記憶部
２０４操作部
２０５通信部
２０７ディスプレイ
２０８バス
３０１編集ウィンドウ
３０２全文試聴ボタン
３０３音声ファイル保存ボタン
３０４読み記号列
３０５フォーカス
３０６次候補表示ウィンドウ
３０７フォーカス
３０９編集開始ボタン
３１０編集終了ボタン
４０１音声合成部１０５の発話速度を設定するパラメータ
４０２音声合成部１０５の処理時間を設定するパラメータ
４０３音声合成部１０６の発話速度を設定するパラメータ
４０４音声合成部１０６の処理時間を設定するパラメータ
２０５ａ通信部
２０５ｂ通信部
６０１クライアント計算機
６０２サーバ計算機
６１０ネットワーク
７０１韻律生成部
７０２アクセント句抽出部
７０３波形生成部
９０１読み記号列
９０２フォーカス

Claims

テキストを音声合成するための読み記号列を生成する生成手段と、
前記読み記号列から第１の音声を合成する第１の音声合成手段と、
前記読み記号列を編集するための編集手段と、
前記編集手段で編集中の読み記号列から第２の音声を合成する第２の音声合成手段と、
前記第２の音声合成手段が前記第２の音声を合成するまでに要する処理時間が前記第１の音声合成手段が前記第１の音声を合成するまでに要する処理時間よりも短い、あるいは、前記第２の音声合成手段で合成された前記第２の音声の発話速度が前記第１の音声合成手段で合成された前記第１の音声の発話速度とは異なるよう設定するための設定手段とを備え、
前記第１の音声合成手段が、前記編集手段における編集が終了した後の読み記号列から前記第１の音声を合成する読み記号列編集装置。
前記第２の音声合成手段が、前記読み記号列の一部分である部分記号列から前記第２の音声を合成する請求項１記載の読み記号列編集装置。
前記第２の音声合成手段で合成された前記第２の音声のピッチパターンが、前記部分記号列に少なくとも先行または後続のいずれかのアクセント句を付加して音声を合成した場合の前記部分記号列に相当する部分のピッチパターンと同じになるように、前記第２の音声合成手段で前記部分記号列から前記第２の音声を合成する請求項２記載の読み記号列編集装置。
前記読み記号列が、アクセント型、アクセント句境界位置、母音無声化の有無、長音化の有無、区切り記号の種類、アクセントの強弱、文末のイントネーションのうちの少なくとも１つまたはその組み合わせである請求項１から請求項３の何れか１項に記載の読み記号列編集装置。
前記第１の音声合成手段が動作するサーバ計算機と前記第２の音声合成手段が動作するクライアント計算機とがネットワークを介して接続される請求項１から請求項４の何れか１項に記載の読み記号列編集装置。
テキストを音声合成するための読み記号列を生成する生成工程と、
前記読み記号列から第１の音声を合成する第１の音声合成工程と、
前記読み記号列を編集するための編集工程と、
前記編集工程で編集中の読み記号列から第２の音声を合成する第２の音声合成工程と、
前記第２の音声合成工程が前記第２の音声を合成するまでに要する処理時間が前記第１の音声合成工程が前記第１の音声を合成するまでに要する処理時間よりも短い、あるいは、前記第２の音声合成工程で合成された前記第２の音声の発話速度が前記第１の音声合成工程で合成された前記第１の音声の発話速度とは異なるよう設定するための設定工程とを備え、
前記第１の音声合成工程が、前記編集工程における編集が終了した後の読み記号列から前記第１の音声を合成する読み記号列編集方法。
読み記号列編集装置に、
テキストを音声合成するための読み記号列を生成する生成工程と、前記読み記号列から第１の音声を合成する第１の音声合成工程と、を利用させ、
前記読み記号列を編集するための編集工程と、
前記編集工程で編集中の読み記号列から第２の音声を合成する第２の音声合成工程と、
前記第２の音声合成工程が前記第２の音声を合成するまでに要する処理時間が前記第１の音声合成工程が前記第１の音声を合成するまでに要する処理時間よりも短い、あるいは、前記第２の音声合成工程で合成された前記第２の音声の発話速度が前記第１の音声合成工程で合成された前記第１の音声の発話速度とは異なるよう設定するための設定工程とを実現させ、
前記第１の音声合成工程が、前記編集工程における編集が終了した後の読み記号列から前記第１の音声を合成することを実現させるための読み記号列編集プログラム。