JP4326251B2 - Text-to-speech synthesizer, text-to-speech synthesis method and program thereof - Google Patents
Text-to-speech synthesizer, text-to-speech synthesis method and program thereof Download PDFInfo
- Publication number
- JP4326251B2 JP4326251B2 JP2003102148A JP2003102148A JP4326251B2 JP 4326251 B2 JP4326251 B2 JP 4326251B2 JP 2003102148 A JP2003102148 A JP 2003102148A JP 2003102148 A JP2003102148 A JP 2003102148A JP 4326251 B2 JP4326251 B2 JP 4326251B2
- Authority
- JP
- Japan
- Prior art keywords
- correction
- information
- correction history
- prosody
- history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、テキスト音声合成装置に関する。詳しくは、修正履歴を自動的に反映して韻律情報を生成する機能を備えたテキスト音声合成装置に関する。また、本発明は、修正履歴を自動的に反映して韻律情報を生成する方法を含むテキスト音声合成方法と、そのテキスト音声合成方法を実現するプログラムとに関する。
【0002】
【従来の技術】
従来の音声合成においては、音声を構成する音素片を指定されたピッチパターン(韻律情報)にしたがって接続することにより、定められたピッチパターンで合成音声を生成していた。また、従来において、テキスト音声合成のピッチパターンは、入力されたテキストを解析し、その解析結果に基づき、予め定められた韻律生成規則にしたがって生成されていた。
【0003】
生成される韻律は、テキスト解析時や韻律生成時の誤りなどを含むこともあり、この場合は、合成音声作成者(以後、作者と称する)の意図と異なる合成音声が生成されることになる。そのような韻律の誤りを修正するため、また、作者の好む韻律に調整するためには、技術者が韻律情報の記述された韻律ファイルの内容を書き換えるなど、経験に基づいた専門的な操作を行って韻律を決定するパラメータ(ピッチパターン、パワー等)を直接変更する必要があった。
【0004】
このようなピッチパターンの修正を容易に行う方法として、韻律を制御する韻律ファイルの内容をディスプレイ上にグラフィカルに表示し、表示されたパラメータ(ピッチパターン、パワー等)のパターンをマウスで変更する方法が知られている(例えば、特許文献1参照)。この韻律修正方法では、処理された修正が記憶装置に記憶され、同じ韻律ファイルを用いて再度の音声合成を行う場合には、現在のパターンと修正履歴パターンとが表示される。これにより、修正の手間を低減し、かつ、修正の傾向をつかむことで、その後の韻律作成規則の情報を得ようとしている。
【0005】
特許文献1に記載された韻律修正の手順を、図18を参照して簡単に説明する。入力されたテキストは言語処理部401において、読みの情報、品詞の情報、係り受け情報などの言語関連情報が抽出される。その後、それらの言語関連情報を用いて韻律生成部402は、音声合成の基本情報となる韻律ファイル409を生成する。韻律修正部403においては、生成された韻律ファイル409の内容がグラフファイル表示生成部412によって画面表示され、画面表示されたグラフファイルを修正することにより、韻律ファイル409の修正を行う。この修正作業を行う部分がパターン修正部413である。
【0006】
パターン修正部413によって修正された各パラメータの値は、修正履歴データとして修正履歴DB(修正履歴データベース)406に記録される。したがって、再度同じ韻律ファイル409を修正する機会には、過去の修正履歴もグラフファイル表示生成部412によって画面に表示されるため、同等の韻律の修正が容易に行える。また、修正の傾向なども修正履歴を解析することにより得ることができるため、その後の韻律生成における情報の一つとして扱うことができる。
【0007】
このようにして作成された修正後韻律ファイル419に基づき、素片選択部414にて合成用の素片が選択され、音声合成部424はその素片を韻律ファイルにしたがって変形、接続することで合成音声を作成する。
【0008】
【特許文献1】
上記特開平5-232980号公報
【0009】
【発明が解決しようとする課題】
図18に示された従来の方法では、音声合成を行うたびに、作成される韻律ファイル409に対して同じ修正を手動で行っており、その修正履歴も韻律ファイル409ごとに保持されている。したがって、同じ文章を合成する場合には過去の修正履歴を参考にすることができるものの、異なる文章を合成する場合には、同じ修正を過去の修正履歴を参考にすることなく行わなければならなかった。
【0010】
また、韻律ファイル409をパンターン化して修正履歴の修正の傾向を知り、その傾向を一つの情報としてその後の韻律生成規則の改善に用いることにしているが、膨大な条件から作成される韻律生成規則に対して、膨大な修正履歴を解析し韻律生成規則そのものを改善することは個別に韻律ファイルを修正するよりも極めて高度な専門的知識を有する作業となる。つまり、大まかな傾向は把握できたとしても、エンドユーザが自分の好みによって韻律生成規則そのものを簡便に修正することは難しかった。
【0011】
本発明は上記に鑑みなされたものであり、その目的は、エンドユーザが、韻律生成規則そのものを直接修正することなく、また、膨大な韻律情報を音声合成のたびに修正することもなく、嗜好に合った音声合成を簡便に行える方法と、その方法を適用したテキスト音声合成装置と、その方法を実現するプログラムとを提供することにある。
【0012】
【課題を解決するための手段】
上記の課題を解決するために、本発明は、エンドユーザによって韻律情報が修正されたときの修正内容及び修正条件を一対にして、修正履歴情報を構成する修正履歴データとして保持しておき、その修正以降に行われる韻律情報の生成においては、保持されている修正履歴情報を参照し、修正条件に合致する修正履歴データがあれば、その修正条件に対応付けられた修正内容が自動的に反映された韻律情報を生成する機能を有する構成である。
【0013】
上記の構成であれば、修正履歴情報に登録された過去の各修正と同一の修正を改めて行う必要がなくなり、かつ、エンドユーザによって行われた修正に応じて修正履歴情報の学習が逐次進むため、エンドユーザの嗜好に合った韻律情報を簡便に生成することができる。
【0014】
具体的には、本発明に係るテキスト音声合成装置は、テキストデータに対して言語解析を行い、言語情報を抽出する言語解析部と、修正履歴情報を保持する修正履歴保持部と、上記修正履歴情報を管理する修正履歴管理部と、上記修正履歴管理部を介して上記修正履歴情報を参照して、上記言語情報に基づき動的韻律情報を生成する動的韻律生成部と、外部修正命令に応じて上記動的韻律情報に修正を行うことにより確定韻律情報を生成し、かつ、上記外部修正命令に応じた修正に基づいて、上記修正履歴管理部を介して上記修正履歴情報を更新する韻律修正部と、上記言語情報及び上記確定韻律情報に基づいて合成音声を生成する合成音声生成部と、上記修正履歴管理部が、上記動的韻律生成部で参照される修正履歴情報を抽出する修正履歴抽出手段と、上記修正履歴保持部に保持された修正履歴情報を更新する修正履歴更新手段と、を有し、上記修正履歴保持部が、韻律スタイルの互いに異なる複数の修正履歴データベースを有し、上記修正履歴管理部が、選択命令に応じて、上記複数の修正履歴データベースの選択を制御するデータベース選択制御手段を更に有する構成である。
【0015】
また、本発明に係るテキスト音声合成方法は、テキストデータに対して言語解析を行い、言語情報を抽出する言語解析ステップと、修正履歴情報を保持する修正履歴保持ステップと、上記修正履歴情報を管理する修正履歴管理ステップと、上記修正履歴管理部を介して上記修正履歴情報を参照して、上記言語情報に基づき動的韻律情報を生成する動的韻律生成ステップと、外部修正命令に応じて上記動的韻律情報に修正を行うことにより確定韻律情報を生成し、かつ、上記外部修正命令に応じた修正に基づいて、上記修正履歴管理部を介して上記修正履歴情報を更新する韻律修正ステップと、上記言語情報及び上記確定韻律情報に基づいて合成音声を生成する合成音声生成ステップと、上記修正履歴管理ステップが、上記動的韻律生成ステップで参照される修正履歴情報を抽出する修正履歴抽出ステップと、上記修正履歴保持ステップに保持された修正履歴情報を更新する修正履歴更新ステップと、を有し、上記修正履歴保持ステップが、韻律スタイルの互いに異なる複数の修正履歴データベースをさらに保持し、上記修正履歴管理ステップが、選択命令に応じて、上記複数の修正履歴データベースの選択を制御するデータベース選択制御ステップを更に有する。
【0016】
また、本発明に係るテキスト音声合成プログラムは、テキストデータに対して言語解析を行い、言語情報を抽出する言語解析ステップと、修正履歴情報を保持する修正履歴保持ステップと、上記修正履歴情報を管理する修正履歴管理ステップと、上記修正履歴管理部を介して上記修正履歴情報を参照して、上記言語情報に基づき動的韻律情報を生成する動的韻律生成ステップと、外部修正命令に応じて上記動的韻律情報に修正を行うことにより確定韻律情報を生成し、かつ、上記外部修正命令に応じた修正に基づいて、上記修正履歴管理部を介して上記修正履歴情報を更新する韻律修正ステップと、上記言語情報及び上記確定韻律情報に基づいて合成音声を生成する合成音声生成ステップと、上記修正履歴管理ステップが、上記動的韻律生成ステップで参照される修正履歴情報を抽出する修正履歴抽出ステップと、上記修正履歴保持ステップに保持された修正履歴情報を更新する修正履歴更新ステップと、をコンピュータに実行させるテキスト音声合成プログラムにおいて、上記修正履歴保持ステップが、韻律スタイルの互いに異なる複数の修正履歴データベースをさらに保持し、上記修正履歴管理ステップが、選択命令に応じて、上記複数の修正履歴データベースの選択を制御するデータベース選択制御ステップを更に有することを特徴とする。
【0017】
【発明の実施の形態】
本発明の内容を説明すると共に、好ましい実施の形態を記述する。なお、必要に応じて図1及び図2を参照する。図1は、本発明に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図2は、本発明に係るテキスト音声合成方法を概念的に示すブロック図である。
【0018】
図1に示されたテキスト音声合成装置は、テキストデータに対して言語解析を行って、言語情報を抽出する言語解析部101と、修正履歴情報を保持する修正履歴保持部106と、修正履歴情報を管理する修正履歴管理部105と、修正履歴管理部105を介して修正履歴情報を参照して、言語情報に基づき動的韻律情報を生成する動的韻律生成部102と、動的韻律情報に外部修正命令に応じた修正を行って確定韻律情報を生成し、かつ、修正に応じて修正履歴管理部105を介して修正履歴情報を更新する修正韻律修正部103と、言語情報及び確定韻律情報に基づいて合成音声を生成する合成音声生成部104とを含む構成である。
【0019】
図2に示されたテキスト音声合成方法(テキスト音声合成プログラムコード)は、テキストデータに対して言語解析を行って言語情報を抽出する言語解析ステップ201(言語解析プログラムコード)と、修正履歴情報を参照する修正履歴参照ステップ215(修正履歴参照プログラムコード)と、修正履歴参照ステップ215(修正履歴参照プログラムコード)と連携して、言語情報に基づき動的韻律情報を生成する動的韻律生成ステップ202(動的韻律生成プログラムコード)と、外部修正命令に応じて動的韻律情報に修正を行って確定韻律情報を生成する韻律修正ステップ203(韻律修正プログラムコード)と、動的韻律情報の修正に応じて修正履歴情報を更新する修正履歴更新ステップ225(修正履歴更新プログラムコード)と、言語情報及び確定韻律情報に基づいて合成音声を生成する合成音声生成ステップ204(合成音声生成プログラムコード)と、を含む構成である。
【0020】
韻律情報を生成する一般的な方法としては、例えば、言語情報を引数にして、予め定められた韻律生成規則(静的な韻律生成規則)にしたがって韻律情報(静的韻律情報)を生成する方法、及び、予め用意された複数の韻律パターン片の中から1つの韻律パターン片を予め定められた規則(静的な韻律パターン片選択規則)にしたがって選択することにより韻律情報(静的韻律情報)を生成する方法が挙げられる。これに対して、本発明においては、修正履歴情報を参照することにより韻律情報(動的韻律情報)を動的に生成することを本質的な特徴としている。
【0021】
本明細書において、「静的」及び「動的」とは、それぞれ、「修正履歴情報に依存せず固定的」及び「修正履歴情報に依存し、その情報に応じて可変的」を意味する。また、「静的韻律情報」とは、従来の如く修正履歴情報を参照せずに生成された韻律情報を意味する。また、「動的韻律情報」とは、修正履歴情報を参照して生成された韻律情報を意味し、修正履歴情報に合致する場合には、基本の韻律情報と異なる韻律情報となり、修正履歴情報に合致しない場合には、基本の韻律情報と同一の韻律情報となる。
【0022】
まず、テキスト音声合成装置の言語解析部101について説明する。言語解析部101は、音声合成を行う対象のテキストデータに対して言語解析を行う。この言語解析によって、様々な言語情報が抽出される(言語解析ステップ201)。言語情報としては、例えば、読みを特定する情報(音素記号列等)、品詞を特定する情報、係り受けを特定する情報が挙げられる。
【0023】
次に、テキスト音声合成装置の動的韻律生成部102について説明する。動的韻律生成部102は、修正履歴情報を参照して(修正履歴参照ステップ215)、言語情報に基づき動的韻律情報を生成する(動的韻律生成ステップ202)。動的韻律生成部102は、修正履歴情報を参照して動的に韻律情報を生成する限りにおいて、どのような方式で修正履歴情報を参照してもよく、例えば、下記の3つの参照方式が挙げられる。
【0024】
第1の修正履歴参照方式は、動的韻律生成部102において、静的な韻律生成規則にしたがって静的韻律情報を生成し、かつ、生成された静的韻律情報を修正履歴情報に応じて修正することによって、動的韻律情報を生成する方式である。
【0025】
第2の修正履歴参照方式は、動的韻律生成部102において、修正履歴情報に応じて韻律生成規則の韻律生成パラメータの設定を修正し、韻律生成パラメータの設定により変化する動的な韻律生成規則にしたがって動的韻律情報を生成する方式である。
【0026】
第3の修正履歴参照方式は、動的韻律生成部102において、静的な韻律選択規則にしたがって、言語情報に基づき複数の韻律パターン片から1つの最適な韻律パターン片を選択韻律パターン片として選択し、かつ、選択韻律パターン片を修正履歴情報に応じて修正することにより動的韻律情報を生成する方式である。
【0027】
次に、テキスト音声合成装置の韻律修正部103について説明する。韻律修正部103は、動的韻律生成部102で生成された動的韻律情報に対して、外部修正命令に応じた修正を行って確定韻律情報を生成する(韻律修正ステップ203)。
【0028】
韻律修正部103に外部修正命令が入力されなければ、動的韻律情報は、修正されずに確定韻律情報となる。他方、外部修正命令を受信すれば、外部修正命令に応じた修正が動的韻律情報に施されて、修正後の動的韻律情報が確定韻律情報となる。
【0029】
外部修正命令に応じた修正における修正内容及びその修正時の修正条件(以下、一対の修正内容と修正条件を修正履歴データと称す)は、修正履歴保持部106に保存されている修正履歴情報を更新するために、修正履歴管理部105に引渡される(修正履歴更新ステップ203)。ここに、修正履歴情報の更新とは、修正履歴情報に修正履歴データを追加すること、又は、修正履歴情報を構成する修正履歴データの一部を変更することを意味する。
【0030】
修正履歴情報を構成する各修正履歴データにおける修正内容の修正要素としては、修正前後における変化が特定できればいかなる韻律パラメータでもよい。修正要素としては、修正前後における修正量が規定できる韻律パラメータを用いることが好ましい。修正量が規定できる韻律パラメータとしては、例えば、1又は複数の音素記号からなる音素記号列単位や呼気段落単位やアクセント句単位に対する継続時間長、強度パターン(パワーパターン)又は基本周波数パターン(ピッチパターン)が挙げられる。また、各修正履歴データの修正内容の修正要素は、1種類の韻律パラメータのみを含む構成であってもよいし、複数種類の韻律パラメータを含む構成であってもよい。
【0031】
他方、修正履歴データにおける修正条件は、言語情報を用いて条件設定できる。修正条件における条件要素としては、例えば、1又は複数の音素記号からなる音素記号列、品詞、文中位置、アクセント型が挙げられる。動的韻律生成部102が、第1の履歴参照方式を有する場合には、更に、静的韻律情報に含まれる少なくとも1種の韻律パラメータを条件要素として用いることもできる。修正履歴データの修正条件は、1種類の条件要素のみを含む構成であってもよいし、複数種類の条件要素を含む構成であってもよい。
【0032】
韻律修正部103において動的韻律情報を修正する方法としては、例えば、修正可能な韻律パラメータのパターンをグラフィカルに表示し、表示されたパターンに対してマウスなどを用いて修正する方法や、動的韻律情報をテキストで表示し、表示されたテキストを編集することによって修正する方法が挙げられる。
【0033】
更に、動的韻律情報の修正において、修正の反映された修正韻律情報を用いて生成される合成音声を逐次聞きながら修正をインタラクティブに調整してもよい。最終的に調整を完了した状態での修正韻律情報が、確定韻律情報として合成音声生成部104に送られる。この場合には、韻律修正部103が、修正対象となっているテキストデータの断片に対する言語情報及び修正韻律情報に基づいて合成音声を生成するサンプル音声合成手段を有するように構成する。
【0034】
次に、テキスト音声合成装置の修正履歴保持部106及び修正履歴管理部105について説明する。修正履歴保持部106は、韻律修正部103において修正された修正内容をその修正条件と共に修正履歴情報として保持する。また、修正履歴管理部105は、韻律修正部103における修正に応じて修正履歴情報を更新する修正履歴更新手段や、動的韻律生成部102で参照する修正履歴情報を抽出する修正履歴抽出手段を備えた構成である。
【0035】
修正履歴管理部105の修正履歴抽出手段は、動的韻律生成部102から送られてきた修正条件に基づいて、修正履歴保持部106から修正条件に合致する修正履歴データを抽出し、修正条件と対応付けられた修正内容を動的韻律生成部102に送る。修正条件に合致する修正履歴データが修正履歴保持部106に複数存在する場合には、それらすべてに対応する修正内容を抽出して動的韻律生成部102に送る。
【0036】
修正履歴管理部105の修正履歴更新手段は、韻律修正部103から修正内容及び修正条件からなる修正履歴データを受け取ったとき、修正履歴保持部106に保持されている修正履歴情報を更新する。
【0037】
ここで、受け取った修正条件を満たす修正条件を有する修正履歴データが修正履歴保持部106に保持されていない場合には、修正履歴保持部106に修正履歴データを追加することにより修正履歴情報を更新する。
【0038】
また、受け取った修正条件を満たす修正条件と、受け取った修正内容と修正要素が異なる修正内容とを有する既存の修正履歴データが修正履歴保持部106に保持されている場合には、受け取った修正履歴データを追加することにより修正履歴情報を更新してもよいし、それらを統合して複数の修正要素を含む修正内容を有する1つの新たな修正履歴データに置き換えてもよい。
【0039】
また、修正履歴管理部105は、韻律修正部103から修正履歴データを受け取ったとき、受け取った修正条件を満たす修正条件と、受け取った修正内容と修正要素が同一でありかつ修正処理は異なる修正内容とを有する既存の修正履歴データが修正履歴保持部106に保持されている場合には、基本の韻律情報に対して相対的に決定される最終の修正内容を次回以降の動的韻律生成において反映させることができるように更新する。この場合の更新においては、既に存在する修正履歴データと関連付けて修正履歴データを追加してもよいし、過去の修正内容との差分を考慮して新たな1つの修正履歴データに置き換えてもよい。
【0040】
修正履歴保持部106は、単一の修正履歴DBで構成されていてもよいし、韻律スタイルの互いに異なる複数の修正履歴DBで構成されていてもよい。韻律スタイルとは、例えば、大阪弁や京都弁などの方言に応じた口調のスタイル、及び、悲しい口調、楽しい口調、激しい口調、優しい口調などの感情に応じた口調のスタイルを意味する。なお、修正履歴保持部106が複数の修正履歴DBを有する構成の場合、修正履歴情報とは、すべての修正履歴DBに含まれる韻律修正データ全体、つまり、修正履歴保持部に保持された韻律修正データ全体を意味することに注意を要する。
【0041】
以下においては、修正履歴保持部106が複数の修正履歴DBを有する場合について説明する。必要に応じて図3及び図4を参照する。図3は、複数の修正履歴DBからなる修正履歴保持部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。図4(a)〜(c)は、複数の修正履歴DBの選択を制御するDB選択制御手段の構成例を概念的に示すブロック図である。
【0042】
図3に示されるように、修正履歴保持部106が複数の修正履歴DB116を有する場合には、修正履歴管理部105が、修正履歴抽出手段115及び修正履歴更新手段125と共に、修正履歴DBからの修正履歴データの抽出又は修正履歴DBへの修正履歴情報の更新において、いずれの修正履歴DBに対して行うかを制御するためのDB選択制御手段135を有する構成とする。
【0043】
DB選択制御手段135は、動的韻律生成部102によって参照される修正履歴DB(以下、参照用修正履歴DBとも称す)及び韻律修正部103における修正に基づいて更新される修正履歴DB(以下、更新用修正履歴DBとも称す)として、同一の修正履歴DBを選択する手段であってもよいし、参照用修正履歴DBと更新用修正履歴DBとを互いに独立に選択する手段であってもよい。以下に、DB選択制御手段135の具体的な構成について説明する。
【0044】
図4(a)に示されたように、修正履歴管理部105は、共通選択命令に応じて、複数の修正履歴DB116の少なくとも1つを共通修正履歴DBとして選択する共通DB選択制御手段145を有する構成(第1の構成)とすることができる。第1の構成の場合、動的韻律生成部102は、共通修正履歴DBに含まれる修正履歴情報を選択的に参照し、韻律修正部103は、共通修正履歴DBに含まれる修正履歴情報を選択的に更新することとなる。なお、選択命令として、共通選択命令が用いられている。
【0045】
上記の構成であれば、目的に応じて複数の修正履歴DB116のうち1つ又は複数の修正履歴DBの修正履歴情報を選択的に動的韻律生成に反映させることができ、かつ、1回の韻律修正によって1つ又は複数の修正履歴DBの修正履歴情報を選択的に更新できる。また、動的韻律生成部102において、所望の韻律スタイルを反映させた動的韻律情報を簡便に生成することができる。
【0046】
また、図4(b)に示されたように、修正履歴管理部105は、参照選択命令に応じて複数の修正履歴DB116の少なくとも1つを参照用修正履歴DBとして選択する参照用DB選択制御手段155と、更新選択命令に応じて複数の修正履歴DB116の少なくとも1つを更新用修正履歴DBとして選択をする更新用DB選択制御手段165とを有する構成(第2の構成)とすることができる。第2の構成の場合、動的韻律生成部102は、参照用修正履歴DBに含まれる修正履歴情報を選択的に参照し、韻律修正部103は、更新用修正履歴DBに含まれる修正履歴情報を選択的に更新することとなる。なお、選択命令として、参照選択命令と更新選択命令が用いられている。
【0047】
修正履歴管理部105が第1の構成の場合には、参照用修正履歴DBと更新用修正履歴DBとに対して共通の制御がなされるが、第2の構成の場合は、参照用修正履歴DBと更新用修正履歴DBとに対して独立した制御をすることができる。これにより、修正履歴情報を柔軟かつ効果的に更新させることができる。つまり、修正履歴の学習を効率良く行うことができる。
【0048】
また、修正履歴管理部105は、共通選択命令に応じて、複数の修正履歴DB116の少なくとも1つを共通修正履歴DBとして選択する共通DB選択制御手段145を有し、かつ、選択変更命令に応じて、共通DB選択制御手段145で選択された修正履歴DBのいずれかに対する選択の解除及び/又は共通DB選択手段145で選択された修正履歴DB以外の修正履歴DBの追加選択を行う選択DB変更手段175を有する構成とすることができる。
【0049】
選択DB変更手段175は、動的韻律生成部102によって参照される修正履歴DBと韻律修正部103における修正に基づいて更新される修正履歴DBの双方に対して共通の変更又は双方に独立な変更を加えてもよい。更に、動的韻律生成部102によって参照される修正履歴DB及び韻律修正部103における修正に基づいて更新される修正履歴DBの一方のみに対して変更を加えてもよい。
【0050】
図4(c)には、修正履歴管理部105が、韻律修正部103における修正に基づいて更新される修正履歴DBに対して変更を加える選択DB変更手段175を有する構成(第3の構成)が示されている。第3の構成の場合、動的韻律生成部102は、共通DB選択制御手段145により選択された少なくとも1つの修正履歴DB(参照用修正履歴DB)に含まれる修正履歴情報を選択的に参照し、韻律修正部103は、共通DB選択制御手段145及び選択DB変更手段175で決定された少なくとも1つの修正履歴DB(更新用修正履歴DB)に含まれる修正履歴情報を選択的に更新することとなる。なお、選択命令として、共通選択命令及び選択変更命令が用いられている。
【0051】
第3の構成であれば、更新用修正履歴DBを、参照用修正履歴DBから独立させ、かつ、修正履歴保持手段106における複数の韻律履歴DB116から任意に選択することができる。韻律修正部103で動的韻律情報に対して修正を行う場合、通常、動的韻律情報の生成において参照された韻律スタイル(修正履歴DB)に対しては修正を反映させるため、上記の第2の構成に比べて、修正履歴情報を簡便、柔軟、かつ、効果的に更新させることができる。
【0052】
また、修正履歴管理部105は、共通選択命令に応じて、複数の修正履歴データベース116の少なくとも1つを共通修正履歴DBとして選択する共通DB選択手段145を有し、かつ、選択変更命令に応じて、共通修正履歴DBで構成された更新用修正履歴DBに新たな修正履歴DBの追加のみを行う選択DB変更手段175を有する構成(第4の構成)としてもよい。第4の構成の場合、動的韻律生成部102は、共通DB選択制御手段145により選択された共通修正履歴DBで構成される参照用修正履歴DBに含まれる修正履歴情報を選択的に参照し、韻律修正部103は、共通修正履歴DBと選択DB変更手段で追加された少なくとも1つの修正履歴DBとで構成される更新用修正履歴DBに含まれる修正履歴情報を選択的に更新することとなる。なお、選択命令として、共通選択命令及び選択変更命令が用いられている。
【0053】
韻律修正部103で動的韻律情報に対して修正を行う場合、通常、動的韻律情報の生成において参照された韻律スタイル(修正履歴DB)に対しては修正を反映させるため、更新用修正履歴DBには、参照用修正履歴DBを構成するすべての修正履歴DBが含まれていることがより好ましい。したがって、第4の構成であれば、第3の構成に比べて構成が簡素であるにも関わらず、第3の構成と同等の効果を発現する。
【0054】
複数の修正履歴DB116のいずれを選択するかは、装置又はアプリケーションの立ち上げごとに決定してもよいし、テキストデータごとに決定してもよい。更に、アプリケーション上で、修正履歴DBを韻律修正部103における動的韻律情報の修正ごとに適宜決定してもよい。更に、修正履歴管理部105のDB選択制御手段135が上記第2の構成、上記第3の構成、上記第4の構成などである場合(少なくとも2種の手段を有する構成の場合)には、複数の決定方法を併用することもできる。
【0055】
テキストデータごとに修正履歴DBを選択する場合には、アプリケーション上で作者が選択してもよいし、テキストデータと共にテキストファイルに含まれる制御コード(スタイル選択情報)等に応じて選択してもよい。前者の場合、選択命令を入力する選択命令入力部を、後者の場合、テキストファイルを解析して選択命令を生成する選択命令生成部を更に含むテキスト音声合成装置とする。
【0056】
最後に、テキスト音声合成装置の合成音声生成部104について説明する。音声合成生成部104では、言語情報及び確定韻律情報に基づき素片の選択と素片の変形と素片の接続とを行うことによって、合成音声を生成する(合成音声作成ステップ)。なお、言語情報と確定韻律情報を用いた合成音声の生成においては、従来のいかなる公知技術を用いてもよい。
【0057】
(実施の形態1)
本実施の形態1においては、第1の修正履歴参照方式を適用した動的韻律生成部を有するテキスト音声合成装置について説明する。必要に応じて、図5及び図6を参照する。図5は、本実施の形態1に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図6は、本実施の形態1に係るテキスト音声合成装置における特徴部分を詳細に説明するための説明図である。
【0058】
図5に示されたテキスト音声合成装置は、テキスト保持部107と、言語解析部101と、静的韻律生成手段112、フィルタリング手段122及びフィルタ制御手段132を有する動的韻律生成部102と、韻律修正部103と、表示部117と、修正命令入力部127と、単一の修正履歴DBを有する修正履歴保持部106と、修正履歴抽出手段115及び修正履歴更新手段125を有する修正履歴管理部105と、素片保持手段134、素片選択手段114及び音声合成手段124とを有する合成音声作成部104と、音声出力部137とを含む構成である。
【0059】
図5に示されたテキスト音声合成装置の動作について説明する。言語解析部101において、テキスト保持部107に保持されたテキストデータに対して、所定の単位で言語解析が行われ、その結果、言語情報が抽出される(言語処理ステップ)。抽出された言語情報は、動的韻律生成部102の静的韻律生成手段112に送られる。
【0060】
静的韻律生成手段112において、送られてきた言語情報に基づき、静的な韻律生成規則にしたがって静的韻律情報が生成される(静的韻律生成ステップ)。生成された静的韻律情報は、言語情報と共にフィルタリング手段122に送られる。
【0061】
フィルタリング手段122において、送られてきた言語情報と静的韻律情報から修正条件が生成される。生成された修正条件は、フィルタリング処理の処理内容を決定するために、フィルタ制御手段132に送られる。
【0062】
フィルタ制御手段132において、送られてきた修正条件に合致する韻律修正データが修正履歴保持部106の韻律修正DBに含まれているか否かを確認するために、その修正条件が修正履歴管理部105の修正履歴抽出手段115に送られる。ここに、修正履歴保持部106が1種の韻律修正DBのみを有するため、修正履歴DBに含まれる情報全体が修正履歴情報である。
【0063】
修正履歴抽出手段115において、修正履歴保持部106の修正履歴DBが検索され、その結果、送られてきた修正条件に合致する修正履歴データが存在すれば、その修正履歴データが抽出される。抽出された韻律修正データは、フィルタ制御手段132に送られる。ここに、修正条件に合致する修正履歴データが複数存在していれば、それらすべての修正履歴データがフィルタ制御手段132に送られる。また、修正条件に合致する修正履歴データが存在していなければ、その旨をフィルタ制御手段132に通知する。
【0064】
フィルタ制御手段132において、送られてきた修正履歴データから静的韻律情報における各韻律パラメータの修正量を決定し、フィルタリング手段122に通知する。ここに、修正履歴抽出手段115から複数の修正履歴データが送られてきた場合は、それらすべてを反映するように各韻律パラメータの修正量を決定する。また、修正履歴データが存在しない旨の通知があれば、修正を行わない旨、又は、各韻律パラメータの修正量がゼロである旨の通知をフィルタリング手段122に通知する。
【0065】
フィルタリング手段122において、フィルタ制御手段132で決定された各韻律パラメータの修正量に基づき、静的韻律情報を修正して、動的韻律情報を生成する。生成された動的韻律情報は、言語情報と共に、韻律修正部103に送られる。ここに、フィルタリング手段122における修正は、修正履歴情報に応じて自動的に行われること、及び、動的韻律情報は、修正履歴情報の反映された韻律情報であることに注意を要する。
【0066】
韻律修正部103は、送られてきた動的韻律情報を表示部117にグラフィカルな画像として表示させる。表示部117に表示された動的韻律情報に対して、修正命令入力部127からの外部修正命令にしたがって、所望の追加修正が行われる。ここに、韻律修正部103における修正は、従来技術の如く手作業によって行われることに注意を要する。
【0067】
韻律修正部103における追加修正に対して、修正条件及び修正内容をセットにした修正履歴データが生成される。生成された修正履歴データは、修正履歴保持部106における修正履歴DBを更新するために、修正履歴管理部105の修正履歴更新手段125に送られる。また、所望の修正が加えられた動的韻律情報は、確定韻律情報として、言語情報と共に合成音声生成部104の素片選択手段114に送られる。
【0068】
修正履歴管理部105の修正履歴更新手段125は、送られてきた修正履歴データに基づき、修正履歴保持部106の修正履歴DBを更新する。ここに、フィルタリング手段122での次回からのフィルタリング処理において、更新された修正履歴DBが参照されることに注意を要する。また、同一ファイル内に限らず、第1のファイルに対する修正は、第1のファイルと異なる第2のファイルに含まれるテキストデータをテキスト音声合成する場合のフィルタリング処理にも反映されることに注意を要する。
【0069】
合成音声生成部104の素片選択手段114において、韻律修正部103から送られてきた言語情報に基づき素片保持部134に保持された素片群から最適な素片が選択される。選択された素片は、音声合成手段124に送られる。
【0070】
素片保持部134に保持された素片は、単素片であってもよいし、合成素片であってもよい。合成素片としては、例えば、CV単位(C:子音、V:母音)の素片、VC単位の素片、CVC単位の素片及びVCV単位の素片が挙げられる。素片群は、単素片のみからなる構成、1種類の合成素片のみからなる構成、複数種類の合成素片からなる構成、及び、単素片及び1又は複数の合成素片からなる構成であってもよい。
【0071】
合成音声生成部104の音声合成手段124において、送られてきた素片が確定韻律情報に基づき変形されかつ接続されることにより、合成音声が生成される。生成された合成音声は、音声出力部137において出力される。
【0072】
以上の処理を経ると、作者の過去の修正が自動的に反映されて好みに近い合成音声を生成する動的韻律情報に対して、手動の追加修正が行われるため、基本の韻律情報(静的韻律情報)に対して手動の修正を行う従来のテキスト音声合成又は韻律生成規則を手動で修正する従来のテキスト音声合成に比べて、任意のテキストデータを好みに合った合成音声として簡便に出力させることができる。
【0073】
ここで、図6に示された具体例に基づいて、フィルタリング手段122におけるフィルタリング処理を詳細に説明する。自動的に修正される韻律情報としては継続時間長、パワーパターン、ピッチパターンなどが考えられるが、この具体例では、生成される韻律情報に含まれる韻律パラメータがピッチパターンである場合について説明する。なお、以下の説明において、各部材及び各手段については、図5に示された参照符号を付す。
【0074】
まず、過去において行われた韻律修正について説明する。韻律修正部103において、グラフィカルに表示されたピッチパターンに対してマウスを用いた修正305a、又は、テキストで表示されたピッチパターンに対するテキスト編集による修正305bが行われている。ここに、修正前のピッチパターンは、最初の音素記号/a/のピッチが400Hz、最後の音素記号/a/のピッチが300Hzであること意味している。なお、子音に対してはピッチが定義されないため、/k/には数値が与えられていない。過去の韻律修正においては、最後の音素記号/a/のピッチが300Hzから200Hzに変更されている。
【0075】
上記のいずれの方法で韻律修正を行っても、同一の修正履歴データ306が生成される。生成された修正履歴データ306は、修正履歴DB116に格納される。
【0076】
修正履歴DB116に登録された修正履歴データ306は、修正条件として、文中位置が文末であり、音素記号列(対象音素記号、先行音素記号、後続音素記号)が(/a/、/k/、/−/)であり、モーラ数が2であり、かつ、アクセント型が0型であることを含んでおり、修正内容には、対象音素音素/a/のピッチを100Hzだけ下げることを意味する修正処理を含んでいる。
【0077】
次に、過去の韻律修正後における動的韻律情報の生成について説明する。静的韻律生成手段112により生成された静的韻律情報301として、音素記号列(/a/、/k/、/a/)に対応するピッチパターン(400Hz、−、300Hz)がフィルタリング手段122に与えられた場合、修正条件302が生成される。
【0078】
フィルタ制御手段132においては、修正条件302に基づいて修正履歴DB116を参照し、修正条件の合致する修正履歴データ306を得る。修正履歴データ306に修正内容(−100Hz:100Hz下げる)が存在するため、「最後の音素記号/a/のピッチを100Hz下げる」との修正内容303をフィルタリング手段122に送る。
【0079】
フィルタリング手段122においては、送られてきた修正内容303に基づき、最後の音素記号/a/に対するピッチパターンを100Hz下げる。つまり、ピッチパターンを(400Hz、−、300Hz)から(400Hz、−、200Hz)に修正する。修正されたピッチパターンは、動的韻律情報304として韻律修正部103に送られる。
【0080】
これにより、静的韻律生成手段112において生成された修正条件に合致する修正履歴データが既に修正履歴情報に含まれている場合には、過去に行った修正と同じ修正が自動的に施された動的韻律情報を生成できる。
【0081】
(実施の形態2)
本実施の形態2においては、第1の修正履歴参照方式を適用した動的韻律生成部を有し、かつ、韻律スタイルの互いに異なる複数の韻律DBを有する修正履歴保持部を有するテキスト音声合成装置について説明する。なお、必要に応じて図7及び図8を参照する。図7は、本実施の形態2に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図8は、本実施の形態2に係るテキスト音声合成装置の特徴部分を詳細に説明するための説明図である。
【0082】
図7に示されたテキスト音声合成装置は、テキスト保持部107と、言語解析部101と、静的韻律生成手段112、フィルタリング手段122及びフィルタ制御手段132を有する動的韻律生成部102と、韻律修正部103と、表示部117と、修正命令入力部127と、複数種類の修正履歴DB116を有する修正履歴保持部106と、修正履歴抽出手段115、修正履歴更新手段125及びDB選択制御手段135を有する修正履歴管理部105と、選択命令入力部127と、素片保持手段134、素片選択手段114及び音声合成手段124とを有する合成音声生成部104と、音声出力部137とを含む構成である。この構成であれば、修正履歴保持部106が複数の修正履歴DB116を有することにより、複数の韻律スタイルから所望の韻律スタイルを選択的に反映させる韻律修正を自動的に施すことができる。
【0083】
図7に示されたテキスト音声合成装置の動作について説明する。なお、図7に示されたテキスト音声合成装置における動作は、修正履歴管理部における修正履歴情報の更新及び参照の方法が異なる以外、上記実施の形態1のテキスト音声合成装置と基本的に同様であるので、共通部分についての説明は省略する。
【0084】
まず、修正履歴情報の更新においては、韻律修正部103からの新規な修正履歴データに応じて修正履歴更新手段125は、選択命令入力部147からの修正命令に応じて選択された少なくとも1つの修正履歴DBに対して、修正履歴情報の更新を行う。
【0085】
次に、修正履歴情報の参照においては、動的韻律生成部102(フィルタ制御手段132)からの要求に応じて修正履歴抽出手段115は、選択命令入力部147からの選択命令に応じて選択された少なくとも1つの修正履歴DBに対して検索を行い、修正条件に合致する修正履歴データを抽出する。
【0086】
ここで、図8に示された具体例に基づいて、修正履歴管理部105における修正履歴情報の更新及び参照の方法について詳細に説明する。自動的に修正される韻律情報としては継続時間長、パワーパターン、ピッチパターンなどが考えられるが、この具体例では、生成される韻律情報に含まれる韻律パラメータがピッチパターンである場合について説明する。なお、以下の説明において、各部材及び各手段については、図7に示された参照符号を付す。
【0087】
まず、過去において行われた韻律修正について説明する。韻律修正部103において韻律修正314が行われ、修正履歴データ315が生成された。生成された修正履歴データ315には、音素記号列(/a/、/k/、/a/)に対応するピッチパターン(400Hz、−、300Hz)をピッチパターン(400Hz、−、200Hz)に修正する修正内容が含まれている。この修正履歴データ315は、選択命令によって、修正履歴DB−A126に格納された。なお、修正条件の図示は省略した。
【0088】
更に、韻律修正部103において韻律修正316が行われ、修正履歴データ317が生成された。生成された修正履歴データ317には、音素記号列(/a/、/k/、/a/)に対応するピッチパターン(400Hz、−、300Hz)をピッチパターン(400Hz、−、350Hz)に修正する修正内容が含まれている。この修正履歴データ317は、選択命令によって、修正履歴DB−B136に格納された。なお、修正履歴データ317における修正条件の図示は省略したが、上記修正履歴データ315における修正条件と同一であるとする。
【0089】
次に、過去の韻律修正後における動的韻律情報の生成について説明する。静的韻律生成手段112により生成された静的韻律情報311として、音素記号列(/a/、/k/、/a/)に対応するピッチパターン311(400Hz、−、300Hz)がフィルタリング手段122に与えられた場合、修正条件を生成し、フィルタ制御手段132を介して修正履歴管理部105の修正履歴抽出手段115に生成された修正条件を送る。なお、生成された修正条件は、上記の修正履歴データ315における修正条件及び修正履歴データ317における修正条件と同一であるとする。
【0090】
DB選択制御手段135において、予め入力された選択命令によって修正履歴DB−B136の選択312がなされているので、修正履歴抽出手段125は、修正履歴DB−B136に保持されている修正履歴データのみを検索し、修正条件に合致する修正履歴データ317を抽出する。ここに、修正条件に合致する修正履歴データが修正履歴DB−A126にも存在しているが、修正履歴DB−A126の修正履歴データ315は抽出されないことに注意を要する。抽出された修正履歴データ317は、動的韻律生成部のフィルタ制御手段132に送られる。
【0091】
フィルタ制御手段132では、修正履歴データ317には、修正条件に対応付けられた修正処理(+50Hz:50Hz上げる)が含まれているため、「最後の音素記号/a/のピッチを50Hz上げる」との修正内容を決定する。決定された修正内容は、フィルタリング手段122に送られる。
【0092】
フィルタリング手段122においては、送られてきた修正内容に基づき、最後の音素記号/a/に対応するピッチパターンを50Hz上げる。つまり、ピッチパターン(静的韻律情報)311を(400Hz、−、300Hz)から(400Hz、−、350Hz)に修正する。修正されたピッチパターン(動的韻律情報)313は、韻律修正部103に送られる。
【0093】
韻律修正部103において、送られてきたピッチパターン313に更なる修正を行う場合には、改めて選択命令によって修正履歴DBの選択を変更しない限り、修正履歴DB−B136が選択されている。
【0094】
これにより、複数の韻律スタイルのうち所望の韻律スタイルが反映された動的韻律情報を生成することができる。また、複数の韻律スタイルのうち所望の韻律スタイルに対応する修正履歴情報のみを更新することができる。
【0095】
ここで、修正履歴DBを選択する方法について説明する。選択命令入力部147においては、アプリケーション上の韻律スタイル選択ボタン(修正履歴DB選択ボタン)の押下などによって、外部から入力される選択命令により、修正履歴DB116を切り替えることとなる。
【0096】
図7に示されたテキスト音声合成装置は、修正履歴DB116を選択するための選択命令を入力する選択命令入力部147を備える構成であるが、他の構成によって、DB選択制御手段135に選択命令を入力することもできる。図9は、図7における選択命令入力部147に代えて、選択命令生成部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。
【0097】
図9に示されたように、テキスト音声合成装置は、テキスト保持手段107に保持されたテキストデータから制御コードを解析して韻律スタイル情報を抽出し、抽出された韻律スタイル情報に基づいて選択命令を生成する選択命令生成部108を備えた構成である。
【0098】
選択命令生成部108は、テキストデータに韻律スタイル情報を1つだけ含み、テキストデータごとに韻律スタイルを決定する手段であっても、テキストデータに複数の韻律スタイル情報を含み、テキストデータの断片ごとに韻律スタイルを決定する手段であってもよい。例えば、解析された制御コードに、同一ファイル内の文章1及び文章2に対して、それぞれ、韻律スタイルA及び韻律スタイルBを適用することを記載した内容を含む場合、動的韻律生成部102において、文章1に対して韻律スタイルAでピッチパターンを生成させ、文章2に対して韻律スタイルBでピッチパターンを生成させることができる。
【0099】
(実施の形態3)
本実施の形態3においては、第2の修正履歴参照方式を適用した動的韻律生成部を有するテキスト音声合成装置について説明する。必要に応じて、図10及び11を参照する。図10は、本実施の形態3に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図11は、本実施の形態3に係るテキスト音声合成装置における特徴部分を詳細に説明するための説明図である。
【0100】
図10に示されたテキスト音声合成装置は、テキスト保持部107と、言語解析部101と、韻律生成パラメータ制御手段142及び韻律生成規則制御手段152を有する動的韻律生成部102と、韻律修正部103と、表示部117と、修正命令入力部127と、修正履歴DBを有する修正履歴保持部106と、修正履歴抽出手段115及び修正履歴更新手段125を有する修正履歴管理部105と、素片保持手段134、素片選択手段114及び音声合成手段124を有する合成音声生成部104と、音声出力部137を含む構成である。
【0101】
図10に示されたテキスト音声合成装置の動作について説明する。なお、動的韻律生成部の構成以外については、上記の実施の形態1と同様であるため、その説明を省略する。
【0102】
動的韻律生成部102の動的韻律生成手段142においては、言語解析部101から送られてきた言語情報に基づき、韻律情報の生成に必要な基本の韻律生成パラメータが決定され、かつ、修正条件が生成される。生成された修正条件は、動的韻律情報の生成に用いる韻律生成パラメータを確定するために、韻律生成規則制御手段152に送られる。
【0103】
韻律生成規則制御手段152において、送られてきた修正条件は、その修正条件に合致する韻律修正データが修正履歴保持部106の修正履歴DB(修正履歴情報)に含まれているか否かを確認するため、修正履歴管理部105の修正履歴抽出手段115に送られる。
【0104】
修正履歴抽出手段115において、送られてきた修正条件に基づいて修正履歴保持部106の修正履歴DBを検索し、その結果、その修正条件に合致する修正履歴データが存在すれば、その修正履歴データを抽出する。抽出された修正履歴データは韻律生成規則制御手段152に送られる。ここに、修正条件に合致する修正履歴データが複数存在していれば、それらすべての修正履歴データが韻律生成規則制御手段152に送られる。また、修正条件に合致する修正履歴データが存在していなければ、その旨を韻律生成規則制御手段152に通知する。
【0105】
韻律生成規則制御手段152において、送られてきた修正履歴データに基づき各韻律生成パラメータの修正を確定し、動的韻律生成手段142に通知する。また、修正履歴データが存在しない旨の通知があれば、修正を行わない旨、又は、各韻律パラメータの修正がゼロである旨の通知を動的韻律生成手段142に通知する。ここに、修正履歴抽出手段115から複数の修正履歴データが送られてきた場合は、それらすべての修正履歴データに含まれる修正内容を反映するように各韻律生成パラメータの修正を確定する。
【0106】
動的韻律生成手段142において、言語解析部101で生成された言語情報に基づき、韻律生成規則制御手段152で決定された韻律生成パラメータを用いた韻律生成規則にしたがって動的韻律情報を生成する。生成された動的韻律情報は、言語情報と共に、韻律修正部103に送られる。ここに、韻律生成規則制御手段152で決定された各韻律生成パラメータに基づき動的な韻律生成規則が決定されていることに注意を要する。また、動的韻律生成手段142における韻律生成規則の変更は、修正履歴情報に応じて自動的に行われること、及び、動的韻律情報は、修正履歴情報の反映された韻律情報であることに注意を要する。
【0107】
ここで、図11に示された具体例に基づいて、動的韻律修正手段142における韻律生成規則の制御の方法を詳細に説明する。なお、生成される動的韻律情報としては時間長、パワー、ピッチパターンなどが考えられるが、この具体例では、生成される動的韻律情報に含まれる韻律パラメータがピッチパターンである場合について説明する。なお、以下の説明において、各部材及び各手段については、図10に示された参照符号を付す。
【0108】
動的韻律生成手段142におけるピッチパターンを生成するモデルとしては、藤崎モデルを用いる。藤崎モデルとは、ピッチパターンを呼気段落の減衰を表現するフレーズ成分とアクセントごとのピッチ変動を表すアクセント成分との重畳で表現するものである。また、藤崎モデルでは、フレーズの減衰の傾きなど様々なパラメータを調整可能であるが、本具体例ではフレーズの大きさを表すフレーズ指令とアクセントの大きさを表すアクセント指令の2つのパラメータによりピッチパターンの生成を行う。
【0109】
まず、過去において行われた韻律修正について説明する。韻律修正部103において、グラフィカルに表示されたピッチパターンに対してマウスを用いた修正325が行われた。ここに、フレーズ指令「h」及びアクセント指令「a」を用いて生成された修正前のピッチパターンは点線で、修正後のピッチパターンは実線で記されている。
【0110】
この修正に伴い、修正後のピッチパターンを生成するために必要な韻律生成パラメータの算出326が行われる。この具体例においては、フレーズ指令に対しては「h」のままで変化はなく、アクセント指令に対しては「a」が「a’」に変化する。
【0111】
修正後のピッチパターンを生成するために必要な韻律生成パラメータを算出する方法としては、公知の方法を用いることができる。例えば、ピッチパターンを生成する韻律生成パラメータは、修正後のピッチパターンをターゲットとした最小自乗法などを用いて、推定したい韻律生成パラメータを未知数とした線形方程式を解くことによって得られる。
【0112】
修正後のピッチパターンを生成するために必要な韻律生成パラメータが算出されると、引き続き、修正履歴データ327が生成される。生成された修正履歴データ327は、修正履歴DB116に格納される。
【0113】
生成された修正履歴データ327は、修正条件に、文中位置が文末であり、音素記号列(修正音素、先行音素、後続音素)が(/a/、/k/、/−/)であり、モーラ数が3であり、かつ、アクセント型が0型であることを含んでおり、修正内容には、アクセント指令を「a」から「a’」に修正することを意味する処理内容を含んでいる。
【0114】
次に、過去の韻律修正後における動的韻律情報の生成について説明する。動的韻律生成手段142において、基本の韻律生成パラメータ321として、フレーズ指定「h」及びアクセント指令「a」が生成されると共に、修正条件322が生成される。生成された修正条件322は、韻律正規規則制御手段152に送られる。ここに、生成された修正条件には、文中位置が文末であり、音素記号列(対象音素記号、先行音素記号、後続音素記号)が(/a/、/k/、/−/)であり、モーラ数が3であり、かつ、アクセント型が0型であることが含まれている。
【0115】
韻律生成規則制御手段152においては、送られてきた修正条件に基づいて修正履歴DB116を検索し、検索した結果、修正条件の合致する修正履歴データ327を得る。修正履歴データ327には、送られてきた修正条件に対応付けられた修正内容323(aをa’に変更する:ピッチパターンを左上段図の点線から実線のパターに変更する)が存在するため、アクセント指令「a」が「a’」に修正されて修正韻律生成パラメータ324が確定する。修正韻律生成パラメータ324は動的韻律生成手段142に送られる。
【0116】
動的韻律生成手段142においては、送られてきた修正韻律生成パラメータ324に基づき、フレーズ指定「h」及びアクセント指令「a’」を修正韻律生成パラメータとして用いた韻律生成規則が決定され、決定された韻律生成規則にしたがって、言語情報に基づき動的韻律情報が生成される。生成された動的韻律情報は韻律修正部103に送られる。
【0117】
これにより、動的韻律生成手段142において生成された修正条件に合致する修正履歴データが既に修正履歴情報に含まれている場合には、過去に行った修正と同じ修正が自動的に施された動的韻律情報を生成できる。
【0118】
上記においては、ピッチパターンを生成するモデルとして、藤崎モデルを用いて説明を行ったが、その他のモデルを用いても同様に、過去に行った修正を自動的に反映させることができる。ピッチパターン以外の制御を行う場合には、例えば、韻律情報における継続時間長やパワーパターンなどを制御する場合は、制御する韻律パラメータごとに適したモデルを利用する必要がある。
【0119】
また、上記においては、修正履歴保持手段が単一の修正履歴DBを有する構成について説明したが、上記実施の形態2で説明したように複数の修正履歴DBを有する構成とすることもできる。図12及び図13は、第2の履歴参照方式の動的韻律生成部と、韻律スタイルの互いに異なる複数の韻律修正DBを有する修正履歴保持部とを含むテキスト音声合成装置の概念的な構成を示すブロック図である。なお、修正履歴管理部がDB選択制御手段を有し、修正履歴保持手段が複数の修正履歴DBを有すること以外、図10に示されたテキスト音声合成装置と概ね同一の構成である。
【0120】
また、図12及び図13に示されたテキスト音声合成装置は、それぞれ、図7及び図9に示されたテキスト音声合成装置における静的韻律生成手段112、フィルタリング手段122及びフィルタ制御手段132を有する動的韻律生成部を、動的韻律生成手段142及び韻律生成規則制御手段152を有する動的韻律生成部に変更した以外同じ構成である。
【0121】
図12及び図13に示されたテキスト音声合成装置における複数の修正履歴DBの参照方法及び更新方法は、上記実施の形態2と同等であるため、その説明は省略する。
【0122】
(実施の形態4)
本実施の形態4においては、第3の修正履歴参照方式を適用した動的韻律生成部を有するテキスト音声合成装置について説明する。必要に応じて、図14及び図15を参照する。図14は、本実施の形態4に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図15は、本実施の形態4に係るテキスト音声合成装置における特徴部分を詳細に説明するための説明図である。
【0123】
図14に示されたテキスト音声合成装置は、テキスト保持部107と、言語解析部101と、韻律パターン選択手段162、韻律パターン修正手段172、パターン片修正制御手段182及び韻律パターン片保持手段192を有する動的韻律生成部102と、韻律修正部103と、表示部117と、修正命令入力部127と、修正履歴DBを有する修正履歴保持部106と、修正履歴抽出手段115及び修正履歴更新手段125を有する修正履歴管理部105と、素片保持手段134、素片選択手段114及び音声合成手段124とを有する合成音声生成部104と、音声出力部137とを含む構成である。
【0124】
図14に示されたテキスト音声合成装置の動作について説明する。なお、動的韻律生成部の構成以外については、上記の実施の形態1と同様であるため、その説明を省略する。
【0125】
韻律パターン片選択手段162においては、送られてきた言語情報に基づいて、韻律パターン片保持手段192から最適な1つの韻律パターン片が選択韻律パターン片として選択されると共に、修正条件が生成される。選択された選択韻律パターン片及び生成された修正条件は、韻律パターン片修正手段172に送られる。
【0126】
韻律パターン片修正手段172においては、送られてきた修正条件は、選択韻律パターン片に対する修正を決定するために、パターン片修正制御手段182に送られる。
【0127】
パターン片修正制御手段182においては、送られてきた修正条件は、その修正条件に合致する修正履歴データが修正履歴保持部106の韻律修正DBに含まれているか否かを確認するために、修正履歴管理部105の修正履歴抽出手段115に送られる。
【0128】
修正履歴抽出手段115においては、送られてきた修正条件に基づいて修正履歴保持部106の修正履歴DBを検索し、その結果、送られてきた修正条件に合致する修正履歴データが存在すれば、その修正履歴データを抽出する。抽出された韻律修正データは、パターン片修正制御手段182に送られる。ここに、修正条件に合致する修正履歴データが複数存在していれば、それらすべての修正履歴データがパターン片修正制御手段182に送られる。また、修正条件に合致する修正履歴データが存在していなければ、その旨をパターン片修正制御手段182に通知する。
【0129】
パターン片修正制御手段182においては、送られてきた修正履歴データに基づいて選択韻律パターン片に対する修正内容を決定する。決定された修正内容は韻律パターン片修正手段172に送られる。ここに、修正履歴抽出手段115から複数の修正履歴データが送られてきた場合は、それらすべての修正履歴データの修正内容を反映するように韻律パターン片の修正内容を決定する。また、修正履歴データが存在しない旨の通知があれば、修正を行わない旨、又は、各韻律パターン片の修正がなしである旨の通知を韻律パターン片修正手段172に通知する。
【0130】
韻律パターン片修正手段172においては、パターン片修正制御手段182で決定された修正内容に基づき、選択韻律パターン片を修正して、動的韻律情報を生成する。生成された動的韻律情報は、言語情報と共に、韻律修正部103に送られる。ここに、韻律パターン片修正手段172における修正は、修正履歴情報に応じて自動的に行われること、及び、動的韻律情報は、修正履歴情報の反映された韻律情報であることに注意を要する。
【0131】
ここで、図15に示された具体例に基づいて、韻律パターン片修正手段172における選択韻律パターンの修正方法について詳細に説明する。なお、修正される韻律情報としては継続時間長、パワー、ピッチパターンなどが考えられるが、この具体例では、生成される韻律情報に含まれる韻律パラメータがピッチパターンである場合について説明する。なお、以下の説明において、各部材及び各手段については、図14に示された参照符号を付す。
【0132】
まず、過去において行われた韻律修正について説明する。韻律修正部103において、グラフィカルに表示されたピッチパターンに対してマウスを用いた修正337が行われた。ここに、修正前のピッチパターン334a(選択韻律パターン片)は点線で、修正後のピッチパターン334b(修正韻律パターン片)は実線で記されている。
【0133】
この韻律修正に伴い、修正履歴データ338が生成され、生成された修正履歴データ338は、修正履歴DB116に格納される。
【0134】
生成された修正履歴データ338は、修正条件として、文中位置が文末であり、モーラ数が3であり、かつ、アクセント型が2型であることを含んでおり、修正内容として、修正前のピッチパターン334aを修正後のピッチパターン334bに修正することを含んでいる。ここに、この具体例においては、修正後のピッチパターンそのものを修正内容として保持している。
【0135】
次に、過去の韻律修正後における動的韻律情報の生成について説明する。韻律パターン片選択手段162において、言語情報に基づいて韻律パターン片DB334から最適な韻律パターン片が選択韻律パターン片として選択されると共に、修正条件331が生成される。選択された選択韻律パターン片及び生成された修正条件は、韻律パターン片修正手段172に送られる。生成された修正条件331には、文中位置が文末であり、モーラ数が3であり、かつ、アクセント型が2型であることが含まれている。
【0136】
韻律パターン片修正手段172においては、送られてきた修正条件をパターン片修正制御手段182に送る。
【0137】
パターン片修正制御手段182においては、修正条件に基づいて修正履歴DB116を検索し、その結果、修正条件の合致する修正履歴データ338を得る。修正条件を満たす修正内容(選択されたピッチパターン334aを保持されたピッチパターン334bに変更する:ピッチパターンを左上段図の点線から実線のパターンに変更する)が存在するため、その修正内容を韻律パターン修正手段172に送る。
【0138】
韻律パターン片修正手段172においては、送られてきた修正内容に基づき、韻律パターン334aを韻律パターン334bに修正し、動的韻律情報336を生成する。生成された動的韻律情報は韻律修正部103に送られる。
【0139】
これにより、韻律パターン片選択手段162において生成された修正条件に合致する修正履歴データが既に修正履歴情報に含まれている場合には、過去に行った修正と同じ修正が自動的に施された動的韻律情報を生成できる。
【0140】
上記においては、変更後のピッチパターンそのものを保持しているが、最終的に変更後のピッチパターンを再現しえる保持方法であれば、どのような方法を用いて変形後のピッチパターンを保持してもよい。例えば、韻律パターン片DB334から選択されたピッチパターンに対する時刻毎の差分値を保存することでも変更後のピッチパターンを再現することができる。
【0141】
また、上記においては、修正履歴保持手段106が単一の修正履歴DB116を有する構成について説明したが、上記実施の形態2で説明したように複数の修正履歴DBを有する構成とすることもできる。図16及び図17は、第3の修正履歴参照方式の動的韻律生成部と、韻律スタイルの互いに異なる複数の韻律修正DBを有する修正履歴保持部とを含むテキスト音声合成装置の概念的な構成を示すブロック図である。なお、修正履歴管理部がDB選択制御手段を有し、修正履歴保持手段が複数の修正履歴DBを有すること以外、図14に示されたテキスト音声合成装置と概ね同一の構成である。
【0142】
また、図16及び図17に示されたテキスト音声合成装置は、それぞれ、図7及び図9に示されたテキスト音声合成装置における静的韻律生成手段112、フィルタリング手段122及びフィルタ制御手段132を有する動的韻律生成部を、韻律パターン片選択手段162、韻律パターン修正手段172、パターン片修正制御手段182及び韻律パターン片保持手段192を有する動的韻律生成部に変更した以外同じ構成である。
【0143】
図16及び図17に示されたテキスト音声合成装置における複数の修正履歴DBの参照方法及び更新方法は、上記実施の形態2と同等であるため、その説明は省略する。
【0144】
【発明の効果】
以上で説明したように、本発明のテキスト音声合成装置では、修正履歴情報を保持する修正履歴保持部と、修正履歴情報を管理する修正履歴管理部と、修正履歴管理部を介して修正履歴情報を参照して、言語情報に基づき動的韻律情報を生成する動的韻律生成部とを含む構成としたことにより、修正履歴情報に登録された過去の修正と同一の修正を改めて行う必要がなく、かつ、過去の修正に応じて修正履歴情報の学習が逐次進むため、エンドユーザの嗜好に合った韻律情報を簡便に生成する装置となる。
【0145】
動的韻律生成部において、静的な韻律生成規則にしたがって静的韻律情報を生成し、かつ、生成された静的韻律情報を修正履歴情報に応じて修正することによって、動的韻律情報を生成する第1の修正履歴参照方式を採用する。
【0146】
また、動的韻律生成部において、修正履歴情報に応じて韻律生成規則の韻律生成パラメータの設定を修正し、韻律生成パラメータの設定により変化する動的な韻律生成規則にしたがって動的韻律情報を生成する第2の修正履歴参照方式を採用する。
【0147】
また、動的韻律生成部において、静的な韻律選択規則にしたがって、言語情報に基づき複数の韻律パターン片から1つの最適な韻律パターン片を選択韻律パターン片として選択し、かつ、選択韻律パターン片を修正履歴情報に応じて修正することにより動的韻律情報を生成する第3の修正履歴参照方式を採用する。
【0148】
上記の第1〜第3の修正履歴参照方式のいずれか採用した動的韻律生成部を備えたテキスト音声合成装置であれば、エンドユーザの嗜好に合った韻律情報の簡便な生成を確実に実現できる。
【0149】
更に、修正履歴保持部を韻律スタイルの互いに異なる複数の修正履歴DBで構成し、修正履歴管理部において、選択的な修正履歴DBの参照及び選択的な修正履歴DBの更新を行うことにより、複数の韻律スタイルから所望の韻律スタイルを選択的に反映した韻律修正を自動的に施すことができ、かつ、修正履歴情報全体を柔軟かつ効果的に更新(学習)させることができる。
【0150】
また、本発明のテキスト音声合成方法では、修正履歴情報を参照する修正履歴参照ステップと、修正履歴参照ステップと連携して、言語情報に基づき動的韻律情報を生成する動的韻律生成ステップと、修正に応じて修正履歴情報を更新する修正履歴更新ステップとを含む構成としたことにより、修正履歴情報に登録された過去の修正と同一の修正を改めて行う必要がなくなり、かつ、過去の修正に応じて修正履歴情報の学習が逐次進むため、エンドユーザの嗜好に合った韻律情報を簡便に生成することができる。
【0151】
また、本発明のテキスト音声合成プログラムは、修正履歴情報を参照する修正履歴参照プログラムコードと、修正履歴参照プログラムコードと連携して、言語情報に基づき動的韻律情報を生成する動的韻律生成プログラムコードと、修正に応じて修正履歴情報を更新する修正履歴更新プログラムコードとを含む構成としたことにより、修正履歴情報に登録された過去の修正と同一の修正を改めて行う必要がなくなるため、かつ、過去の韻律修正に応じて修正履歴情報の学習が逐次進むため、エンドユーザの嗜好に合った韻律情報を簡便に生成するテキスト音声合成方法を実現することができる。
【図面の簡単な説明】
【図1】図1は、本発明に係るテキスト音声合成装置の構成を概念的に示すブロック図である。
【図2】図2は、本発明に係るテキスト音声合成方法の構成を概念的に示すブロック図である。
【図3】図3は、修正履歴保持部に複数の修正履歴DBを有するテキスト音声合成装置の構成を概念的に示すブロック図である。
【図4】図4は、修正履歴保持部に複数の修正履歴DBを有するテキスト音声合成装置における修正履歴管理部の構成を概念的に示すブロック図であって、図4(a)が、共通DB選択制御手段を有する修正履歴管理部の構成を示すブロック図であり、図4(b)が、参照用DB選択制御手段と更新用DB選択制御手段とを有する修正履歴管理部の構成を示すブロック図であり、図4(c)が、共通DB選択制御手段と選択DB変更手段とを有する修正履歴管理部の構成を示すブロック図である。
【図5】図5は、第1の修正履歴参照方式の動的韻律生成部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。
【図6】図6は、第1の修正履歴参照方式を説明するための説明図である。
【図7】図7は、複数の修正履歴DBを備えた修正履歴保持部と第1の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第1構成例を概念的に示すブロック図である。
【図8】図8は、修正履歴管理部における修正履歴情報の選択的な更新方法及び修正履歴情報の選択的な抽出方法を説明するための説明図である。
【図9】図9は、複数の修正履歴DBを備えた修正履歴保持部と第1の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第2構成例を概念的に示すブロック図である。
【図10】図10は、第2の修正履歴参照方式の動的韻律生成部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。
【図11】図11は、第2の修正履歴参照方式を説明するための説明図である。
【図12】図12は、複数の修正履歴DBを備えた修正履歴保持部と第2の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第1の構成例を概念的に示すブロック図である。
【図13】図13は、複数の修正履歴DBを備えた修正履歴保持部と第2の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第2の構成例を概念的に示すブロック図である。
【図14】図14は、第3の修正履歴参照方式の動的韻律生成部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。
【図15】図15は、第3の修正履歴参照方式を説明するための説明図である。
【図16】図16は、複数の修正履歴DBを備えた修正履歴保持部と第3の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第1の構成例を概念的に示すブロック図である。
【図17】図17は、複数の修正履歴DBを備えた修正履歴保持部と第3の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第2の構成例を概念的に示すブロック図である。
【図18】図18は、従来のテキスト音声合成装置の構成を概念的に示すブロック図である。
【符号の説明】
101 言語解析部
102 動的韻律生成部
112 静的韻律生成手段
122 フィルタリング手段
132 フィルタ制御手段
142 動的韻律生成手段
152 韻律生成規則制御手段
162 韻律パターン片選択手段
172 韻律パターン片修正手段
182 韻律パターン片修正制御手段
192 韻律パターン片保持手段
103 韻律修正部
104 合成音声生成部
114 素片選択手段
124 音声合成手段
134 素片保持手段
105 修正履歴管理部
115 修正履歴抽出手段
125 修正履歴更新手段
135 DB選択制御手段
145 共通DB選択制御手段
155 参照用DB選択制御手段
165 更新用DB選択制御手段
175 選択DB変更手段
106 修正履歴保持部
116 修正履歴DB
107 テキスト保持部
117 表示部
127 修正命令入力部
137 音声出力部
147 選択命令入力部
108 選択命令生成部
201 言語解析ステップ(言語解析プログラムコード)
202 動的韻律生成ステップ(動的韻律生成プログラムコード)
203 韻律修正ステップ(韻律修正プログラムコード)
204 合成音声生成ステップ(合成音声生成プログラムコード)
215 修正履歴抽出ステップ(修正履歴抽出プログラムコード)
225 修正履歴更新ステップ(修正履歴更新プログラムコード)[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a text-to-speech synthesizer. More specifically, the present invention relates to a text-to-speech synthesizer having a function of automatically generating correction information and generating prosodic information. The present invention also relates to a text-to-speech synthesis method including a method for automatically generating a revision history and generating prosodic information, and a program for realizing the text-to-speech synthesis method.
[0002]
[Prior art]
In conventional speech synthesis, synthesized speech is generated with a predetermined pitch pattern by connecting phonemes constituting speech in accordance with a designated pitch pattern (prosodic information). Conventionally, a pitch pattern for text-to-speech synthesis has been generated according to a predetermined prosody generation rule based on an analysis result of an input text.
[0003]
The generated prosody may include errors at the time of text analysis or prosody generation. In this case, a synthesized speech different from the intention of the synthesized speech creator (hereinafter referred to as the author) is generated. . In order to correct such prosodic errors and to adjust to the prosody preferred by the author, the engineer rewrites the contents of the prosodic file in which the prosodic information is described, and performs specialized operations based on experience. It was necessary to directly change the parameters (pitch pattern, power, etc.) for determining the prosody.
[0004]
As a method for easily correcting the pitch pattern, the contents of the prosody file for controlling the prosody are graphically displayed on the display, and the displayed parameter (pitch pattern, power, etc.) pattern is changed with the mouse. Is known (see, for example, Patent Document 1). In this prosody modification method, the processed modification is stored in the storage device, and when performing the second speech synthesis using the same prosody file, the current pattern and the modification history pattern are displayed. As a result, the effort of correction is reduced, and the tendency of correction is grasped, so that information on subsequent prosody creation rules is obtained.
[0005]
The prosody modification procedure described in
[0006]
The value of each parameter corrected by the
[0007]
Based on the modified
[0008]
[Patent Document 1]
JP-A-5-232980 above
[0009]
[Problems to be solved by the invention]
In the conventional method shown in FIG. 18, every time speech synthesis is performed, the same correction is manually made to the
[0010]
In addition, the
[0011]
The present invention has been made in view of the above. The purpose of the present invention is to make it possible for the end user to modify the prosody generation rules themselves directly without changing the prosodic generation rules themselves and without correcting a large amount of prosodic information every time speech synthesis is performed. Is to provide a method for easily performing speech synthesis suitable for the above, a text-to-speech synthesizer to which the method is applied, and a program for realizing the method.
[0012]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, the present invention makes a pair of correction contents and correction conditions when prosodic information is corrected by an end user, and holds it as correction history data constituting correction history information. In the generation of prosodic information performed after the correction, if there is correction history data that matches the correction conditions, the correction details associated with the correction conditions are automatically reflected. This is a configuration having a function of generating the prosodic information.
[0013]
With the above configuration, it is not necessary to perform the same correction as each past correction registered in the correction history information, and the learning of the correction history information sequentially proceeds according to the correction made by the end user. Prosody information that suits the end user's preference can be easily generated.
[0014]
Specifically, the text-to-speech synthesizer according to the present invention performs language analysis on text data, extracts language information, a correction history holding unit that holds correction history information, and the correction history. A correction history management unit that manages information, a dynamic prosody generation unit that generates dynamic prosody information based on the language information with reference to the correction history information via the correction history management unit, and an external correction command Accordingly, the prosodic information is generated by correcting the dynamic prosodic information, and the correction history information is updated via the correction history management unit based on the correction according to the external correction command. A synthesis unit that generates a synthesized speech based on the correction unit, the language information, and the definite prosody information; The correction history management unit, a correction history extraction unit that extracts correction history information referred to by the dynamic prosody generation unit, a correction history update unit that updates the correction history information held in the correction history holding unit, The correction history holding unit includes a plurality of correction history databases having different prosodic styles, and the correction history management unit controls selection of the plurality of correction history databases according to a selection command. It further has a selection control means It is a configuration.
[0015]
The text-to-speech synthesis method according to the present invention includes a language analysis step for performing language analysis on text data and extracting language information, and correction history information. A revision history holding step for holding, a revision history management step for managing the revision history information, and the revision history information with reference to the revision history information via the revision history management unit, to generate dynamic prosodic information based on the language information A dynamic prosody generation step, generating the fixed prosody information by correcting the dynamic prosody information according to the external correction command, and the correction history management unit based on the correction according to the external correction command The prosody modification step for updating the modification history information via the above, the synthesized speech generation step for generating synthesized speech based on the language information and the definite prosody information, and the modification history management step, the dynamic prosody generation step The revision history extraction step for extracting revision history information referred to in the revision history update step for updating the revision history information held in the revision history holding step. The revision history holding step further holds a plurality of revision history databases having different prosodic styles, and the revision history management step stores the plurality of revision history databases in response to a selection command. A database selection control step for controlling the selection; .
[0016]
In addition, the text-to-speech synthesis program according to the present invention performs language analysis on text data. A language analysis step for extracting linguistic information, a correction history holding step for holding correction history information, a correction history management step for managing the correction history information, and the correction history information via the correction history management unit A dynamic prosody generation step for generating dynamic prosody information based on the language information, generating fixed prosody information by correcting the dynamic prosody information according to an external correction command, and A prosody modification step for updating the modification history information via the modification history management unit based on a modification according to the external modification command, and a synthesized speech for generating a synthesized speech based on the language information and the definitive prosody information A correction history extraction step in which the generation step, the correction history management step extracts correction history information referred to in the dynamic prosody generation step, and the correction history In the text-to-speech synthesis program for causing the computer to execute a correction history update step for updating the correction history information held in the holding step, the correction history holding step further holds a plurality of correction history databases having different prosodic styles. The correction history management step further includes a database selection control step for controlling selection of the plurality of correction history databases in response to a selection command. .
[0017]
DETAILED DESCRIPTION OF THE INVENTION
While describing the contents of the present invention, a preferred embodiment is described. Note that FIG. 1 and FIG. 2 are referred to as necessary. FIG. 1 is a block diagram conceptually showing the structure of a text-to-speech synthesizer according to the present invention. FIG. 2 is a block diagram conceptually showing the text-to-speech synthesis method according to the present invention.
[0018]
The text-to-speech synthesizer shown in FIG. 1 performs language analysis on text data and extracts language information, a correction
[0019]
The text-to-speech synthesis method (text-to-speech program code) shown in FIG. 2 includes a language analysis step 201 (language analysis program code) for performing language analysis on text data and extracting language information, and correction history information. A dynamic
[0020]
As a general method for generating prosodic information, for example, a method of generating prosodic information (static prosodic information) according to a predetermined prosodic generation rule (static prosodic generation rule) using language information as an argument Prosody information (static prosodic information) by selecting one prosody pattern piece from a plurality of prosody pattern pieces prepared in advance according to a predetermined rule (static prosodic pattern piece selection rule) The method of producing | generating is mentioned. On the other hand, in the present invention, the essential feature is that the prosodic information (dynamic prosodic information) is dynamically generated by referring to the correction history information.
[0021]
In this specification, “static” and “dynamic” mean “fixed without depending on correction history information” and “variable depending on the correction history information, depending on the information”, respectively. . “Static prosodic information” means prosodic information generated without referring to correction history information as in the prior art. The “dynamic prosodic information” means prosodic information generated by referring to the correction history information. If the prosodic information matches the correction history information, the prosodic information is different from the basic prosodic information, and the correction history information If not, the prosodic information is the same as the basic prosodic information.
[0022]
First, the
[0023]
Next, the dynamic
[0024]
In the first revision history reference method, the dynamic
[0025]
In the second modification history reference method, the dynamic
[0026]
In the third revision history reference method, the dynamic
[0027]
Next, the
[0028]
If an external correction command is not input to the
[0029]
The correction contents in the correction according to the external correction command and the correction conditions at the time of correction (hereinafter, a pair of correction contents and correction conditions are referred to as correction history data) are the correction history information stored in the correction
[0030]
As a correction element of the correction content in each correction history data constituting the correction history information, any prosodic parameter may be used as long as a change before and after the correction can be specified. As the correction element, it is preferable to use a prosodic parameter that can define the correction amount before and after the correction. The prosody parameters that can define the correction amount include, for example, the duration length, intensity pattern (power pattern), or fundamental frequency pattern (pitch pattern) for a phoneme symbol string unit, expiratory paragraph unit, or accent phrase unit composed of one or more phoneme symbols. ). The correction element of the correction content of each correction history data may include only one type of prosodic parameter, or may include a plurality of types of prosodic parameters.
[0031]
On the other hand, the correction conditions in the correction history data can be set using language information. Examples of the condition element in the correction condition include a phoneme symbol string including one or more phoneme symbols, a part of speech, a position in a sentence, and an accent type. When the dynamic
[0032]
As a method of correcting dynamic prosody information in the
[0033]
Further, in the modification of the dynamic prosodic information, the modification may be adjusted interactively while sequentially listening to the synthesized speech generated using the modified prosodic information reflecting the modification. The modified prosody information in a state where the adjustment is finally completed is sent to the synthesized
[0034]
Next, the correction
[0035]
The correction history extraction unit of the correction
[0036]
When the correction history update unit of the correction
[0037]
Here, when the correction history data having the correction condition satisfying the received correction condition is not held in the correction
[0038]
Further, when the existing correction history data having the correction condition satisfying the received correction condition and the received correction content and the correction content having a different correction element is held in the correction
[0039]
When the correction
[0040]
The revision
[0041]
In the following, a case where the correction
[0042]
As shown in FIG. 3, when the revision
[0043]
The DB
[0044]
As shown in FIG. 4A, the correction
[0045]
With the above configuration, the correction history information of one or a plurality of correction history DBs among the plurality of
[0046]
As shown in FIG. 4B, the correction
[0047]
When the correction
[0048]
The correction
[0049]
The selection DB changing means 175 is a change common to both the correction history DB referred to by the dynamic
[0050]
FIG. 4C shows a configuration in which the correction
[0051]
With the third configuration, the update correction history DB can be made independent of the reference correction history DB and can be arbitrarily selected from the plurality of
[0052]
The correction
[0053]
When the
[0054]
Which of the plurality of
[0055]
When selecting the correction history DB for each text data, the author may select on the application, or may be selected according to the control code (style selection information) included in the text file together with the text data. . In the former case, the selection command input unit for inputting a selection command is used. In the latter case, the text-to-speech synthesizer further includes a selection command generation unit for analyzing the text file and generating a selection command.
[0056]
Finally, the synthesized
[0057]
(Embodiment 1)
In the first embodiment, a text-to-speech synthesizer having a dynamic prosody generation unit to which the first correction history reference method is applied will be described. Refer to FIG. 5 and FIG. 6 as necessary. FIG. 5 is a block diagram conceptually showing the structure of the text-to-speech synthesizer according to the first embodiment. FIG. 6 is an explanatory diagram for explaining in detail the characteristic part in the text-to-speech synthesizer according to the first embodiment.
[0058]
The text-to-speech synthesizer shown in FIG. 5 includes a
[0059]
The operation of the text-to-speech synthesizer shown in FIG. 5 will be described. The
[0060]
In the static prosody generation means 112, static prosody information is generated according to a static prosody generation rule based on the transmitted language information (static prosody generation step). The generated static prosodic information is sent to the
[0061]
In the filtering means 122, a correction condition is generated from the transmitted language information and static prosodic information. The generated correction condition is sent to the filter control means 132 in order to determine the processing content of the filtering process.
[0062]
In the filter control means 132, in order to check whether or not the prosody modification data that matches the sent modification condition is included in the prosody modification DB of the modification
[0063]
The correction
[0064]
The
[0065]
The filtering means 122 corrects the static prosodic information based on the correction amount of each prosodic parameter determined by the filter control means 132 to generate dynamic prosodic information. The generated dynamic prosody information is sent to the
[0066]
The
[0067]
For the additional correction in the
[0068]
The correction
[0069]
The
[0070]
The unit held by the
[0071]
In the
[0072]
After the above processing, since the author's past correction is automatically reflected and dynamic prosodic information that generates synthesized speech close to preference is manually added, basic prosodic information (static Compared with conventional text-to-speech synthesis that manually corrects prosodic information) or manual text-to-speech synthesis that manually corrects prosody generation rules, any text data is easily output as synthesized speech that suits your preferences. Can be made.
[0073]
Here, based on the specific example shown in FIG. 6, the filtering process in the filtering means 122 will be described in detail. The prosodic information that is automatically corrected may be a duration, power pattern, pitch pattern, or the like. In this specific example, a case where the prosodic parameter included in the generated prosodic information is a pitch pattern will be described. In the following description, the reference numerals shown in FIG. 5 are assigned to the members and the means.
[0074]
First, prosody correction performed in the past will be described. In the
[0075]
Even if the prosody correction is performed by any of the above methods, the same
[0076]
In the
[0077]
Next, generation of dynamic prosodic information after past prosodic correction will be described. As the
[0078]
The filter control means 132 refers to the
[0079]
The
[0080]
Thereby, when the correction history data matching the correction condition generated in the static prosody generation means 112 is already included in the correction history information, the same correction as the correction performed in the past is automatically applied. Dynamic prosodic information can be generated.
[0081]
(Embodiment 2)
In the second embodiment, the text-to-speech synthesizer includes a dynamic prosody generation unit to which the first correction history reference method is applied and a correction history holding unit having a plurality of prosody DBs having different prosodic styles. Will be described. Note that FIG. 7 and FIG. 8 are referred to as necessary. FIG. 7 is a block diagram conceptually showing the structure of the text-to-speech synthesizer according to the second embodiment. FIG. 8 is an explanatory diagram for explaining in detail the characteristic part of the text-to-speech synthesizer according to the second embodiment.
[0082]
The text-to-speech synthesizer shown in FIG. 7 includes a
[0083]
The operation of the text-to-speech synthesizer shown in FIG. 7 will be described. Note that the operation of the text-to-speech synthesizer shown in FIG. 7 is basically the same as that of the text-to-speech synthesizer of the first embodiment, except that the revision history information is updated and referred to by the revision history management unit. Since there is, explanation about a common part is omitted.
[0084]
First, in the update of the correction history information, the correction history update means 125 according to the new correction history data from the
[0085]
Next, in referring to the revision history information, the revision
[0086]
Here, based on the specific example shown in FIG. 8, a method of updating and referring to the revision history information in the revision
[0087]
First, prosody correction performed in the past will be described. In the
[0088]
Further, the
[0089]
Next, generation of dynamic prosodic information after past prosodic correction will be described. As the
[0090]
In the DB selection control means 135, the correction history DB-
[0091]
In the filter control means 132, the
[0092]
In the filtering means 122, the pitch pattern corresponding to the last phoneme symbol / a / is raised by 50 Hz based on the sent correction contents. That is, the pitch pattern (static prosodic information) 311 is corrected from (400 Hz, −, 300 Hz) to (400 Hz, −, 350 Hz). The corrected pitch pattern (dynamic prosody information) 313 is sent to the
[0093]
When the
[0094]
As a result, dynamic prosodic information reflecting a desired prosodic style among a plurality of prosodic styles can be generated. In addition, it is possible to update only correction history information corresponding to a desired prosodic style among a plurality of prosodic styles.
[0095]
Here, a method for selecting the correction history DB will be described. In the selection
[0096]
The text-to-speech synthesizer shown in FIG. 7 is configured to include a selection
[0097]
As shown in FIG. 9, the text-to-speech synthesizer extracts the prosodic style information by analyzing the control code from the text data held in the text holding means 107, and selects a command based on the extracted prosodic style information. The selection
[0098]
The selection
[0099]
(Embodiment 3)
In the third embodiment, a text-to-speech synthesizer having a dynamic prosody generation unit to which the second correction history reference method is applied will be described. Refer to FIGS. 10 and 11 as necessary. FIG. 10 is a block diagram conceptually showing the structure of the text-to-speech synthesizer according to the third embodiment. FIG. 11 is an explanatory diagram for explaining in detail the characteristic part in the text-to-speech synthesizer according to the third embodiment.
[0100]
The text-to-speech synthesizer shown in FIG. 10 includes a
[0101]
The operation of the text-to-speech synthesizer shown in FIG. 10 will be described. Since the configuration other than the dynamic prosody generation unit is the same as that of the first embodiment, the description thereof is omitted.
[0102]
In the dynamic
[0103]
In the prosody generation rule control means 152, the sent correction condition confirms whether or not the prosody correction data that matches the correction condition is included in the correction history DB (correction history information) of the correction
[0104]
The correction
[0105]
The prosody generation
[0106]
The dynamic
[0107]
Here, based on the specific example shown in FIG. 11, the method of controlling the prosody generation rule in the dynamic prosody modification means 142 will be described in detail. The generated dynamic prosodic information may be time length, power, pitch pattern, etc. In this specific example, the case where the prosodic parameter included in the generated dynamic prosodic information is a pitch pattern will be described. . In the following description, the reference numerals shown in FIG. 10 are assigned to the members and the means.
[0108]
As a model for generating a pitch pattern in the dynamic prosody generation means 142, a Fujisaki model is used. The Fujisaki model expresses a pitch pattern by superimposing a phrase component that expresses attenuation of an exhalation paragraph and an accent component that expresses pitch fluctuation for each accent. In the Fujisaki model, various parameters such as the slope of phrase attenuation can be adjusted. In this example, the pitch pattern is determined by two parameters: a phrase command indicating the size of the phrase and an accent command indicating the size of the accent. Is generated.
[0109]
First, prosody correction performed in the past will be described. In the
[0110]
Along with this correction,
[0111]
A publicly known method can be used as a method for calculating the prosody generation parameter necessary for generating the corrected pitch pattern. For example, the prosody generation parameter for generating the pitch pattern is obtained by solving a linear equation with the prosody generation parameter to be estimated as an unknown using a least square method targeting the pitch pattern after correction.
[0112]
When the prosody generation parameters necessary for generating the corrected pitch pattern are calculated, the
[0113]
The generated
[0114]
Next, generation of dynamic prosodic information after past prosodic correction will be described. In the dynamic
[0115]
The prosody generation rule control means 152 searches the
[0116]
The dynamic
[0117]
As a result, when the correction history data matching the correction condition generated by the dynamic
[0118]
In the above description, the Fujisaki model has been described as a model for generating a pitch pattern. However, corrections made in the past can be automatically reflected using other models as well. When performing control other than the pitch pattern, for example, when controlling the duration or power pattern in the prosodic information, it is necessary to use a model suitable for each prosodic parameter to be controlled.
[0119]
In the above description, the configuration in which the correction history holding unit has a single correction history DB has been described. However, as described in the second embodiment, a configuration having a plurality of correction history DBs may be employed. 12 and 13 show a conceptual configuration of a text-to-speech synthesizer including a dynamic prosody generation unit of the second history reference method and a correction history holding unit having a plurality of prosody modification DBs having different prosodic styles. FIG. The configuration is substantially the same as that of the text-to-speech synthesizer shown in FIG. 10 except that the correction history management unit has DB selection control means and the correction history holding means has a plurality of correction history DBs.
[0120]
Also, the text-to-speech synthesizer shown in FIGS. 12 and 13 includes static prosody generation means 112, filtering means 122, and filter control means 132 in the text-to-speech synthesizer shown in FIGS. 7 and 9, respectively. The configuration is the same except that the dynamic prosody generation unit is changed to a dynamic prosody generation unit having dynamic
[0121]
A method for referring to and updating a plurality of correction history DBs in the text-to-speech synthesizer shown in FIGS. 12 and 13 is the same as that in the second embodiment, and a description thereof will be omitted.
[0122]
(Embodiment 4)
In the fourth embodiment, a text-to-speech synthesizer having a dynamic prosody generation unit to which the third modification history reference method is applied will be described. Reference is made to FIGS. 14 and 15 as necessary. FIG. 14 is a block diagram conceptually showing the structure of the text-to-speech synthesizer according to the fourth embodiment. FIG. 15 is an explanatory diagram for explaining in detail the characteristic part in the text-to-speech synthesizer according to the fourth embodiment.
[0123]
The text-to-speech synthesizer shown in FIG. 14 includes a
[0124]
The operation of the text-to-speech synthesizer shown in FIG. 14 will be described. Since the configuration other than the dynamic prosody generation unit is the same as that of the first embodiment, the description thereof is omitted.
[0125]
In the prosodic pattern piece selection means 162, one optimal prosodic pattern piece is selected as the selected prosodic pattern piece from the prosodic pattern piece holding means 192 based on the transmitted language information, and a correction condition is generated. . The selected selected prosodic pattern piece and the generated correction condition are sent to the prosodic pattern piece correcting means 172.
[0126]
In the prosody pattern piece correcting means 172, the sent correction condition is sent to the pattern piece correction control means 182 in order to determine the correction for the selected prosodic pattern piece.
[0127]
In the pattern piece correction control means 182, the received correction condition is corrected in order to check whether the correction history data matching the correction condition is included in the prosody correction DB of the correction
[0128]
The correction
[0129]
The pattern piece correction control means 182 determines the correction contents for the selected prosodic pattern piece based on the sent correction history data. The determined correction content is sent to the prosodic pattern piece correcting means 172. Here, when a plurality of correction history data is sent from the correction history extraction means 115, the correction contents of the prosodic pattern pieces are determined so as to reflect the correction contents of all the correction history data. If there is a notification that the correction history data does not exist, the prosody pattern piece correcting means 172 is notified that the correction is not performed or that each prosody pattern piece is not corrected.
[0130]
The prosodic pattern piece correcting means 172 corrects the selected prosodic pattern piece based on the correction contents determined by the pattern piece correction control means 182 to generate dynamic prosodic information. The generated dynamic prosody information is sent to the
[0131]
Here, a method of correcting the selected prosodic pattern in the prosodic pattern piece correcting means 172 will be described in detail based on the specific example shown in FIG. Note that the prosodic information to be corrected may be duration time, power, pitch pattern, and the like. In this specific example, a case where the prosodic parameter included in the generated prosodic information is a pitch pattern will be described. In the following description, the reference numerals shown in FIG. 14 are assigned to the members and the means.
[0132]
First, prosody correction performed in the past will be described. In the
[0133]
Along with this prosody correction,
[0134]
The generated
[0135]
Next, generation of dynamic prosodic information after past prosodic correction will be described. In the prosodic pattern piece selection means 162, the optimal prosodic pattern piece is selected as the selected prosodic pattern piece from the prosodic
[0136]
The prosody pattern piece correcting means 172 sends the sent correction condition to the pattern piece correction control means 182.
[0137]
The pattern piece correction control means 182 searches the
[0138]
The prosodic pattern piece correcting means 172 corrects the
[0139]
Thereby, when the correction history data matching the correction condition generated by the prosodic pattern piece selection means 162 is already included in the correction history information, the same correction as the correction made in the past is automatically applied. Dynamic prosodic information can be generated.
[0140]
In the above, the changed pitch pattern is retained, but any method can be used to retain the modified pitch pattern as long as it can be reproduced finally. May be. For example, the changed pitch pattern can also be reproduced by storing the difference value for each time with respect to the pitch pattern selected from the prosodic
[0141]
In the above description, the configuration in which the correction
[0142]
Also, the text-to-speech synthesizer shown in FIGS. 16 and 17 has static prosody generation means 112, filtering means 122, and filter control means 132 in the text-to-speech synthesizer shown in FIGS. 7 and 9, respectively. The dynamic prosody generation unit has the same configuration except that the dynamic prosody generation unit is changed to a dynamic prosody generation unit having prosody pattern piece selection means 162, prosody pattern correction means 172, pattern piece correction control means 182 and prosody pattern piece holding means 192.
[0143]
The reference method and the update method of the plurality of correction history DBs in the text-to-speech synthesizer shown in FIGS. 16 and 17 are the same as those in the second embodiment, and a description thereof will be omitted.
[0144]
【The invention's effect】
As described above, in the text-to-speech synthesizer of the present invention, the correction history information is stored via the correction history management unit that manages the correction history information, the correction history management unit that manages the correction history information, and the correction history information. With the configuration including the dynamic prosody generation unit that generates dynamic prosody information based on language information, it is not necessary to perform the same correction as the past correction registered in the correction history information again And since learning of correction history information progresses sequentially according to past corrections, it becomes a device that easily generates prosodic information that suits the end user's preference.
[0145]
The dynamic prosody generation unit generates static prosody information according to static prosody generation rules, and modifies the generated static prosody information according to the correction history information, thereby generating dynamic prosody information. The first correction history reference method is adopted.
[0146]
The dynamic prosody generation unit corrects the prosody generation parameter setting of the prosody generation rule according to the correction history information, and generates dynamic prosody information according to the dynamic prosody generation rule that changes according to the setting of the prosody generation parameter. The second correction history reference method is adopted.
[0147]
The dynamic prosody generation unit selects one optimal prosody pattern piece as a selected prosodic pattern piece from a plurality of prosodic pattern pieces based on linguistic information according to a static prosodic selection rule, and the selected prosodic pattern piece. The third correction history reference method for generating dynamic prosodic information by correcting the information according to the correction history information is adopted.
[0148]
A text-to-speech synthesizer equipped with a dynamic prosody generation unit adopting any one of the first to third correction history reference methods assures easy generation of prosodic information that matches the end user's preference. it can.
[0149]
Further, the revision history holding unit is configured by a plurality of revision history DBs having different prosodic styles, and the revision history management unit performs selective reference to the revision history DB and update of the revision history DB selectively. The prosody modification that selectively reflects the desired prosody style can be automatically applied from the prosody styles, and the entire modification history information can be updated (learned) flexibly and effectively.
[0150]
In the text-to-speech synthesis method of the present invention, a correction history reference step for referring to correction history information, a dynamic prosody generation step for generating dynamic prosody information based on language information in cooperation with the correction history reference step, By including a revision history update step for updating revision history information according to the revision, it is not necessary to perform the same revision as the past revision registered in the revision history information, and the past revision Accordingly, the learning of the correction history information proceeds sequentially, so that prosodic information suitable for the end user's preference can be easily generated.
[0151]
The text-to-speech synthesis program according to the present invention includes a correction history reference program code that references correction history information, and a dynamic prosody generation program that generates dynamic prosody information based on language information in cooperation with the correction history reference program code. By including the code and the correction history update program code for updating the correction history information according to the correction, it becomes unnecessary to perform the same correction as the past correction registered in the correction history information, and Since learning of correction history information sequentially proceeds according to past prosodic corrections, it is possible to realize a text-to-speech synthesis method that easily generates prosodic information that matches the end user's preference.
[Brief description of the drawings]
FIG. 1 is a block diagram conceptually showing the structure of a text-to-speech synthesizer according to the present invention.
FIG. 2 is a block diagram conceptually showing the structure of the text-to-speech synthesis method according to the present invention.
FIG. 3 is a block diagram conceptually showing the structure of a text-to-speech synthesizer having a plurality of correction history DBs in a correction history holding unit.
FIG. 4 is a block diagram conceptually showing a configuration of a correction history management unit in a text-to-speech synthesizer having a plurality of correction history DBs in a correction history holding unit, and FIG. FIG. 4B is a block diagram illustrating a configuration of a correction history management unit including a DB selection control unit, and FIG. 4B illustrates a configuration of a correction history management unit including a reference DB selection control unit and an update DB selection control unit. FIG. 4C is a block diagram illustrating a configuration of a correction history management unit having a common DB selection control unit and a selection DB change unit.
FIG. 5 is a block diagram conceptually showing the structure of a text-to-speech synthesizer provided with a dynamic prosody generation unit of the first modification history reference method.
FIG. 6 is an explanatory diagram for explaining a first correction history reference method;
FIG. 7 conceptually illustrates a first configuration example of a text-to-speech synthesizer including a correction history holding unit including a plurality of correction history DBs and a dynamic prosody generation unit using a first correction history reference method. FIG.
FIG. 8 is an explanatory diagram for explaining a selective update method of correction history information and a selective extraction method of correction history information in a correction history management unit;
FIG. 9 conceptually illustrates a second configuration example of a text-to-speech synthesizer including a correction history holding unit including a plurality of correction history DBs and a dynamic prosody generation unit of the first correction history reference method. FIG.
FIG. 10 is a block diagram conceptually showing the structure of a text-to-speech synthesizer including a second modification history reference method dynamic prosody generation unit.
FIG. 11 is an explanatory diagram for explaining a second correction history reference method;
FIG. 12 is a conceptual diagram illustrating a first configuration example of a text-to-speech synthesizer including a correction history holding unit including a plurality of correction history DBs and a dynamic prosody generation unit of a second correction history reference method; It is a block diagram shown in FIG.
FIG. 13 is a conceptual diagram illustrating a second configuration example of a text-to-speech synthesizer including a correction history holding unit including a plurality of correction history DBs and a dynamic prosody generation unit of a second correction history reference method; It is a block diagram shown in FIG.
FIG. 14 is a block diagram conceptually showing the structure of a text-to-speech synthesizer including a third modification history reference method dynamic prosody generation unit.
FIG. 15 is an explanatory diagram for explaining a third correction history reference method;
FIG. 16 is a conceptual diagram illustrating a first configuration example of a text-to-speech synthesizer including a correction history holding unit including a plurality of correction history DBs and a dynamic prosody generation unit of a third correction history reference method; It is a block diagram shown in FIG.
FIG. 17 is a conceptual diagram illustrating a second configuration example of a text-to-speech synthesizer including a correction history holding unit including a plurality of correction history DBs and a dynamic prosody generation unit of a third correction history reference method; It is a block diagram shown in FIG.
FIG. 18 is a block diagram conceptually showing the structure of a conventional text-to-speech synthesizer.
[Explanation of symbols]
101 Language Analysis Department
102 Dynamic prosody generation part
112 Static prosody generation means
122 Filtering means
132 Filter control means
142 Dynamic Prosody Generation Means
152 Prosody Generation Rule Control Means
162 Prosodic pattern segment selection means
172 Prosody pattern fragment correction means
182 Prosodic pattern fragment correction control means
192 Prosody pattern fragment holding means
103 Prosody modification part
104 synthesized speech generator
114 Segment selection means
124 Speech synthesis means
134 Element holding means
105 revision history management
115 Correction history extraction means
125 Correction history update means
135 DB selection control means
145 Common DB selection control means
155 DB selection control means for reference
165 Update DB selection control means
175 Selection DB changing means
106 Correction history holding unit
116 revision history DB
107 Text holding part
117 Display
127 Correction command input part
137 Audio output unit
147 Selection command input part
108 Selection instruction generator
201 Language analysis step (language analysis program code)
202 dynamic prosody generation step (dynamic prosody generation program code)
203 Prosody modification step (prosody modification program code)
204 synthesized speech generation step (synthesized speech generation program code)
215 Correction history extraction step (correction history extraction program code)
225 revision history update step (modification history update program code)
Claims (13)
修正履歴情報を保持する修正履歴保持部と、
前記修正履歴情報を管理する修正履歴管理部と、
前記修正履歴管理部を介して前記修正履歴情報を参照して、前記言語情報に基づき動的韻律情報を生成する動的韻律生成部と、
外部修正命令に応じて前記動的韻律情報に修正を行うことにより確定韻律情報を生成し、かつ、前記外部修正命令に応じた修正に基づいて、前記修正履歴管理部を介して前記修正履歴情報を更新する韻律修正部と、
前記言語情報及び前記確定韻律情報に基づいて合成音声を生成する合成音声生成部と、
前記修正履歴管理部が、前記動的韻律生成部で参照される修正履歴情報を抽出する修正履歴抽出手段と、前記修正履歴保持部に保持された修正履歴情報を更新する修正履歴更新手段と、を有し、
前記修正履歴保持部が、韻律スタイルの互いに異なる複数の修正履歴データベースを有し、
前記修正履歴管理部が、選択命令に応じて、前記複数の修正履歴データベースの選択を制御するデータベース選択制御手段を更に有するテキスト音声合成装置。A language analysis unit that performs language analysis on text data and extracts language information;
A revision history holding unit for holding revision history information;
A correction history management unit for managing the correction history information;
A dynamic prosody generation unit that generates dynamic prosody information based on the language information with reference to the correction history information via the correction history management unit;
The fixed prosody information is generated by correcting the dynamic prosodic information according to an external correction command, and the correction history information is generated via the correction history management unit based on the correction according to the external correction command. A prosody modification section for updating
A synthesized speech generation unit that generates a synthesized speech based on the language information and the definite prosodic information;
The correction history management unit extracts correction history information for extracting correction history information referred to by the dynamic prosody generation unit; a correction history update unit for updating correction history information held in the correction history holding unit; Have
The correction history holding unit has a plurality of correction history databases having different prosodic styles,
The text-to-speech synthesizer further comprising a database selection control means for controlling the selection of the plurality of correction history databases in accordance with a selection command .
前記動的韻律生成部が、静的な韻律生成規則にしたがって静的韻律情報を生成する静的韻律生成手段と、前記静的韻律生成手段で生成された前記静的韻律情報に修正を行うことにより前記動的韻律情報を生成するフィルタリング手段と、前記修正履歴情報に応じて前記フィルタリング手段での修正を制御するフィルタ制御手段と、を有することを特徴とするテキスト音声合成装置。The text-to-speech synthesizer according to claim 1.
The dynamic prosody generation unit generates static prosody information according to a static prosody generation rule, and modifies the static prosody information generated by the static prosody generation unit A text-to-speech synthesizer comprising: filtering means for generating the dynamic prosody information by means of; and filter control means for controlling correction by the filtering means in accordance with the correction history information.
前記動的韻律生成部が、韻律生成パラメータの設定により変化する動的な韻律生成規則にしたがって前記動的韻律情報を生成する動的韻律生成手段と、前記修正履歴情報に応じて前記韻律生成パラメータを制御する韻律生成規則制御手段と、を有することを特徴とするテキスト音声合成装置。The text-to-speech synthesizer according to claim 1.
The dynamic prosody generation unit generates the dynamic prosody information according to a dynamic prosody generation rule that changes according to the setting of the prosody generation parameter, and the prosody generation parameter according to the correction history information A text-to-speech synthesizer comprising: prosody generation rule control means for controlling
前記動的韻律生成部が、複数の韻律パターン片を保持する韻律パターン片保持手段と、静的な韻律選択規則にしたがって前記複数の韻律パターン片のいずれか1つを選択韻律パターン片として選択する韻律パターン片選択手段と、前記選択韻律パターン片に修正を行うことにより前記動的韻律情報を生成する韻律パターン片修正手段と、前記修正履歴情報に応じて前記選択韻律パターン片に対する修正を制御するパターン片修正制御手段と、を有することを特徴とするテキスト音声合成装置。The text-to-speech synthesizer according to claim 1.
The dynamic prosody generation unit selects one of the plurality of prosodic pattern pieces as a selected prosodic pattern piece according to a prosodic pattern piece holding unit that holds a plurality of prosodic pattern pieces, and a static prosodic selection rule. Prosodic pattern fragment selecting means, prosodic pattern fragment correcting means for generating the dynamic prosodic information by correcting the selected prosodic pattern fragment, and controlling correction to the selected prosodic pattern fragment according to the correction history information A text-to-speech synthesizer.
前記選択命令を入力する選択命令入力部を更に含むことを特徴とするテキスト音声合成装置。The text-to-speech synthesizer according to claim 4 .
A text-to-speech synthesizer, further comprising a selection command input unit for inputting the selection command.
前記テキストデータに含まれるスタイル選択情報を検出し、前記スタイル選択情報に基づき前記選択命令を生成する選択命令生成部を更に含むことを特徴とするテキスト音声合成装置。The text-to-speech synthesizer according to claim 4 .
A text-to-speech synthesizer, further comprising: a selection command generation unit that detects style selection information included in the text data and generates the selection command based on the style selection information.
前記修正履歴管理部が、前記選択命令に応じて、前記複数の修正履歴データベースの少なくとも1つを共通修正履歴データベースとして選択する共通データベース選択制御手段を有し、
前記動的韻律生成部は、前記共通修正履歴データベースに含まれる修正履歴情報を選択的に参照し、
前記韻律修正部は、前記共通修正履歴データベースに含まれる修正履歴情報を選択的に更新する
ことを特徴とするテキスト音声合成装置。The text-to-speech synthesizer according to claim 4 .
The correction history management unit has a common database selection control means for selecting at least one of the plurality of correction history databases as a common correction history database in response to the selection command,
The dynamic prosody generation unit selectively refers to correction history information included in the common correction history database;
The text-to-speech synthesizer, wherein the prosody modification unit selectively updates modification history information included in the common modification history database.
前記選択命令が、参照選択命令と更新選択命令とを含み、
前記修正履歴管理部は、前記参照選択命令に応じて、前記複数の修正履歴データベースの少なくとも1つを参照用修正履歴データベースとして選択する参照用データベース選択制御手段と、前記更新選択命令に応じて、前記複数の修正履歴データベースの少なくとも1つを更新用修正履歴データベースとして選択する更新用データベース選択制御手段とを有し、
前記動的韻律生成部は、前記参照用修正履歴データベースに含まれる修正履歴情報を選択的に参照し、
前記韻律修正部は、前記更新用修正履歴データベースに含まれる修正履歴情報を選択的に更新する
ことを特徴とするテキスト音声合成装置。The text-to-speech synthesizer according to claim 4 .
The selection instruction includes a reference selection instruction and an update selection instruction;
The correction history management unit is configured to select at least one of the plurality of correction history databases as a reference correction history database according to the reference selection command, and according to the update selection command. An update database selection control means for selecting at least one of the plurality of correction history databases as an update correction history database;
The dynamic prosody generation unit selectively refers to correction history information included in the reference correction history database,
The text-to-speech synthesizer, wherein the prosody modification unit selectively updates modification history information included in the update modification history database.
修正履歴情報を保持する修正履歴保持ステップと、
前記修正履歴情報を管理する修正履歴管理ステップと、
前記修正履歴管理部を介して前記修正履歴情報を参照して、前記言語情報に基づき動的韻律情報を生成する動的韻律生成ステップと、
外部修正命令に応じて前記動的韻律情報に修正を行うことにより確定韻律情報を生成し、かつ、前記外部修正命令に応じた修正に基づいて、前記修正履歴管理部を介して前記修正履歴情報を更新する韻律修正ステップと、
前記言語情報及び前記確定韻律情報に基づいて合成音声を生成する合成音声生成ステップと、
前記修正履歴管理ステップが、前記動的韻律生成ステップで参照される修正履歴情報を抽出する修正履歴抽出ステップと、前記修正履歴保持ステップに保持された修正履歴情報を更新する修正履歴更新ステップと、を有し、
前記修正履歴保持ステップが、韻律スタイルの互いに異なる複数の修正履歴データベースをさらに保持し、
前記修正履歴管理ステップが、選択命令に応じて、前記複数の修正履歴データベースの選択を制御するデータベース選択制御ステップを更に有するテキスト音声合成方法。A language analysis step for performing language analysis on text data and extracting language information;
A revision history holding step for holding revision history information;
A correction history management step for managing the correction history information;
A dynamic prosody generation step of generating dynamic prosody information based on the language information with reference to the correction history information via the correction history management unit;
The fixed prosody information is generated by correcting the dynamic prosodic information according to the external correction command, and the correction history information is generated via the correction history management unit based on the correction according to the external correction command. A prosody modification step for updating
A synthesized speech generating step for generating a synthesized speech based on the language information and the definite prosodic information;
The correction history management step includes a correction history extraction step for extracting correction history information referred to in the dynamic prosody generation step; a correction history update step for updating the correction history information held in the correction history holding step; Have
The revision history holding step further holds a plurality of revision history databases having different prosodic styles,
The text-to-speech synthesis method, wherein the modification history management step further includes a database selection control step for controlling selection of the plurality of modification history databases in response to a selection command .
前記動的韻律生成ステップが、静的な韻律生成規則にしたがって静的韻律情報を生成し、かつ、前記静的韻律情報を前記修正履歴情報に応じて修正して、前記動的韻律情報を生成することを特徴とするテキスト音声合成方法。The text-to-speech synthesis method according to claim 9 .
The dynamic prosody generation step generates static prosody information according to a static prosody generation rule, and corrects the static prosody information according to the correction history information to generate the dynamic prosody information. A method for synthesizing text-to-speech.
前記動的韻律生成ステップが、韻律生成規則を決定する韻律生成パラメータを前記修正履歴情報に応じて修正して修正韻律生成パラメータを生成し、前記修正韻律生成パラメータを用いた韻律生成規則にしたがって前記動的韻律情報を生成することを特徴とするテキスト音声合成方法。The text-to-speech synthesis method according to claim 9 .
The dynamic prosody generation step generates a modified prosody generation parameter by correcting a prosody generation parameter for determining a prosody generation rule according to the correction history information, and the prosody generation parameter according to the prosodic generation rule using the modified prosody generation parameter. A text-to-speech synthesis method characterized by generating dynamic prosodic information.
前記動的韻律生成ステップが、静的な韻律選択規則に基づいて複数の韻律パターン片のいずれか1つを選択韻律パターン片として選択し、かつ、前記選択韻律パターン片を前記修正履歴情報に応じて修正して、前記動的韻律情報を生成することを特徴とするテキスト音声合成方法。The text-to-speech synthesis method according to claim 9 .
The dynamic prosody generation step selects any one of a plurality of prosodic pattern pieces as a selected prosodic pattern piece based on a static prosodic selection rule, and the selected prosodic pattern piece corresponds to the correction history information The text-to-speech synthesis method is characterized in that the dynamic prosody information is generated by correcting the information.
修正履歴情報を保持する修正履歴保持ステップと、
前記修正履歴情報を管理する修正履歴管理ステップと、
前記修正履歴管理部を介して前記修正履歴情報を参照して、前記言語情報に基づき動的韻律情報を生成する動的韻律生成ステップと、
外部修正命令に応じて前記動的韻律情報に修正を行うことにより確定韻律情報を生成し、かつ、前記外部修正命令に応じた修正に基づいて、前記修正履歴管理部を介して前記修正履歴情報を更新する韻律修正ステップと、
前記言語情報及び前記確定韻律情報に基づいて合成音声を生成する合成音声生成ステップと、
前記修正履歴管理ステップが、前記動的韻律生成ステップで参照される修正履歴情報を抽出する修正履歴抽出ステップと、前記修正履歴保持ステップに保持された修正履歴情報を更新する修正履歴更新ステップと、をコンピュータに実行させるテキスト音声合成プログラムにおいて、
前記修正履歴保持ステップが、韻律スタイルの互いに異なる複数の修正履歴データベースをさらに保持し、
前記修正履歴管理ステップが、選択命令に応じて、前記複数の修正履歴データベースの選択を制御するデータベース選択制御ステップを更に有することを特徴とするテキスト音声合成プログラム。 A language analysis step for performing language analysis on text data and extracting language information;
A revision history holding step for holding revision history information;
A correction history management step for managing the correction history information;
A dynamic prosody generation step of generating dynamic prosody information based on the language information with reference to the correction history information via the correction history management unit;
The fixed prosody information is generated by correcting the dynamic prosodic information according to the external correction command, and the correction history information is generated via the correction history management unit based on the correction according to the external correction command. A prosody modification step for updating
A synthesized speech generating step for generating a synthesized speech based on the language information and the definite prosodic information;
The correction history management step includes a correction history extraction step for extracting correction history information referred to in the dynamic prosody generation step; a correction history update step for updating correction history information held in the correction history holding step; In a text-to-speech program that causes a computer to execute
The revision history holding step further holds a plurality of revision history databases having different prosodic styles,
The text-to-speech synthesis program characterized in that the revision history management step further comprises a database selection control step for controlling selection of the plurality of revision history databases in response to a selection command .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003102148A JP4326251B2 (en) | 2003-04-04 | 2003-04-04 | Text-to-speech synthesizer, text-to-speech synthesis method and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003102148A JP4326251B2 (en) | 2003-04-04 | 2003-04-04 | Text-to-speech synthesizer, text-to-speech synthesis method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004309724A JP2004309724A (en) | 2004-11-04 |
JP4326251B2 true JP4326251B2 (en) | 2009-09-02 |
Family
ID=33465721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003102148A Expired - Fee Related JP4326251B2 (en) | 2003-04-04 | 2003-04-04 | Text-to-speech synthesizer, text-to-speech synthesis method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4326251B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5423466B2 (en) * | 2010-02-19 | 2014-02-19 | 富士通株式会社 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
JP2011186143A (en) * | 2010-03-08 | 2011-09-22 | Hitachi Ltd | Speech synthesizer, speech synthesis method for learning user's behavior, and program |
JP5949067B2 (en) * | 2012-03-30 | 2016-07-06 | 富士通株式会社 | Speech synthesis program, speech synthesis method, and speech synthesis apparatus |
JP6411015B2 (en) * | 2013-09-12 | 2018-10-24 | 富士通株式会社 | Speech synthesizer, speech synthesis method, and program |
WO2015052817A1 (en) | 2013-10-10 | 2015-04-16 | 株式会社東芝 | Transliteration work support device, transliteration work support method and program |
JP6392445B2 (en) * | 2015-03-24 | 2018-09-19 | 株式会社東芝 | Transliteration support device, transliteration support method, and transliteration support program |
CN115620699B (en) * | 2022-12-19 | 2023-03-31 | 深圳元象信息科技有限公司 | Speech synthesis method, speech synthesis system, speech synthesis apparatus, and storage medium |
-
2003
- 2003-04-04 JP JP2003102148A patent/JP4326251B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004309724A (en) | 2004-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hirst | The analysis by synthesis of speech melody: from data to models | |
JP3070127B2 (en) | Accent component control method of speech synthesizer | |
JP4745036B2 (en) | Speech translation apparatus and speech translation method | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
WO2007010680A1 (en) | Voice tone variation portion locating device | |
JPH11202884A (en) | Method and device for editing and generating synthesized speech message and recording medium where same method is recorded | |
JP2011028130A (en) | Speech synthesis device | |
JP4326251B2 (en) | Text-to-speech synthesizer, text-to-speech synthesis method and program thereof | |
JP4856560B2 (en) | Speech synthesizer | |
JP2008083239A (en) | Device, method and program for editing intermediate language | |
JP2005345699A (en) | Device, method, and program for speech editing | |
JP6091938B2 (en) | Speech synthesis dictionary editing apparatus, speech synthesis dictionary editing method, and speech synthesis dictionary editing program | |
JP2003302992A (en) | Method and device for synthesizing voice | |
JP4311710B2 (en) | Speech synthesis controller | |
JP3230868B2 (en) | Speech synthesizer | |
JP5975033B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2006349787A (en) | Method and device for synthesizing voices | |
JP6299141B2 (en) | Musical sound information generating apparatus and musical sound information generating method | |
JPH07140996A (en) | Speech rule synthesizer | |
JP2009230062A (en) | Voice synthesis device and reading system using the same | |
JP4173404B2 (en) | Statement set automatic generation device, statement set automatic generation program, storage medium | |
JP4034751B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JPH08272388A (en) | Device and method for synthesizing voice | |
JP4551066B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP5184234B2 (en) | DATA GENERATION DEVICE, DATA GENERATION PROGRAM, AND REPRODUCTION DEVICE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090512 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090609 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120619 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |