JP2004309724A - テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム - Google Patents

テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム Download PDF

Info

Publication number
JP2004309724A
JP2004309724A JP2003102148A JP2003102148A JP2004309724A JP 2004309724 A JP2004309724 A JP 2004309724A JP 2003102148 A JP2003102148 A JP 2003102148A JP 2003102148 A JP2003102148 A JP 2003102148A JP 2004309724 A JP2004309724 A JP 2004309724A
Authority
JP
Japan
Prior art keywords
prosody
correction
information
correction history
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003102148A
Other languages
English (en)
Other versions
JP4326251B2 (ja
Inventor
Kazuhiro Miki
一浩 三木
Osamu Kimura
治 木村
Tomokazu Morio
智一 森尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003102148A priority Critical patent/JP4326251B2/ja
Publication of JP2004309724A publication Critical patent/JP2004309724A/ja
Application granted granted Critical
Publication of JP4326251B2 publication Critical patent/JP4326251B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】従来においては、修正履歴を用いて修正の傾向を知り、その後の韻律生成規則を手動で改善することにしていた。しかし、膨大な条件から作成される韻律生成規則に対し、膨大な修正履歴を解析して韻律生成規則自体を改善することは、非常に煩雑かつ専門的な作業であり、エンドユーザが自分の好みによって韻律生成規則そのものを修正することが難しかった。
【解決手段】韻律修正部103における過去の韻律修正の修正内容及び修正条件を、修正履歴情報として修正履歴保持部106に保持しておき、その後の韻律情報の生成においては、保持された修正履歴情報を参照し、修正条件に合致する情報があれば、その修正条件に対応付けられた修正内容を自動的に反映させて韻律情報を生成する動的韻律生成部102を備えた構成のテキスト音声合成装置とする。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、テキスト音声合成装置に関する。詳しくは、修正履歴を自動的に反映して韻律情報を生成する機能を備えたテキスト音声合成装置に関する。また、本発明は、修正履歴を自動的に反映して韻律情報を生成する方法を含むテキスト音声合成方法と、そのテキスト音声合成方法を実現するプログラムとに関する。
【0002】
【従来の技術】
従来の音声合成においては、音声を構成する音素片を指定されたピッチパターン(韻律情報)にしたがって接続することにより、定められたピッチパターンで合成音声を生成していた。また、従来において、テキスト音声合成のピッチパターンは、入力されたテキストを解析し、その解析結果に基づき、予め定められた韻律生成規則にしたがって生成されていた。
【0003】
生成される韻律は、テキスト解析時や韻律生成時の誤りなどを含むこともあり、この場合は、合成音声作成者(以後、作者と称する)の意図と異なる合成音声が生成されることになる。そのような韻律の誤りを修正するため、また、作者の好む韻律に調整するためには、技術者が韻律情報の記述された韻律ファイルの内容を書き換えるなど、経験に基づいた専門的な操作を行って韻律を決定するパラメータ(ピッチパターン、パワー等)を直接変更する必要があった。
【0004】
このようなピッチパターンの修正を容易に行う方法として、韻律を制御する韻律ファイルの内容をディスプレイ上にグラフィカルに表示し、表示されたパラメータ(ピッチパターン、パワー等)のパターンをマウスで変更する方法が知られている(例えば、特許文献1参照)。この韻律修正方法では、処理された修正が記憶装置に記憶され、同じ韻律ファイルを用いて再度の音声合成を行う場合には、現在のパターンと修正履歴パターンとが表示される。これにより、修正の手間を低減し、かつ、修正の傾向をつかむことで、その後の韻律作成規則の情報を得ようとしている。
【0005】
特許文献1に記載された韻律修正の手順を、図18を参照して簡単に説明する。入力されたテキストは言語処理部401において、読みの情報、品詞の情報、係り受け情報などの言語関連情報が抽出される。その後、それらの言語関連情報を用いて韻律生成部402は、音声合成の基本情報となる韻律ファイル409を生成する。韻律修正部403においては、生成された韻律ファイル409の内容がグラフファイル表示生成部412によって画面表示され、画面表示されたグラフファイルを修正することにより、韻律ファイル409の修正を行う。この修正作業を行う部分がパターン修正部413である。
【0006】
パターン修正部413によって修正された各パラメータの値は、修正履歴データとして修正履歴DB(修正履歴データベース)406に記録される。したがって、再度同じ韻律ファイル409を修正する機会には、過去の修正履歴もグラフファイル表示生成部412によって画面に表示されるため、同等の韻律の修正が容易に行える。また、修正の傾向なども修正履歴を解析することにより得ることができるため、その後の韻律生成における情報の一つとして扱うことができる。
【0007】
このようにして作成された修正後韻律ファイル419に基づき、素片選択部414にて合成用の素片が選択され、音声合成部424はその素片を韻律ファイルにしたがって変形、接続することで合成音声を作成する。
【0008】
【特許文献1】
上記特開平5−232980号公報
【0009】
【発明が解決しようとする課題】
図18に示された従来の方法では、音声合成を行うたびに、作成される韻律ファイル409に対して同じ修正を手動で行っており、その修正履歴も韻律ファイル409ごとに保持されている。したがって、同じ文章を合成する場合には過去の修正履歴を参考にすることができるものの、異なる文章を合成する場合には、同じ修正を過去の修正履歴を参考にすることなく行わなければならなかった。
【0010】
また、韻律ファイル409をパンターン化して修正履歴の修正の傾向を知り、その傾向を一つの情報としてその後の韻律生成規則の改善に用いることにしているが、膨大な条件から作成される韻律生成規則に対して、膨大な修正履歴を解析し韻律生成規則そのものを改善することは個別に韻律ファイルを修正するよりも極めて高度な専門的知識を有する作業となる。つまり、大まかな傾向は把握できたとしても、エンドユーザが自分の好みによって韻律生成規則そのものを簡便に修正することは難しかった。
【0011】
本発明は上記に鑑みなされたものであり、その目的は、エンドユーザが、韻律生成規則そのものを直接修正することなく、また、膨大な韻律情報を音声合成のたびに修正することもなく、嗜好に合った音声合成を簡便に行える方法と、その方法を適用したテキスト音声合成装置と、その方法を実現するプログラムとを提供することにある。
【0012】
【課題を解決するための手段】
上記の課題を解決するために、本発明は、エンドユーザによって韻律情報が修正されたときの修正内容及び修正条件を一対にして、修正履歴情報を構成する修正履歴データとして保持しておき、その修正以降に行われる韻律情報の生成においては、保持されている修正履歴情報を参照し、修正条件に合致する修正履歴データがあれば、その修正条件に対応付けられた修正内容が自動的に反映された韻律情報を生成する機能を有する構成である。
【0013】
上記の構成であれば、修正履歴情報に登録された過去の各修正と同一の修正を改めて行う必要がなくなり、かつ、エンドユーザによって行われた修正に応じて修正履歴情報の学習が逐次進むため、エンドユーザの嗜好に合った韻律情報を簡便に生成することができる。
【0014】
具体的には、本発明に係るテキスト音声合成装置は、テキストデータに対して言語解析を行い、言語情報を抽出する言語解析部と、修正履歴情報を保持する修正履歴保持部と、修正履歴情報を管理する修正履歴管理部と、修正履歴管理部を介して修正履歴情報を参照して、言語情報に基づき動的韻律情報を生成する動的韻律生成部と、外部修正命令に応じて動的韻律情報に修正を行うことにより確定韻律情報を生成し、かつ、外部修正命令に応じた修正に基づいて、修正履歴管理部を介して修正履歴情報を更新する韻律修正部と、言語情報及び確定韻律情報に基づいて合成音声を生成する合成音声生成部と、を含む構成である。
【0015】
また、本発明に係るテキスト音声合成方法は、テキストデータに対して言語解析を行って言語情報を抽出する言語解析ステップと、修正履歴情報を参照する修正履歴参照ステップと、修正履歴参照ステップと連携して、言語情報に基づき動的韻律情報を生成する動的韻律生成ステップと、外部修正命令に応じて動的韻律情報に修正を行って確定韻律情報を生成する韻律修正ステップと、動的韻律情報に対する修正に応じて修正履歴情報を更新する修正履歴更新ステップと、言語情報及び確定韻律情報に基づいて合成音声を生成する合成音声生成ステップと、を含む構成である。
【0016】
また、本発明に係るテキスト音声合成プログラムは、テキストデータに対して言語解析を行って言語情報を抽出する言語解析プログラムコードと、修正履歴情報を参照する修正履歴参照プログラムコードと、修正履歴参照プログラムコードと連携して、言語情報に基づき動的韻律情報を生成する動的韻律生成プログラムコードと、外部修正命令に応じて動的韻律情報に修正を行って確定韻律情報を生成する韻律修正プログラムコードと、動的韻律修正情報に対する修正に応じて修正履歴情報を更新する修正履歴更新プログラムコードと、言語情報及び確定韻律情報に基づいて合成音声を生成する合成音声生成プログラムコードとを含む構成である。
【0017】
【発明の実施の形態】
本発明の内容を説明すると共に、好ましい実施の形態を記述する。なお、必要に応じて図1及び図2を参照する。図1は、本発明に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図2は、本発明に係るテキスト音声合成方法を概念的に示すブロック図である。
【0018】
図1に示されたテキスト音声合成装置は、テキストデータに対して言語解析を行って、言語情報を抽出する言語解析部101と、修正履歴情報を保持する修正履歴保持部106と、修正履歴情報を管理する修正履歴管理部105と、修正履歴管理部105を介して修正履歴情報を参照して、言語情報に基づき動的韻律情報を生成する動的韻律生成部102と、動的韻律情報に外部修正命令に応じた修正を行って確定韻律情報を生成し、かつ、修正に応じて修正履歴管理部105を介して修正履歴情報を更新する修正韻律修正部103と、言語情報及び確定韻律情報に基づいて合成音声を生成する合成音声生成部104とを含む構成である。
【0019】
図2に示されたテキスト音声合成方法(テキスト音声合成プログラムコード)は、テキストデータに対して言語解析を行って言語情報を抽出する言語解析ステップ201(言語解析プログラムコード)と、修正履歴情報を参照する修正履歴参照ステップ215(修正履歴参照プログラムコード)と、修正履歴参照ステップ215(修正履歴参照プログラムコード)と連携して、言語情報に基づき動的韻律情報を生成する動的韻律生成ステップ202(動的韻律生成プログラムコード)と、外部修正命令に応じて動的韻律情報に修正を行って確定韻律情報を生成する韻律修正ステップ203(韻律修正プログラムコード)と、動的韻律情報の修正に応じて修正履歴情報を更新する修正履歴更新ステップ225(修正履歴更新プログラムコード)と、言語情報及び確定韻律情報に基づいて合成音声を生成する合成音声生成ステップ204(合成音声生成プログラムコード)と、を含む構成である。
【0020】
韻律情報を生成する一般的な方法としては、例えば、言語情報を引数にして、予め定められた韻律生成規則(静的な韻律生成規則)にしたがって韻律情報(静的韻律情報)を生成する方法、及び、予め用意された複数の韻律パターン片の中から1つの韻律パターン片を予め定められた規則(静的な韻律パターン片選択規則)にしたがって選択することにより韻律情報(静的韻律情報)を生成する方法が挙げられる。これに対して、本発明においては、修正履歴情報を参照することにより韻律情報(動的韻律情報)を動的に生成することを本質的な特徴としている。
【0021】
本明細書において、「静的」及び「動的」とは、それぞれ、「修正履歴情報に依存せず固定的」及び「修正履歴情報に依存し、その情報に応じて可変的」を意味する。また、「静的韻律情報」とは、従来の如く修正履歴情報を参照せずに生成された韻律情報を意味する。また、「動的韻律情報」とは、修正履歴情報を参照して生成された韻律情報を意味し、修正履歴情報に合致する場合には、基本の韻律情報と異なる韻律情報となり、修正履歴情報に合致しない場合には、基本の韻律情報と同一の韻律情報となる。
【0022】
まず、テキスト音声合成装置の言語解析部101について説明する。言語解析部101は、音声合成を行う対象のテキストデータに対して言語解析を行う。この言語解析によって、様々な言語情報が抽出される(言語解析ステップ201)。言語情報としては、例えば、読みを特定する情報(音素記号列等)、品詞を特定する情報、係り受けを特定する情報が挙げられる。
【0023】
次に、テキスト音声合成装置の動的韻律生成部102について説明する。動的韻律生成部102は、修正履歴情報を参照して(修正履歴参照ステップ215)、言語情報に基づき動的韻律情報を生成する(動的韻律生成ステップ202)。動的韻律生成部102は、修正履歴情報を参照して動的に韻律情報を生成する限りにおいて、どのような方式で修正履歴情報を参照してもよく、例えば、下記の3つの参照方式が挙げられる。
【0024】
第1の修正履歴参照方式は、動的韻律生成部102において、静的な韻律生成規則にしたがって静的韻律情報を生成し、かつ、生成された静的韻律情報を修正履歴情報に応じて修正することによって、動的韻律情報を生成する方式である。
【0025】
第2の修正履歴参照方式は、動的韻律生成部102において、修正履歴情報に応じて韻律生成規則の韻律生成パラメータの設定を修正し、韻律生成パラメータの設定により変化する動的な韻律生成規則にしたがって動的韻律情報を生成する方式である。
【0026】
第3の修正履歴参照方式は、動的韻律生成部102において、静的な韻律選択規則にしたがって、言語情報に基づき複数の韻律パターン片から1つの最適な韻律パターン片を選択韻律パターン片として選択し、かつ、選択韻律パターン片を修正履歴情報に応じて修正することにより動的韻律情報を生成する方式である。
【0027】
次に、テキスト音声合成装置の韻律修正部103について説明する。韻律修正部103は、動的韻律生成部102で生成された動的韻律情報に対して、外部修正命令に応じた修正を行って確定韻律情報を生成する(韻律修正ステップ203)。
【0028】
韻律修正部103に外部修正命令が入力されなければ、動的韻律情報は、修正されずに確定韻律情報となる。他方、外部修正命令を受信すれば、外部修正命令に応じた修正が動的韻律情報に施されて、修正後の動的韻律情報が確定韻律情報となる。
【0029】
外部修正命令に応じた修正における修正内容及びその修正時の修正条件(以下、一対の修正内容と修正条件を修正履歴データと称す)は、修正履歴保持部106に保存されている修正履歴情報を更新するために、修正履歴管理部105に引渡される(修正履歴更新ステップ203)。ここに、修正履歴情報の更新とは、修正履歴情報に修正履歴データを追加すること、又は、修正履歴情報を構成する修正履歴データの一部を変更することを意味する。
【0030】
修正履歴情報を構成する各修正履歴データにおける修正内容の修正要素としては、修正前後における変化が特定できればいかなる韻律パラメータでもよい。修正要素としては、修正前後における修正量が規定できる韻律パラメータを用いることが好ましい。修正量が規定できる韻律パラメータとしては、例えば、1又は複数の音素記号からなる音素記号列単位や呼気段落単位やアクセント句単位に対する継続時間長、強度パターン(パワーパターン)又は基本周波数パターン(ピッチパターン)が挙げられる。また、各修正履歴データの修正内容の修正要素は、1種類の韻律パラメータのみを含む構成であってもよいし、複数種類の韻律パラメータを含む構成であってもよい。
【0031】
他方、修正履歴データにおける修正条件は、言語情報を用いて条件設定できる。修正条件における条件要素としては、例えば、1又は複数の音素記号からなる音素記号列、品詞、文中位置、アクセント型が挙げられる。動的韻律生成部102が、第1の履歴参照方式を有する場合には、更に、静的韻律情報に含まれる少なくとも1種の韻律パラメータを条件要素として用いることもできる。修正履歴データの修正条件は、1種類の条件要素のみを含む構成であってもよいし、複数種類の条件要素を含む構成であってもよい。
【0032】
韻律修正部103において動的韻律情報を修正する方法としては、例えば、修正可能な韻律パラメータのパターンをグラフィカルに表示し、表示されたパターンに対してマウスなどを用いて修正する方法や、動的韻律情報をテキストで表示し、表示されたテキストを編集することによって修正する方法が挙げられる。
【0033】
更に、動的韻律情報の修正において、修正の反映された修正韻律情報を用いて生成される合成音声を逐次聞きながら修正をインタラクティブに調整してもよい。最終的に調整を完了した状態での修正韻律情報が、確定韻律情報として合成音声生成部104に送られる。この場合には、韻律修正部103が、修正対象となっているテキストデータの断片に対する言語情報及び修正韻律情報に基づいて合成音声を生成するサンプル音声合成手段を有するように構成する。
【0034】
次に、テキスト音声合成装置の修正履歴保持部106及び修正履歴管理部105について説明する。修正履歴保持部106は、韻律修正部103において修正された修正内容をその修正条件と共に修正履歴情報として保持する。また、修正履歴管理部105は、韻律修正部103における修正に応じて修正履歴情報を更新する修正履歴更新手段や、動的韻律生成部102で参照する修正履歴情報を抽出する修正履歴抽出手段を備えた構成である。
【0035】
修正履歴管理部105の修正履歴抽出手段は、動的韻律生成部102から送られてきた修正条件に基づいて、修正履歴保持部106から修正条件に合致する修正履歴データを抽出し、修正条件と対応付けられた修正内容を動的韻律生成部102に送る。修正条件に合致する修正履歴データが修正履歴保持部106に複数存在する場合には、それらすべてに対応する修正内容を抽出して動的韻律生成部102に送る。
【0036】
修正履歴管理部105の修正履歴更新手段は、韻律修正部103から修正内容及び修正条件からなる修正履歴データを受け取ったとき、修正履歴保持部106に保持されている修正履歴情報を更新する。
【0037】
ここで、受け取った修正条件を満たす修正条件を有する修正履歴データが修正履歴保持部106に保持されていない場合には、修正履歴保持部106に修正履歴データを追加することにより修正履歴情報を更新する。
【0038】
また、受け取った修正条件を満たす修正条件と、受け取った修正内容と修正要素が異なる修正内容とを有する既存の修正履歴データが修正履歴保持部106に保持されている場合には、受け取った修正履歴データを追加することにより修正履歴情報を更新してもよいし、それらを統合して複数の修正要素を含む修正内容を有する1つの新たな修正履歴データに置き換えてもよい。
【0039】
また、修正履歴管理部105は、韻律修正部103から修正履歴データを受け取ったとき、受け取った修正条件を満たす修正条件と、受け取った修正内容と修正要素が同一でありかつ修正処理は異なる修正内容とを有する既存の修正履歴データが修正履歴保持部106に保持されている場合には、基本の韻律情報に対して相対的に決定される最終の修正内容を次回以降の動的韻律生成において反映させることができるように更新する。この場合の更新においては、既に存在する修正履歴データと関連付けて修正履歴データを追加してもよいし、過去の修正内容との差分を考慮して新たな1つの修正履歴データに置き換えてもよい。
【0040】
修正履歴保持部106は、単一の修正履歴DBで構成されていてもよいし、韻律スタイルの互いに異なる複数の修正履歴DBで構成されていてもよい。韻律スタイルとは、例えば、大阪弁や京都弁などの方言に応じた口調のスタイル、及び、悲しい口調、楽しい口調、激しい口調、優しい口調などの感情に応じた口調のスタイルを意味する。なお、修正履歴保持部106が複数の修正履歴DBを有する構成の場合、修正履歴情報とは、すべての修正履歴DBに含まれる韻律修正データ全体、つまり、修正履歴保持部に保持された韻律修正データ全体を意味することに注意を要する。
【0041】
以下においては、修正履歴保持部106が複数の修正履歴DBを有する場合について説明する。必要に応じて図3及び図4を参照する。図3は、複数の修正履歴DBからなる修正履歴保持部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。図4(a)〜(c)は、複数の修正履歴DBの選択を制御するDB選択制御手段の構成例を概念的に示すブロック図である。
【0042】
図3に示されるように、修正履歴保持部106が複数の修正履歴DB116を有する場合には、修正履歴管理部105が、修正履歴抽出手段115及び修正履歴更新手段125と共に、修正履歴DBからの修正履歴データの抽出又は修正履歴DBへの修正履歴情報の更新において、いずれの修正履歴DBに対して行うかを制御するためのDB選択制御手段135を有する構成とする。
【0043】
DB選択制御手段135は、動的韻律生成部102によって参照される修正履歴DB(以下、参照用修正履歴DBとも称す)及び韻律修正部103における修正に基づいて更新される修正履歴DB(以下、更新用修正履歴DBとも称す)として、同一の修正履歴DBを選択する手段であってもよいし、参照用修正履歴DBと更新用修正履歴DBとを互いに独立に選択する手段であってもよい。以下に、DB選択制御手段135の具体的な構成について説明する。
【0044】
図4(a)に示されたように、修正履歴管理部105は、共通選択命令に応じて、複数の修正履歴DB116の少なくとも1つを共通修正履歴DBとして選択する共通DB選択制御手段145を有する構成(第1の構成)とすることができる。第1の構成の場合、動的韻律生成部102は、共通修正履歴DBに含まれる修正履歴情報を選択的に参照し、韻律修正部103は、共通修正履歴DBに含まれる修正履歴情報を選択的に更新することとなる。なお、選択命令として、共通選択命令が用いられている。
【0045】
上記の構成であれば、目的に応じて複数の修正履歴DB116のうち1つ又は複数の修正履歴DBの修正履歴情報を選択的に動的韻律生成に反映させることができ、かつ、1回の韻律修正によって1つ又は複数の修正履歴DBの修正履歴情報を選択的に更新できる。また、動的韻律生成部102において、所望の韻律スタイルを反映させた動的韻律情報を簡便に生成することができる。
【0046】
また、図4(b)に示されたように、修正履歴管理部105は、参照選択命令に応じて複数の修正履歴DB116の少なくとも1つを参照用修正履歴DBとして選択する参照用DB選択制御手段155と、更新選択命令に応じて複数の修正履歴DB116の少なくとも1つを更新用修正履歴DBとして選択をする更新用DB選択制御手段165とを有する構成(第2の構成)とすることができる。第2の構成の場合、動的韻律生成部102は、参照用修正履歴DBに含まれる修正履歴情報を選択的に参照し、韻律修正部103は、更新用修正履歴DBに含まれる修正履歴情報を選択的に更新することとなる。なお、選択命令として、参照選択命令と更新選択命令が用いられている。
【0047】
修正履歴管理部105が第1の構成の場合には、参照用修正履歴DBと更新用修正履歴DBとに対して共通の制御がなされるが、第2の構成の場合は、参照用修正履歴DBと更新用修正履歴DBとに対して独立した制御をすることができる。これにより、修正履歴情報を柔軟かつ効果的に更新させることができる。つまり、修正履歴の学習を効率良く行うことができる。
【0048】
また、修正履歴管理部105は、共通選択命令に応じて、複数の修正履歴DB116の少なくとも1つを共通修正履歴DBとして選択する共通DB選択制御手段145を有し、かつ、選択変更命令に応じて、共通DB選択制御手段145で選択された修正履歴DBのいずれかに対する選択の解除及び/又は共通DB選択手段145で選択された修正履歴DB以外の修正履歴DBの追加選択を行う選択DB変更手段175を有する構成とすることができる。
【0049】
選択DB変更手段175は、動的韻律生成部102によって参照される修正履歴DBと韻律修正部103における修正に基づいて更新される修正履歴DBの双方に対して共通の変更又は双方に独立な変更を加えてもよい。更に、動的韻律生成部102によって参照される修正履歴DB及び韻律修正部103における修正に基づいて更新される修正履歴DBの一方のみに対して変更を加えてもよい。
【0050】
図4(c)には、修正履歴管理部105が、韻律修正部103における修正に基づいて更新される修正履歴DBに対して変更を加える選択DB変更手段175を有する構成(第3の構成)が示されている。第3の構成の場合、動的韻律生成部102は、共通DB選択制御手段145により選択された少なくとも1つの修正履歴DB(参照用修正履歴DB)に含まれる修正履歴情報を選択的に参照し、韻律修正部103は、共通DB選択制御手段145及び選択DB変更手段175で決定された少なくとも1つの修正履歴DB(更新用修正履歴DB)に含まれる修正履歴情報を選択的に更新することとなる。なお、選択命令として、共通選択命令及び選択変更命令が用いられている。
【0051】
第3の構成であれば、更新用修正履歴DBを、参照用修正履歴DBから独立させ、かつ、修正履歴保持手段106における複数の韻律履歴DB116から任意に選択することができる。韻律修正部103で動的韻律情報に対して修正を行う場合、通常、動的韻律情報の生成において参照された韻律スタイル(修正履歴DB)に対しては修正を反映させるため、上記の第2の構成に比べて、修正履歴情報を簡便、柔軟、かつ、効果的に更新させることができる。
【0052】
また、修正履歴管理部105は、共通選択命令に応じて、複数の修正履歴データベース116の少なくとも1つを共通修正履歴DBとして選択する共通DB選択手段145を有し、かつ、選択変更命令に応じて、共通修正履歴DBで構成された更新用修正履歴DBに新たな修正履歴DBの追加のみを行う選択DB変更手段175を有する構成(第4の構成)としてもよい。第4の構成の場合、動的韻律生成部102は、共通DB選択制御手段145により選択された共通修正履歴DBで構成される参照用修正履歴DBに含まれる修正履歴情報を選択的に参照し、韻律修正部103は、共通修正履歴DBと選択DB変更手段で追加された少なくとも1つの修正履歴DBとで構成される更新用修正履歴DBに含まれる修正履歴情報を選択的に更新することとなる。なお、選択命令として、共通選択命令及び選択変更命令が用いられている。
【0053】
韻律修正部103で動的韻律情報に対して修正を行う場合、通常、動的韻律情報の生成において参照された韻律スタイル(修正履歴DB)に対しては修正を反映させるため、更新用修正履歴DBには、参照用修正履歴DBを構成するすべての修正履歴DBが含まれていることがより好ましい。したがって、第4の構成であれば、第3の構成に比べて構成が簡素であるにも関わらず、第3の構成と同等の効果を発現する。
【0054】
複数の修正履歴DB116のいずれを選択するかは、装置又はアプリケーションの立ち上げごとに決定してもよいし、テキストデータごとに決定してもよい。更に、アプリケーション上で、修正履歴DBを韻律修正部103における動的韻律情報の修正ごとに適宜決定してもよい。更に、修正履歴管理部105のDB選択制御手段135が上記第2の構成、上記第3の構成、上記第4の構成などである場合(少なくとも2種の手段を有する構成の場合)には、複数の決定方法を併用することもできる。
【0055】
テキストデータごとに修正履歴DBを選択する場合には、アプリケーション上で作者が選択してもよいし、テキストデータと共にテキストファイルに含まれる制御コード(スタイル選択情報)等に応じて選択してもよい。前者の場合、選択命令を入力する選択命令入力部を、後者の場合、テキストファイルを解析して選択命令を生成する選択命令生成部を更に含むテキスト音声合成装置とする。
【0056】
最後に、テキスト音声合成装置の合成音声生成部104について説明する。音声合成生成部104では、言語情報及び確定韻律情報に基づき素片の選択と素片の変形と素片の接続とを行うことによって、合成音声を生成する(合成音声作成ステップ)。なお、言語情報と確定韻律情報を用いた合成音声の生成においては、従来のいかなる公知技術を用いてもよい。
【0057】
(実施の形態1)
本実施の形態1においては、第1の修正履歴参照方式を適用した動的韻律生成部を有するテキスト音声合成装置について説明する。必要に応じて、図5及び図6を参照する。図5は、本実施の形態1に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図6は、本実施の形態1に係るテキスト音声合成装置における特徴部分を詳細に説明するための説明図である。
【0058】
図5に示されたテキスト音声合成装置は、テキスト保持部107と、言語解析部101と、静的韻律生成手段112、フィルタリング手段122及びフィルタ制御手段132を有する動的韻律生成部102と、韻律修正部103と、表示部117と、修正命令入力部127と、単一の修正履歴DBを有する修正履歴保持部106と、修正履歴抽出手段115及び修正履歴更新手段125を有する修正履歴管理部105と、素片保持手段134、素片選択手段114及び音声合成手段124とを有する合成音声作成部104と、音声出力部137とを含む構成である。
【0059】
図5に示されたテキスト音声合成装置の動作について説明する。言語解析部101において、テキスト保持部107に保持されたテキストデータに対して、所定の単位で言語解析が行われ、その結果、言語情報が抽出される(言語処理ステップ)。抽出された言語情報は、動的韻律生成部102の静的韻律生成手段112に送られる。
【0060】
静的韻律生成手段112において、送られてきた言語情報に基づき、静的な韻律生成規則にしたがって静的韻律情報が生成される(静的韻律生成ステップ)。生成された静的韻律情報は、言語情報と共にフィルタリング手段122に送られる。
【0061】
フィルタリング手段122において、送られてきた言語情報と静的韻律情報から修正条件が生成される。生成された修正条件は、フィルタリング処理の処理内容を決定するために、フィルタ制御手段132に送られる。
【0062】
フィルタ制御手段132において、送られてきた修正条件に合致する韻律修正データが修正履歴保持部106の韻律修正DBに含まれているか否かを確認するために、その修正条件が修正履歴管理部105の修正履歴抽出手段115に送られる。ここに、修正履歴保持部106が1種の韻律修正DBのみを有するため、修正履歴DBに含まれる情報全体が修正履歴情報である。
【0063】
修正履歴抽出手段115において、修正履歴保持部106の修正履歴DBが検索され、その結果、送られてきた修正条件に合致する修正履歴データが存在すれば、その修正履歴データが抽出される。抽出された韻律修正データは、フィルタ制御手段132に送られる。ここに、修正条件に合致する修正履歴データが複数存在していれば、それらすべての修正履歴データがフィルタ制御手段132に送られる。また、修正条件に合致する修正履歴データが存在していなければ、その旨をフィルタ制御手段132に通知する。
【0064】
フィルタ制御手段132において、送られてきた修正履歴データから静的韻律情報における各韻律パラメータの修正量を決定し、フィルタリング手段122に通知する。ここに、修正履歴抽出手段115から複数の修正履歴データが送られてきた場合は、それらすべてを反映するように各韻律パラメータの修正量を決定する。また、修正履歴データが存在しない旨の通知があれば、修正を行わない旨、又は、各韻律パラメータの修正量がゼロである旨の通知をフィルタリング手段122に通知する。
【0065】
フィルタリング手段122において、フィルタ制御手段132で決定された各韻律パラメータの修正量に基づき、静的韻律情報を修正して、動的韻律情報を生成する。生成された動的韻律情報は、言語情報と共に、韻律修正部103に送られる。ここに、フィルタリング手段122における修正は、修正履歴情報に応じて自動的に行われること、及び、動的韻律情報は、修正履歴情報の反映された韻律情報であることに注意を要する。
【0066】
韻律修正部103は、送られてきた動的韻律情報を表示部117にグラフィカルな画像として表示させる。表示部117に表示された動的韻律情報に対して、修正命令入力部127からの外部修正命令にしたがって、所望の追加修正が行われる。ここに、韻律修正部103における修正は、従来技術の如く手作業によって行われることに注意を要する。
【0067】
韻律修正部103における追加修正に対して、修正条件及び修正内容をセットにした修正履歴データが生成される。生成された修正履歴データは、修正履歴保持部106における修正履歴DBを更新するために、修正履歴管理部105の修正履歴更新手段125に送られる。また、所望の修正が加えられた動的韻律情報は、確定韻律情報として、言語情報と共に合成音声生成部104の素片選択手段114に送られる。
【0068】
修正履歴管理部105の修正履歴更新手段125は、送られてきた修正履歴データに基づき、修正履歴保持部106の修正履歴DBを更新する。ここに、フィルタリング手段122での次回からのフィルタリング処理において、更新された修正履歴DBが参照されることに注意を要する。また、同一ファイル内に限らず、第1のファイルに対する修正は、第1のファイルと異なる第2のファイルに含まれるテキストデータをテキスト音声合成する場合のフィルタリング処理にも反映されることに注意を要する。
【0069】
合成音声生成部104の素片選択手段114において、韻律修正部103から送られてきた言語情報に基づき素片保持部134に保持された素片群から最適な素片が選択される。選択された素片は、音声合成手段124に送られる。
【0070】
素片保持部134に保持された素片は、単素片であってもよいし、合成素片であってもよい。合成素片としては、例えば、CV単位(C:子音、V:母音)の素片、VC単位の素片、CVC単位の素片及びVCV単位の素片が挙げられる。素片群は、単素片のみからなる構成、1種類の合成素片のみからなる構成、複数種類の合成素片からなる構成、及び、単素片及び1又は複数の合成素片からなる構成であってもよい。
【0071】
合成音声生成部104の音声合成手段124において、送られてきた素片が確定韻律情報に基づき変形されかつ接続されることにより、合成音声が生成される。生成された合成音声は、音声出力部137において出力される。
【0072】
以上の処理を経ると、作者の過去の修正が自動的に反映されて好みに近い合成音声を生成する動的韻律情報に対して、手動の追加修正が行われるため、基本の韻律情報(静的韻律情報)に対して手動の修正を行う従来のテキスト音声合成又は韻律生成規則を手動で修正する従来のテキスト音声合成に比べて、任意のテキストデータを好みに合った合成音声として簡便に出力させることができる。
【0073】
ここで、図6に示された具体例に基づいて、フィルタリング手段122におけるフィルタリング処理を詳細に説明する。自動的に修正される韻律情報としては継続時間長、パワーパターン、ピッチパターンなどが考えられるが、この具体例では、生成される韻律情報に含まれる韻律パラメータがピッチパターンである場合について説明する。なお、以下の説明において、各部材及び各手段については、図5に示された参照符号を付す。
【0074】
まず、過去において行われた韻律修正について説明する。韻律修正部103において、グラフィカルに表示されたピッチパターンに対してマウスを用いた修正305a、又は、テキストで表示されたピッチパターンに対するテキスト編集による修正305bが行われている。ここに、修正前のピッチパターンは、最初の音素記号/a/のピッチが400Hz、最後の音素記号/a/のピッチが300Hzであること意味している。なお、子音に対してはピッチが定義されないため、/k/には数値が与えられていない。過去の韻律修正においては、最後の音素記号/a/のピッチが300Hzから200Hzに変更されている。
【0075】
上記のいずれの方法で韻律修正を行っても、同一の修正履歴データ306が生成される。生成された修正履歴データ306は、修正履歴DB116に格納される。
【0076】
修正履歴DB116に登録された修正履歴データ306は、修正条件として、文中位置が文末であり、音素記号列(対象音素記号、先行音素記号、後続音素記号)が(/a/、/k/、/−/)であり、モーラ数が2であり、かつ、アクセント型が0型であることを含んでおり、修正内容には、対象音素音素/a/のピッチを100Hzだけ下げることを意味する修正処理を含んでいる。
【0077】
次に、過去の韻律修正後における動的韻律情報の生成について説明する。静的韻律生成手段112により生成された静的韻律情報301として、音素記号列(/a/、/k/、/a/)に対応するピッチパターン(400Hz、−、300Hz)がフィルタリング手段122に与えられた場合、修正条件302が生成される。
【0078】
フィルタ制御手段132においては、修正条件302に基づいて修正履歴DB116を参照し、修正条件の合致する修正履歴データ306を得る。修正履歴データ306に修正内容(−100Hz:100Hz下げる)が存在するため、「最後の音素記号/a/のピッチを100Hz下げる」との修正内容303をフィルタリング手段122に送る。
【0079】
フィルタリング手段122においては、送られてきた修正内容303に基づき、最後の音素記号/a/に対するピッチパターンを100Hz下げる。つまり、ピッチパターンを(400Hz、−、300Hz)から(400Hz、−、200Hz)に修正する。修正されたピッチパターンは、動的韻律情報304として韻律修正部103に送られる。
【0080】
これにより、静的韻律生成手段112において生成された修正条件に合致する修正履歴データが既に修正履歴情報に含まれている場合には、過去に行った修正と同じ修正が自動的に施された動的韻律情報を生成できる。
【0081】
(実施の形態2)
本実施の形態2においては、第1の修正履歴参照方式を適用した動的韻律生成部を有し、かつ、韻律スタイルの互いに異なる複数の韻律DBを有する修正履歴保持部を有するテキスト音声合成装置について説明する。なお、必要に応じて図7及び図8を参照する。図7は、本実施の形態2に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図8は、本実施の形態2に係るテキスト音声合成装置の特徴部分を詳細に説明するための説明図である。
【0082】
図7に示されたテキスト音声合成装置は、テキスト保持部107と、言語解析部101と、静的韻律生成手段112、フィルタリング手段122及びフィルタ制御手段132を有する動的韻律生成部102と、韻律修正部103と、表示部117と、修正命令入力部127と、複数種類の修正履歴DB116を有する修正履歴保持部106と、修正履歴抽出手段115、修正履歴更新手段125及びDB選択制御手段135を有する修正履歴管理部105と、選択命令入力部127と、素片保持手段134、素片選択手段114及び音声合成手段124とを有する合成音声生成部104と、音声出力部137とを含む構成である。この構成であれば、修正履歴保持部106が複数の修正履歴DB116を有することにより、複数の韻律スタイルから所望の韻律スタイルを選択的に反映させる韻律修正を自動的に施すことができる。
【0083】
図7に示されたテキスト音声合成装置の動作について説明する。なお、図7に示されたテキスト音声合成装置における動作は、修正履歴管理部における修正履歴情報の更新及び参照の方法が異なる以外、上記実施の形態1のテキスト音声合成装置と基本的に同様であるので、共通部分についての説明は省略する。
【0084】
まず、修正履歴情報の更新においては、韻律修正部103からの新規な修正履歴データに応じて修正履歴更新手段125は、選択命令入力部147からの修正命令に応じて選択された少なくとも1つの修正履歴DBに対して、修正履歴情報の更新を行う。
【0085】
次に、修正履歴情報の参照においては、動的韻律生成部102(フィルタ制御手段132)からの要求に応じて修正履歴抽出手段115は、選択命令入力部147からの選択命令に応じて選択された少なくとも1つの修正履歴DBに対して検索を行い、修正条件に合致する修正履歴データを抽出する。
【0086】
ここで、図8に示された具体例に基づいて、修正履歴管理部105における修正履歴情報の更新及び参照の方法について詳細に説明する。自動的に修正される韻律情報としては継続時間長、パワーパターン、ピッチパターンなどが考えられるが、この具体例では、生成される韻律情報に含まれる韻律パラメータがピッチパターンである場合について説明する。なお、以下の説明において、各部材及び各手段については、図7に示された参照符号を付す。
【0087】
まず、過去において行われた韻律修正について説明する。韻律修正部103において韻律修正314が行われ、修正履歴データ315が生成された。生成された修正履歴データ315には、音素記号列(/a/、/k/、/a/)に対応するピッチパターン(400Hz、−、300Hz)をピッチパターン(400Hz、−、200Hz)に修正する修正内容が含まれている。この修正履歴データ315は、選択命令によって、修正履歴DB−A126に格納された。なお、修正条件の図示は省略した。
【0088】
更に、韻律修正部103において韻律修正316が行われ、修正履歴データ317が生成された。生成された修正履歴データ317には、音素記号列(/a/、/k/、/a/)に対応するピッチパターン(400Hz、−、300Hz)をピッチパターン(400Hz、−、350Hz)に修正する修正内容が含まれている。この修正履歴データ317は、選択命令によって、修正履歴DB−B136に格納された。なお、修正履歴データ317における修正条件の図示は省略したが、上記修正履歴データ315における修正条件と同一であるとする。
【0089】
次に、過去の韻律修正後における動的韻律情報の生成について説明する。静的韻律生成手段112により生成された静的韻律情報311として、音素記号列(/a/、/k/、/a/)に対応するピッチパターン311(400Hz、−、300Hz)がフィルタリング手段122に与えられた場合、修正条件を生成し、フィルタ制御手段132を介して修正履歴管理部105の修正履歴抽出手段115に生成された修正条件を送る。なお、生成された修正条件は、上記の修正履歴データ315における修正条件及び修正履歴データ317における修正条件と同一であるとする。
【0090】
DB選択制御手段135において、予め入力された選択命令によって修正履歴DB−B136の選択312がなされているので、修正履歴抽出手段125は、修正履歴DB−B136に保持されている修正履歴データのみを検索し、修正条件に合致する修正履歴データ317を抽出する。ここに、修正条件に合致する修正履歴データが修正履歴DB−A126にも存在しているが、修正履歴DB−A126の修正履歴データ315は抽出されないことに注意を要する。抽出された修正履歴データ317は、動的韻律生成部のフィルタ制御手段132に送られる。
【0091】
フィルタ制御手段132では、修正履歴データ317には、修正条件に対応付けられた修正処理(+50Hz:50Hz上げる)が含まれているため、「最後の音素記号/a/のピッチを50Hz上げる」との修正内容を決定する。決定された修正内容は、フィルタリング手段122に送られる。
【0092】
フィルタリング手段122においては、送られてきた修正内容に基づき、最後の音素記号/a/に対応するピッチパターンを50Hz上げる。つまり、ピッチパターン(静的韻律情報)311を(400Hz、−、300Hz)から(400Hz、−、350Hz)に修正する。修正されたピッチパターン(動的韻律情報)313は、韻律修正部103に送られる。
【0093】
韻律修正部103において、送られてきたピッチパターン313に更なる修正を行う場合には、改めて選択命令によって修正履歴DBの選択を変更しない限り、修正履歴DB−B136が選択されている。
【0094】
これにより、複数の韻律スタイルのうち所望の韻律スタイルが反映された動的韻律情報を生成することができる。また、複数の韻律スタイルのうち所望の韻律スタイルに対応する修正履歴情報のみを更新することができる。
【0095】
ここで、修正履歴DBを選択する方法について説明する。選択命令入力部147においては、アプリケーション上の韻律スタイル選択ボタン(修正履歴DB選択ボタン)の押下などによって、外部から入力される選択命令により、修正履歴DB116を切り替えることとなる。
【0096】
図7に示されたテキスト音声合成装置は、修正履歴DB116を選択するための選択命令を入力する選択命令入力部147を備える構成であるが、他の構成によって、DB選択制御手段135に選択命令を入力することもできる。図9は、図7における選択命令入力部147に代えて、選択命令生成部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。
【0097】
図9に示されたように、テキスト音声合成装置は、テキスト保持手段107に保持されたテキストデータから制御コードを解析して韻律スタイル情報を抽出し、抽出された韻律スタイル情報に基づいて選択命令を生成する選択命令生成部108を備えた構成である。
【0098】
選択命令生成部108は、テキストデータに韻律スタイル情報を1つだけ含み、テキストデータごとに韻律スタイルを決定する手段であっても、テキストデータに複数の韻律スタイル情報を含み、テキストデータの断片ごとに韻律スタイルを決定する手段であってもよい。例えば、解析された制御コードに、同一ファイル内の文章1及び文章2に対して、それぞれ、韻律スタイルA及び韻律スタイルBを適用することを記載した内容を含む場合、動的韻律生成部102において、文章1に対して韻律スタイルAでピッチパターンを生成させ、文章2に対して韻律スタイルBでピッチパターンを生成させることができる。
【0099】
(実施の形態3)
本実施の形態3においては、第2の修正履歴参照方式を適用した動的韻律生成部を有するテキスト音声合成装置について説明する。必要に応じて、図10及び11を参照する。図10は、本実施の形態3に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図11は、本実施の形態3に係るテキスト音声合成装置における特徴部分を詳細に説明するための説明図である。
【0100】
図10に示されたテキスト音声合成装置は、テキスト保持部107と、言語解析部101と、韻律生成パラメータ制御手段142及び韻律生成規則制御手段152を有する動的韻律生成部102と、韻律修正部103と、表示部117と、修正命令入力部127と、修正履歴DBを有する修正履歴保持部106と、修正履歴抽出手段115及び修正履歴更新手段125を有する修正履歴管理部105と、素片保持手段134、素片選択手段114及び音声合成手段124を有する合成音声生成部104と、音声出力部137を含む構成である。
【0101】
図10に示されたテキスト音声合成装置の動作について説明する。なお、動的韻律生成部の構成以外については、上記の実施の形態1と同様であるため、その説明を省略する。
【0102】
動的韻律生成部102の動的韻律生成手段142においては、言語解析部101から送られてきた言語情報に基づき、韻律情報の生成に必要な基本の韻律生成パラメータが決定され、かつ、修正条件が生成される。生成された修正条件は、動的韻律情報の生成に用いる韻律生成パラメータを確定するために、韻律生成規則制御手段152に送られる。
【0103】
韻律生成規則制御手段152において、送られてきた修正条件は、その修正条件に合致する韻律修正データが修正履歴保持部106の修正履歴DB(修正履歴情報)に含まれているか否かを確認するため、修正履歴管理部105の修正履歴抽出手段115に送られる。
【0104】
修正履歴抽出手段115において、送られてきた修正条件に基づいて修正履歴保持部106の修正履歴DBを検索し、その結果、その修正条件に合致する修正履歴データが存在すれば、その修正履歴データを抽出する。抽出された修正履歴データは韻律生成規則制御手段152に送られる。ここに、修正条件に合致する修正履歴データが複数存在していれば、それらすべての修正履歴データが韻律生成規則制御手段152に送られる。また、修正条件に合致する修正履歴データが存在していなければ、その旨を韻律生成規則制御手段152に通知する。
【0105】
韻律生成規則制御手段152において、送られてきた修正履歴データに基づき各韻律生成パラメータの修正を確定し、動的韻律生成手段142に通知する。また、修正履歴データが存在しない旨の通知があれば、修正を行わない旨、又は、各韻律パラメータの修正がゼロである旨の通知を動的韻律生成手段142に通知する。ここに、修正履歴抽出手段115から複数の修正履歴データが送られてきた場合は、それらすべての修正履歴データに含まれる修正内容を反映するように各韻律生成パラメータの修正を確定する。
【0106】
動的韻律生成手段142において、言語解析部101で生成された言語情報に基づき、韻律生成規則制御手段152で決定された韻律生成パラメータを用いた韻律生成規則にしたがって動的韻律情報を生成する。生成された動的韻律情報は、言語情報と共に、韻律修正部103に送られる。ここに、韻律生成規則制御手段152で決定された各韻律生成パラメータに基づき動的な韻律生成規則が決定されていることに注意を要する。また、動的韻律生成手段142における韻律生成規則の変更は、修正履歴情報に応じて自動的に行われること、及び、動的韻律情報は、修正履歴情報の反映された韻律情報であることに注意を要する。
【0107】
ここで、図11に示された具体例に基づいて、動的韻律修正手段142における韻律生成規則の制御の方法を詳細に説明する。なお、生成される動的韻律情報としては時間長、パワー、ピッチパターンなどが考えられるが、この具体例では、生成される動的韻律情報に含まれる韻律パラメータがピッチパターンである場合について説明する。なお、以下の説明において、各部材及び各手段については、図10に示された参照符号を付す。
【0108】
動的韻律生成手段142におけるピッチパターンを生成するモデルとしては、藤崎モデルを用いる。藤崎モデルとは、ピッチパターンを呼気段落の減衰を表現するフレーズ成分とアクセントごとのピッチ変動を表すアクセント成分との重畳で表現するものである。また、藤崎モデルでは、フレーズの減衰の傾きなど様々なパラメータを調整可能であるが、本具体例ではフレーズの大きさを表すフレーズ指令とアクセントの大きさを表すアクセント指令の2つのパラメータによりピッチパターンの生成を行う。
【0109】
まず、過去において行われた韻律修正について説明する。韻律修正部103において、グラフィカルに表示されたピッチパターンに対してマウスを用いた修正325が行われた。ここに、フレーズ指令「h」及びアクセント指令「a」を用いて生成された修正前のピッチパターンは点線で、修正後のピッチパターンは実線で記されている。
【0110】
この修正に伴い、修正後のピッチパターンを生成するために必要な韻律生成パラメータの算出326が行われる。この具体例においては、フレーズ指令に対しては「h」のままで変化はなく、アクセント指令に対しては「a」が「a’」に変化する。
【0111】
修正後のピッチパターンを生成するために必要な韻律生成パラメータを算出する方法としては、公知の方法を用いることができる。例えば、ピッチパターンを生成する韻律生成パラメータは、修正後のピッチパターンをターゲットとした最小自乗法などを用いて、推定したい韻律生成パラメータを未知数とした線形方程式を解くことによって得られる。
【0112】
修正後のピッチパターンを生成するために必要な韻律生成パラメータが算出されると、引き続き、修正履歴データ327が生成される。生成された修正履歴データ327は、修正履歴DB116に格納される。
【0113】
生成された修正履歴データ327は、修正条件に、文中位置が文末であり、音素記号列(修正音素、先行音素、後続音素)が(/a/、/k/、/−/)であり、モーラ数が3であり、かつ、アクセント型が0型であることを含んでおり、修正内容には、アクセント指令を「a」から「a’」に修正することを意味する処理内容を含んでいる。
【0114】
次に、過去の韻律修正後における動的韻律情報の生成について説明する。動的韻律生成手段142において、基本の韻律生成パラメータ321として、フレーズ指定「h」及びアクセント指令「a」が生成されると共に、修正条件322が生成される。生成された修正条件322は、韻律正規規則制御手段152に送られる。ここに、生成された修正条件には、文中位置が文末であり、音素記号列(対象音素記号、先行音素記号、後続音素記号)が(/a/、/k/、/−/)であり、モーラ数が3であり、かつ、アクセント型が0型であることが含まれている。
【0115】
韻律生成規則制御手段152においては、送られてきた修正条件に基づいて修正履歴DB116を検索し、検索した結果、修正条件の合致する修正履歴データ327を得る。修正履歴データ327には、送られてきた修正条件に対応付けられた修正内容323(aをa’に変更する:ピッチパターンを左上段図の点線から実線のパターに変更する)が存在するため、アクセント指令「a」が「a’」に修正されて修正韻律生成パラメータ324が確定する。修正韻律生成パラメータ324は動的韻律生成手段142に送られる。
【0116】
動的韻律生成手段142においては、送られてきた修正韻律生成パラメータ324に基づき、フレーズ指定「h」及びアクセント指令「a’」を修正韻律生成パラメータとして用いた韻律生成規則が決定され、決定された韻律生成規則にしたがって、言語情報に基づき動的韻律情報が生成される。生成された動的韻律情報は韻律修正部103に送られる。
【0117】
これにより、動的韻律生成手段142において生成された修正条件に合致する修正履歴データが既に修正履歴情報に含まれている場合には、過去に行った修正と同じ修正が自動的に施された動的韻律情報を生成できる。
【0118】
上記においては、ピッチパターンを生成するモデルとして、藤崎モデルを用いて説明を行ったが、その他のモデルを用いても同様に、過去に行った修正を自動的に反映させることができる。ピッチパターン以外の制御を行う場合には、例えば、韻律情報における継続時間長やパワーパターンなどを制御する場合は、制御する韻律パラメータごとに適したモデルを利用する必要がある。
【0119】
また、上記においては、修正履歴保持手段が単一の修正履歴DBを有する構成について説明したが、上記実施の形態2で説明したように複数の修正履歴DBを有する構成とすることもできる。図12及び図13は、第2の履歴参照方式の動的韻律生成部と、韻律スタイルの互いに異なる複数の韻律修正DBを有する修正履歴保持部とを含むテキスト音声合成装置の概念的な構成を示すブロック図である。なお、修正履歴管理部がDB選択制御手段を有し、修正履歴保持手段が複数の修正履歴DBを有すること以外、図10に示されたテキスト音声合成装置と概ね同一の構成である。
【0120】
また、図12及び図13に示されたテキスト音声合成装置は、それぞれ、図7及び図9に示されたテキスト音声合成装置における静的韻律生成手段112、フィルタリング手段122及びフィルタ制御手段132を有する動的韻律生成部を、動的韻律生成手段142及び韻律生成規則制御手段152を有する動的韻律生成部に変更した以外同じ構成である。
【0121】
図12及び図13に示されたテキスト音声合成装置における複数の修正履歴DBの参照方法及び更新方法は、上記実施の形態2と同等であるため、その説明は省略する。
【0122】
(実施の形態4)
本実施の形態4においては、第3の修正履歴参照方式を適用した動的韻律生成部を有するテキスト音声合成装置について説明する。必要に応じて、図14及び図15を参照する。図14は、本実施の形態4に係るテキスト音声合成装置の構成を概念的に示すブロック図である。図15は、本実施の形態4に係るテキスト音声合成装置における特徴部分を詳細に説明するための説明図である。
【0123】
図14に示されたテキスト音声合成装置は、テキスト保持部107と、言語解析部101と、韻律パターン選択手段162、韻律パターン修正手段172、パターン片修正制御手段182及び韻律パターン片保持手段192を有する動的韻律生成部102と、韻律修正部103と、表示部117と、修正命令入力部127と、修正履歴DBを有する修正履歴保持部106と、修正履歴抽出手段115及び修正履歴更新手段125を有する修正履歴管理部105と、素片保持手段134、素片選択手段114及び音声合成手段124とを有する合成音声生成部104と、音声出力部137とを含む構成である。
【0124】
図14に示されたテキスト音声合成装置の動作について説明する。なお、動的韻律生成部の構成以外については、上記の実施の形態1と同様であるため、その説明を省略する。
【0125】
韻律パターン片選択手段162においては、送られてきた言語情報に基づいて、韻律パターン片保持手段192から最適な1つの韻律パターン片が選択韻律パターン片として選択されると共に、修正条件が生成される。選択された選択韻律パターン片及び生成された修正条件は、韻律パターン片修正手段172に送られる。
【0126】
韻律パターン片修正手段172においては、送られてきた修正条件は、選択韻律パターン片に対する修正を決定するために、パターン片修正制御手段182に送られる。
【0127】
パターン片修正制御手段182においては、送られてきた修正条件は、その修正条件に合致する修正履歴データが修正履歴保持部106の韻律修正DBに含まれているか否かを確認するために、修正履歴管理部105の修正履歴抽出手段115に送られる。
【0128】
修正履歴抽出手段115においては、送られてきた修正条件に基づいて修正履歴保持部106の修正履歴DBを検索し、その結果、送られてきた修正条件に合致する修正履歴データが存在すれば、その修正履歴データを抽出する。抽出された韻律修正データは、パターン片修正制御手段182に送られる。ここに、修正条件に合致する修正履歴データが複数存在していれば、それらすべての修正履歴データがパターン片修正制御手段182に送られる。また、修正条件に合致する修正履歴データが存在していなければ、その旨をパターン片修正制御手段182に通知する。
【0129】
パターン片修正制御手段182においては、送られてきた修正履歴データに基づいて選択韻律パターン片に対する修正内容を決定する。決定された修正内容は韻律パターン片修正手段172に送られる。ここに、修正履歴抽出手段115から複数の修正履歴データが送られてきた場合は、それらすべての修正履歴データの修正内容を反映するように韻律パターン片の修正内容を決定する。また、修正履歴データが存在しない旨の通知があれば、修正を行わない旨、又は、各韻律パターン片の修正がなしである旨の通知を韻律パターン片修正手段172に通知する。
【0130】
韻律パターン片修正手段172においては、パターン片修正制御手段182で決定された修正内容に基づき、選択韻律パターン片を修正して、動的韻律情報を生成する。生成された動的韻律情報は、言語情報と共に、韻律修正部103に送られる。ここに、韻律パターン片修正手段172における修正は、修正履歴情報に応じて自動的に行われること、及び、動的韻律情報は、修正履歴情報の反映された韻律情報であることに注意を要する。
【0131】
ここで、図15に示された具体例に基づいて、韻律パターン片修正手段172における選択韻律パターンの修正方法について詳細に説明する。なお、修正される韻律情報としては継続時間長、パワー、ピッチパターンなどが考えられるが、この具体例では、生成される韻律情報に含まれる韻律パラメータがピッチパターンである場合について説明する。なお、以下の説明において、各部材及び各手段については、図14に示された参照符号を付す。
【0132】
まず、過去において行われた韻律修正について説明する。韻律修正部103において、グラフィカルに表示されたピッチパターンに対してマウスを用いた修正337が行われた。ここに、修正前のピッチパターン334a(選択韻律パターン片)は点線で、修正後のピッチパターン334b(修正韻律パターン片)は実線で記されている。
【0133】
この韻律修正に伴い、修正履歴データ338が生成され、生成された修正履歴データ338は、修正履歴DB116に格納される。
【0134】
生成された修正履歴データ338は、修正条件として、文中位置が文末であり、モーラ数が3であり、かつ、アクセント型が2型であることを含んでおり、修正内容として、修正前のピッチパターン334aを修正後のピッチパターン334bに修正することを含んでいる。ここに、この具体例においては、修正後のピッチパターンそのものを修正内容として保持している。
【0135】
次に、過去の韻律修正後における動的韻律情報の生成について説明する。韻律パターン片選択手段162において、言語情報に基づいて韻律パターン片DB334から最適な韻律パターン片が選択韻律パターン片として選択されると共に、修正条件331が生成される。選択された選択韻律パターン片及び生成された修正条件は、韻律パターン片修正手段172に送られる。生成された修正条件331には、文中位置が文末であり、モーラ数が3であり、かつ、アクセント型が2型であることが含まれている。
【0136】
韻律パターン片修正手段172においては、送られてきた修正条件をパターン片修正制御手段182に送る。
【0137】
パターン片修正制御手段182においては、修正条件に基づいて修正履歴DB116を検索し、その結果、修正条件の合致する修正履歴データ338を得る。修正条件を満たす修正内容(選択されたピッチパターン334aを保持されたピッチパターン334bに変更する:ピッチパターンを左上段図の点線から実線のパターンに変更する)が存在するため、その修正内容を韻律パターン修正手段172に送る。
【0138】
韻律パターン片修正手段172においては、送られてきた修正内容に基づき、韻律パターン334aを韻律パターン334bに修正し、動的韻律情報336を生成する。生成された動的韻律情報は韻律修正部103に送られる。
【0139】
これにより、韻律パターン片選択手段162において生成された修正条件に合致する修正履歴データが既に修正履歴情報に含まれている場合には、過去に行った修正と同じ修正が自動的に施された動的韻律情報を生成できる。
【0140】
上記においては、変更後のピッチパターンそのものを保持しているが、最終的に変更後のピッチパターンを再現しえる保持方法であれば、どのような方法を用いて変形後のピッチパターンを保持してもよい。例えば、韻律パターン片DB334から選択されたピッチパターンに対する時刻毎の差分値を保存することでも変更後のピッチパターンを再現することができる。
【0141】
また、上記においては、修正履歴保持手段106が単一の修正履歴DB116を有する構成について説明したが、上記実施の形態2で説明したように複数の修正履歴DBを有する構成とすることもできる。図16及び図17は、第3の修正履歴参照方式の動的韻律生成部と、韻律スタイルの互いに異なる複数の韻律修正DBを有する修正履歴保持部とを含むテキスト音声合成装置の概念的な構成を示すブロック図である。なお、修正履歴管理部がDB選択制御手段を有し、修正履歴保持手段が複数の修正履歴DBを有すること以外、図14に示されたテキスト音声合成装置と概ね同一の構成である。
【0142】
また、図16及び図17に示されたテキスト音声合成装置は、それぞれ、図7及び図9に示されたテキスト音声合成装置における静的韻律生成手段112、フィルタリング手段122及びフィルタ制御手段132を有する動的韻律生成部を、韻律パターン片選択手段162、韻律パターン修正手段172、パターン片修正制御手段182及び韻律パターン片保持手段192を有する動的韻律生成部に変更した以外同じ構成である。
【0143】
図16及び図17に示されたテキスト音声合成装置における複数の修正履歴DBの参照方法及び更新方法は、上記実施の形態2と同等であるため、その説明は省略する。
【0144】
【発明の効果】
以上で説明したように、本発明のテキスト音声合成装置では、修正履歴情報を保持する修正履歴保持部と、修正履歴情報を管理する修正履歴管理部と、修正履歴管理部を介して修正履歴情報を参照して、言語情報に基づき動的韻律情報を生成する動的韻律生成部とを含む構成としたことにより、修正履歴情報に登録された過去の修正と同一の修正を改めて行う必要がなく、かつ、過去の修正に応じて修正履歴情報の学習が逐次進むため、エンドユーザの嗜好に合った韻律情報を簡便に生成する装置となる。
【0145】
動的韻律生成部において、静的な韻律生成規則にしたがって静的韻律情報を生成し、かつ、生成された静的韻律情報を修正履歴情報に応じて修正することによって、動的韻律情報を生成する第1の修正履歴参照方式を採用する。
【0146】
また、動的韻律生成部において、修正履歴情報に応じて韻律生成規則の韻律生成パラメータの設定を修正し、韻律生成パラメータの設定により変化する動的な韻律生成規則にしたがって動的韻律情報を生成する第2の修正履歴参照方式を採用する。
【0147】
また、動的韻律生成部において、静的な韻律選択規則にしたがって、言語情報に基づき複数の韻律パターン片から1つの最適な韻律パターン片を選択韻律パターン片として選択し、かつ、選択韻律パターン片を修正履歴情報に応じて修正することにより動的韻律情報を生成する第3の修正履歴参照方式を採用する。
【0148】
上記の第1〜第3の修正履歴参照方式のいずれか採用した動的韻律生成部を備えたテキスト音声合成装置であれば、エンドユーザの嗜好に合った韻律情報の簡便な生成を確実に実現できる。
【0149】
更に、修正履歴保持部を韻律スタイルの互いに異なる複数の修正履歴DBで構成し、修正履歴管理部において、選択的な修正履歴DBの参照及び選択的な修正履歴DBの更新を行うことにより、複数の韻律スタイルから所望の韻律スタイルを選択的に反映した韻律修正を自動的に施すことができ、かつ、修正履歴情報全体を柔軟かつ効果的に更新(学習)させることができる。
【0150】
また、本発明のテキスト音声合成方法では、修正履歴情報を参照する修正履歴参照ステップと、修正履歴参照ステップと連携して、言語情報に基づき動的韻律情報を生成する動的韻律生成ステップと、修正に応じて修正履歴情報を更新する修正履歴更新ステップとを含む構成としたことにより、修正履歴情報に登録された過去の修正と同一の修正を改めて行う必要がなくなり、かつ、過去の修正に応じて修正履歴情報の学習が逐次進むため、エンドユーザの嗜好に合った韻律情報を簡便に生成することができる。
【0151】
また、本発明のテキスト音声合成プログラムは、修正履歴情報を参照する修正履歴参照プログラムコードと、修正履歴参照プログラムコードと連携して、言語情報に基づき動的韻律情報を生成する動的韻律生成プログラムコードと、修正に応じて修正履歴情報を更新する修正履歴更新プログラムコードとを含む構成としたことにより、修正履歴情報に登録された過去の修正と同一の修正を改めて行う必要がなくなるため、かつ、過去の韻律修正に応じて修正履歴情報の学習が逐次進むため、エンドユーザの嗜好に合った韻律情報を簡便に生成するテキスト音声合成方法を実現することができる。
【図面の簡単な説明】
【図1】図1は、本発明に係るテキスト音声合成装置の構成を概念的に示すブロック図である。
【図2】図2は、本発明に係るテキスト音声合成方法の構成を概念的に示すブロック図である。
【図3】図3は、修正履歴保持部に複数の修正履歴DBを有するテキスト音声合成装置の構成を概念的に示すブロック図である。
【図4】図4は、修正履歴保持部に複数の修正履歴DBを有するテキスト音声合成装置における修正履歴管理部の構成を概念的に示すブロック図であって、
図4(a)が、共通DB選択制御手段を有する修正履歴管理部の構成を示すブロック図であり、
図4(b)が、参照用DB選択制御手段と更新用DB選択制御手段とを有する修正履歴管理部の構成を示すブロック図であり、
図4(c)が、共通DB選択制御手段と選択DB変更手段とを有する修正履歴管理部の構成を示すブロック図である。
【図5】図5は、第1の修正履歴参照方式の動的韻律生成部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。
【図6】図6は、第1の修正履歴参照方式を説明するための説明図である。
【図7】図7は、複数の修正履歴DBを備えた修正履歴保持部と第1の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第1構成例を概念的に示すブロック図である。
【図8】図8は、修正履歴管理部における修正履歴情報の選択的な更新方法及び修正履歴情報の選択的な抽出方法を説明するための説明図である。
【図9】図9は、複数の修正履歴DBを備えた修正履歴保持部と第1の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第2構成例を概念的に示すブロック図である。
【図10】図10は、第2の修正履歴参照方式の動的韻律生成部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。
【図11】図11は、第2の修正履歴参照方式を説明するための説明図である。
【図12】図12は、複数の修正履歴DBを備えた修正履歴保持部と第2の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第1の構成例を概念的に示すブロック図である。
【図13】図13は、複数の修正履歴DBを備えた修正履歴保持部と第2の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第2の構成例を概念的に示すブロック図である。
【図14】図14は、第3の修正履歴参照方式の動的韻律生成部を備えたテキスト音声合成装置の構成を概念的に示すブロック図である。
【図15】図15は、第3の修正履歴参照方式を説明するための説明図である。
【図16】図16は、複数の修正履歴DBを備えた修正履歴保持部と第3の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第1の構成例を概念的に示すブロック図である。
【図17】図17は、複数の修正履歴DBを備えた修正履歴保持部と第3の修正履歴参照方式の動的韻律生成部とを含むテキスト音声合成装置の第2の構成例を概念的に示すブロック図である。
【図18】図18は、従来のテキスト音声合成装置の構成を概念的に示すブロック図である。
【符号の説明】
101 言語解析部
102 動的韻律生成部
112 静的韻律生成手段
122 フィルタリング手段
132 フィルタ制御手段
142 動的韻律生成手段
152 韻律生成規則制御手段
162 韻律パターン片選択手段
172 韻律パターン片修正手段
182 韻律パターン片修正制御手段
192 韻律パターン片保持手段
103 韻律修正部
104 合成音声生成部
114 素片選択手段
124 音声合成手段
134 素片保持手段
105 修正履歴管理部
115 修正履歴抽出手段
125 修正履歴更新手段
135 DB選択制御手段
145 共通DB選択制御手段
155 参照用DB選択制御手段
165 更新用DB選択制御手段
175 選択DB変更手段
106 修正履歴保持部
116 修正履歴DB
107 テキスト保持部
117 表示部
127 修正命令入力部
137 音声出力部
147 選択命令入力部
108 選択命令生成部
201 言語解析ステップ(言語解析プログラムコード)
202 動的韻律生成ステップ(動的韻律生成プログラムコード)
203 韻律修正ステップ(韻律修正プログラムコード)
204 合成音声生成ステップ(合成音声生成プログラムコード)
215 修正履歴抽出ステップ(修正履歴抽出プログラムコード)
225 修正履歴更新ステップ(修正履歴更新プログラムコード)

Claims (15)

  1. テキストデータに対して言語解析を行い、言語情報を抽出する言語解析部と、
    修正履歴情報を保持する修正履歴保持部と、
    前記修正履歴情報を管理する修正履歴管理部と、
    前記修正履歴管理部を介して前記修正履歴情報を参照して、前記言語情報に基づき動的韻律情報を生成する動的韻律生成部と、
    外部修正命令に応じて前記動的韻律情報に修正を行うことにより確定韻律情報を生成し、かつ、前記外部修正命令に応じた修正に基づいて、前記修正履歴管理部を介して前記修正履歴情報を更新する韻律修正部と、
    前記言語情報及び前記確定韻律情報に基づいて合成音声を生成する合成音声生成部と、
    を含むテキスト音声合成装置。
  2. 請求項1に記載のテキスト音声合成装置において、
    前記動的韻律生成部が、静的な韻律生成規則にしたがって静的韻律情報を生成する静的韻律生成手段と、前記静的韻律生成手段で生成された前記静的韻律情報に修正を行うことにより前記動的韻律情報を生成するフィルタリング手段と、前記修正履歴情報に応じて前記フィルタリング手段での修正を制御するフィルタ制御手段と、を有することを特徴とするテキスト音声合成装置。
  3. 請求項1に記載のテキスト音声合成装置において、
    前記動的韻律生成部が、韻律生成パラメータの設定により変化する動的な韻律生成規則にしたがって前記動的韻律情報を生成する動的韻律生成手段と、前記修正履歴情報に応じて前記韻律生成パラメータを制御する韻律生成規則制御手段と、を有することを特徴とするテキスト音声合成装置。
  4. 請求項1に記載のテキスト音声合成装置において、
    前記動的韻律生成部が、複数の韻律パターン片を保持する韻律パターン片保持手段と、静的な韻律選択規則にしたがって前記複数の韻律パターン片のいずれか1つを選択韻律パターン片として選択する韻律パターン片選択手段と、前記選択韻律パターン片に修正を行うことにより前記動的韻律情報を生成する韻律パターン片修正手段と、前記修正履歴情報に応じて前記選択韻律パターン片に対する修正を制御するパターン片修正制御手段と、を有することを特徴とするテキスト音声合成装置。
  5. 請求項1に記載のテキスト音声合成装置において、
    前記修正履歴管理部が、前記動的韻律生成部で参照される修正履歴情報を抽出する修正履歴抽出手段と、前記修正履歴保持部に保持された修正履歴情報を更新する修正履歴更新手段と、を有することを特徴とするテキスト音声合成装置。
  6. 請求項5に記載のテキスト音声合成装置において、
    前記修正履歴保持部が、韻律スタイルの互いに異なる複数の修正履歴データベースを有し、
    前記修正履歴管理部が、選択命令に応じて、前記複数の修正履歴データベースの選択を制御するデータベース選択制御手段を更に有する
    ことを特徴とするテキスト音声合成装置。
  7. 請求項6に記載のテキスト音声合成装置において、
    前記選択命令を入力する選択命令入力部を更に含むことを特徴とするテキスト音声合成装置。
  8. 請求項6に記載のテキスト音声合成装置において、
    前記テキストデータに含まれるスタイル選択情報を検出し、前記スタイル選択情報に基づき前記選択命令を生成する選択命令生成部を更に含むことを特徴とするテキスト音声合成装置。
  9. 請求項6に記載のテキスト音声合成装置において、
    前記修正履歴管理部が、前記選択命令に応じて、前記複数の修正履歴データベースの少なくとも1つを共通修正履歴データベースとして選択する共通データベース選択制御手段を有し、
    前記動的韻律生成部は、前記共通修正履歴データベースに含まれる修正履歴情報を選択的に参照し、
    前記韻律修正部は、前記共通修正履歴データベースに含まれる修正履歴情報を選択的に更新する
    ことを特徴とするテキスト音声合成装置。
  10. 請求項6に記載のテキスト音声合成装置において、
    前記選択命令が、参照選択命令と更新選択命令とを含み、
    前記修正履歴管理部は、前記参照選択命令に応じて、前記複数の修正履歴データベースの少なくとも1つを参照用修正履歴データベースとして選択する参照用データベース選択制御手段と、前記更新選択命令に応じて、前記複数の修正履歴データベースの少なくとも1つを更新用修正履歴データベースとして選択する更新用データベース選択制御手段とを有し、
    前記動的韻律生成部は、前記参照用修正履歴データベースに含まれる修正履歴情報を選択的に参照し、
    前記韻律修正部は、前記更新用修正履歴データベースに含まれる修正履歴情報を選択的に更新する
    ことを特徴とするテキスト音声合成装置。
  11. テキストデータに対して言語解析を行い、言語情報を抽出する言語解析ステップと、
    修正履歴情報を参照する修正履歴参照ステップと、
    前記修正履歴参照ステップと連携して、前記言語情報に基づき動的韻律情報を生成する動的韻律生成ステップと、
    外部修正命令に応じて前記動的韻律情報に修正を行い、確定韻律情報を生成する韻律修正ステップと、
    前記動的韻律情報に対する修正に応じて前記修正履歴情報を更新する修正履歴更新ステップと、
    前記言語情報と前記確定韻律情報とに基づいて、合成音声を生成する合成音声生成ステップと、
    を含むテキスト音声合成方法。
  12. 請求項11に記載のテキスト音声合成方法において、
    前記動的韻律生成ステップが、静的な韻律生成規則にしたがって静的韻律情報を生成し、かつ、前記静的韻律情報を前記修正履歴情報に応じて修正して、前記動的韻律情報を生成することを特徴とするテキスト音声合成方法。
  13. 請求項11に記載のテキスト音声合成方法において、
    前記動的韻律生成ステップが、韻律生成規則を決定する韻律生成パラメータを前記修正履歴情報に応じて修正して修正韻律生成パラメータを生成し、前記修正韻律生成パラメータを用いた韻律生成規則にしたがって前記動的韻律情報を生成することを特徴とするテキスト音声合成方法。
  14. 請求項11に記載のテキスト音声合成方法において、
    前記動的韻律生成ステップが、静的な韻律選択規則に基づいて複数の韻律パターン片のいずれか1つを選択韻律パターン片として選択し、かつ、前記選択韻律パターン片を前記修正履歴情報に応じて修正して、前記動的韻律情報を生成することを特徴とするテキスト音声合成方法。
  15. テキストデータに対して言語解析を行い、言語情報を抽出する言語解析プログラムコードと、
    修正履歴情報を参照する修正履歴参照プログラムコードと、
    前記修正履歴参照プログラムコードと連携して、前記言語情報に基づき動的韻律情報を生成する動的韻律生成プログラムコードと、
    外部修正命令に応じて前記動的韻律情報に修正を行い、確定韻律情報を生成する韻律修正プログラムコードと、
    前記動的韻律修正情報に対する修正に応じて前記修正履歴情報を更新する修正履歴更新プログラムコードと、
    前記言語情報と前記確定韻律情報とに基づいて、合成音声を生成する合成音声生成プログラムコードと、
    を含むテキスト音声合成プログラム。
JP2003102148A 2003-04-04 2003-04-04 テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム Expired - Fee Related JP4326251B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003102148A JP4326251B2 (ja) 2003-04-04 2003-04-04 テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003102148A JP4326251B2 (ja) 2003-04-04 2003-04-04 テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2004309724A true JP2004309724A (ja) 2004-11-04
JP4326251B2 JP4326251B2 (ja) 2009-09-02

Family

ID=33465721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003102148A Expired - Fee Related JP4326251B2 (ja) 2003-04-04 2003-04-04 テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP4326251B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170191A (ja) * 2010-02-19 2011-09-01 Fujitsu Ltd 音声合成装置、音声合成方法、及び音声合成プログラム
JP2011186143A (ja) * 2010-03-08 2011-09-22 Hitachi Ltd ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2013213874A (ja) * 2012-03-30 2013-10-17 Fujitsu Ltd 音声合成プログラム、音声合成方法および音声合成装置
JP2015055793A (ja) * 2013-09-12 2015-03-23 富士通株式会社 音声合成装置、音声合成方法、およびプログラム
WO2015052817A1 (ja) * 2013-10-10 2015-04-16 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
JPWO2016151761A1 (ja) * 2015-03-24 2017-06-15 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
CN115620699A (zh) * 2022-12-19 2023-01-17 深圳元象信息科技有限公司 语音合成方法、语音合成系统、语音合成设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170191A (ja) * 2010-02-19 2011-09-01 Fujitsu Ltd 音声合成装置、音声合成方法、及び音声合成プログラム
JP2011186143A (ja) * 2010-03-08 2011-09-22 Hitachi Ltd ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2013213874A (ja) * 2012-03-30 2013-10-17 Fujitsu Ltd 音声合成プログラム、音声合成方法および音声合成装置
JP2015055793A (ja) * 2013-09-12 2015-03-23 富士通株式会社 音声合成装置、音声合成方法、およびプログラム
WO2015052817A1 (ja) * 2013-10-10 2015-04-16 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
JPWO2015052817A1 (ja) * 2013-10-10 2017-03-09 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
US9928828B2 (en) 2013-10-10 2018-03-27 Kabushiki Kaisha Toshiba Transliteration work support device, transliteration work support method, and computer program product
JPWO2016151761A1 (ja) * 2015-03-24 2017-06-15 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
CN115620699A (zh) * 2022-12-19 2023-01-17 深圳元象信息科技有限公司 语音合成方法、语音合成系统、语音合成设备及存储介质

Also Published As

Publication number Publication date
JP4326251B2 (ja) 2009-09-02

Similar Documents

Publication Publication Date Title
Hirst The analysis by synthesis of speech melody: from data to models
JP3070127B2 (ja) 音声合成装置のアクセント成分制御方式
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP2003084800A (ja) 音声による感情合成方法及び装置
JP2008268477A (ja) 韻律調整可能な音声合成装置
Hirst ProZed: A speech prosody analysis-by-synthesis tool for linguists
JP2011028130A (ja) 音声合成装置
JP4326251B2 (ja) テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム
JP4856560B2 (ja) 音声合成装置
JP2005345699A (ja) 音声編集装置、音声編集方法および音声編集プログラム
US7457752B2 (en) Method and apparatus for controlling the operation of an emotion synthesizing device
Hirst A multi-level, multilingual approach to the annotation and representation of speech prosody
JP6091938B2 (ja) 音声合成辞書編集装置、音声合成辞書編集方法及び音声合成辞書編集プログラム
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP3230868B2 (ja) 音声合成装置
JP2006349787A (ja) 音声合成方法および装置
JP3785892B2 (ja) 音声合成装置及び記録媒体
JPH07140996A (ja) 音声規則合成装置
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
JPH08272388A (ja) 音声合成装置及びその方法
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法
JPWO2009044596A1 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3308402B2 (ja) 音声出力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090512

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090609

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees