JP2003302992A - 音声合成方法及び装置 - Google Patents

音声合成方法及び装置

Info

Publication number
JP2003302992A
JP2003302992A JP2002109439A JP2002109439A JP2003302992A JP 2003302992 A JP2003302992 A JP 2003302992A JP 2002109439 A JP2002109439 A JP 2002109439A JP 2002109439 A JP2002109439 A JP 2002109439A JP 2003302992 A JP2003302992 A JP 2003302992A
Authority
JP
Japan
Prior art keywords
attribute information
speech
text
local
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002109439A
Other languages
English (en)
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002109439A priority Critical patent/JP2003302992A/ja
Publication of JP2003302992A publication Critical patent/JP2003302992A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】入力テキストの言語解析結果と大局的な属性情
報から、テキスト内における局所的な属性情報を決定
し、この促成情報を用いて合成音声を生成することによ
り、より自然な合成音声を生成する。 【解決手段】言語処理部201は、テキストを言語解析
し、形態素、品詞、読み、アクセントなどの言語解析結
果を求める。このテキストには、合成音声の感情及び/
又は発話スタイルを示す大局的な属性情報が含まれてお
り、大局的な属性情報が設定される。局所的感情・発話
スタイル決定部202は、言語解析結果と設定された大
局的な属性情報とに基づいて、テキスト内の各アクセン
ト句の感情及び/又は発話スタイルを示す局所的な属性
情報を決定する。音声合成部203は、言語解析結果と
局所的な属性情報に基づいて合成音声信号を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、感情や発話スタイ
ルを制御可能な音声合成方法およびその装置、並びに該
音声合成方法をコンピュータによって実施するためのプ
ログラムを記憶したコンピュータ可読媒体に関する。
【0002】
【従来の技術】近年、任意の文字系列を音韻系列に変換
し、その音韻系列を所定の音声規則合成方式に従って合
成音声に変換する音声合成装置が開発されている。一般
に音声合成装置では、怒り、悲しみなどの感情のない合
成音声が生成される。
【0003】
【発明が解決しようとする課題】しかしながら、音声合
成装置の適用範囲を拡大していく上で、怒り、悲しみ、
楽しいなどの感情や、アニメ調、DJ調、アナウンサ調
などの発話スタイルなど、様々な合成音声を高音質に生
成できることが望ましい。これまでにも感情や発話スタ
イルなどを適応させた合成音声を生成する技術はいくつ
か開発されてきている。しかしながら、この種の技術に
おいては、例えば、特開平5-100692や特開平7-92986な
どに記載されているように、一般に、ある感情や発話ス
タイルに対応して感情のない合成音声の基本周波数や継
続時間長を一様に変化させたり、スペクトルや波形を所
望の感情や発話スタイルのものに一様に変更させること
が多い。
【0004】その結果、得られる合成音声は一本調子で
不自然なものであった。これに対して、実際に人が発声
する音声は、例えば、怒りであっても、怒りが強く現れ
る部分や全く現れない部分など、単語の出現位置、持つ
意味、品詞などのコンテキストによって変化している。
すなわち、より自然な感情や発話スタイルを表現するた
めには、これらのコンテキストを考慮して音声合成を行
う必要がある。
【0005】本発明は上記の課題に鑑みてなされたもの
であり、感情及び/又は発話スタイル等をきめ細かく制
御可能とし、より自然な合成音声を生成可能とすること
を目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声合成方法は以下のような工程を備える。
即ち、テキストに基づいて音声信号を生成する音声合成
方法であって、テキストに関して、合成音声の感情及び
/又は発話スタイルを示す大局的な属性情報を設定する
設定工程と、前記テキストを言語解析し、言語解析結果
を求める解析工程と、前記言語解析結果と前記設定され
た大局的な属性情報とに基づいて、前記テキスト内の各
部の感情及び/又は発話スタイルを示す局所的な属性情
報を決定する決定工程と、言語解析結果と前記局所的な
属性情報に基づいて合成音声信号を生成する生成工程と
を備える。
【0007】また、上記目的を達成するために本発明の
音声合成装置は以下のような構成を備える。即ち、テキ
ストに基づいて音声信号を生成する音声合成装置であっ
て、テキストに関して、合成音声の感情及び/又は発話
スタイルを示す大局的な属性情報を設定する設定手段
と、前記テキストを言語解析し、形態素、品詞、読み、
アクセントなどの言語解析結果を求める解析手段と、前
記言語解析結果と前記設定された大局的な属性情報とに
基づいて、前記テキスト内の各部の感情及び/又は発話
スタイルを示す局所的な属性情報を決定する決定手段
と、言語解析結果と前記局所的な属性情報に基づいて合
成音声信号を生成する生成手段とを備える。
【0008】
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
【0009】<第1実施形態>図1は、本発明の第1実
施形態に係る音声合成装置の構成を示すブロック図であ
る。
【0010】図1において、101はCPUであり、R
OM102に記憶された制御プログラム或いは外部記憶
装置104からRAM103にロードされた制御プログ
ラムに従って、例えば、本実施形態による音声合成用波
形辞書の作成処理における各種制御を行う。102はR
OMであり、各種パラメータやCPU101が実行する
制御プログラムなどを格納している。103はRAMで
あり、CPU101による各種制御の実行時に作業領域
を提供するとともに、CPU101により実行される制
御プログラムを記憶する。
【0011】104はハードディスク、フレキシブルデ
ィスク、CD−ROM、DVD−ROM、メモリカード
等の外部記憶装置である。この外部記憶装置104がハ
ードディスクの場合には、CD−ROMやフレキシブル
ディスク等からインストールされた各種プログラムが記
憶される。
【0012】105はキーボード、マウス、ペン、スイ
ッチ、タッチパネルなどの補助入力装置であり、読み上
げ対象のテキストの入力などを行う。106は液晶やC
RT等のディスプレイで、CPU101の制御により各
種データの表示を行う。107はスピーカ等の補助出力
装置であり、音声合成によりテキストから変換された音
声信号(電気信号)を可聴音である音声に変換して出力す
る。108は上記各部を接続するバスである。
【0013】図2は、第1実施形態による音声合成方法
の処理を説明する流れ図である。なお、図2に示される
各部(言語処理部201、局所的感情・発話スタイル決
定部、音声合成部203)の機能は、CPU101が所
定の制御プログラムを実行することにより実現される。
また、言語解析辞書204、感情・発話スタイルモデル
205、音声合成辞書206は外部記憶装置104によ
って提供されるものとする。
【0014】まず、大局的な感情・発話スタイルが指定
されたテキストが言語処理部201に入力される。入力
されたテキストは、例えば、(感情・発話スタイル):
(テキスト)の形式であるとすると、「怒:一体何時だ
と思っているんだ。」、「DJ:この番組はABC株式会
社の提供でお送り致します。」などとなる。以下では、
「怒:一体何時だと思っているんだ。」が入力された場
合についての処理を説明する。
【0015】言語処理部201では、まず、入力から音
声合成対象のテキスト部分である「一体何時だと思って
いるんだ。」を取り出す。次に、言語解析辞書を204
用いて、取り出したテキスト部分について言語解析を行
う。言語解析結果の例を図3に示す。この例では、アク
セント句単位ごとに、読み、アクセント型、各アクセン
ト句を構成する形態素列に対する品詞が言語解析結果と
して得られている。ここで、言語処理部201は、一般
に用いられている音声合成用のテキスト解析方法を利用
することによって実現できる。
【0016】局所的感情・発話スタイル決定部202で
は、図3に示される言語解析結果と大局的な感情・発話
スタイルを入力とし、局所的感情・発話スタイルモデル
205を用いて、局所的な感情・発話スタイルを決定
し、出力する。本実施形態では、入力されるテキストに
大局的な感情(本例では「怒」)が明示的に記載されて
おり、これを大局的な属性情報に用いる。但し、ユーザ
が不図示の入力装置を用いて、マニュアルで大局的な属
性情報を設定するなど、他の方法で大局的な属性情報を
設定するようにしてもよい。
【0017】局所的感情・発話スタイル決定部202の
出力の例としては、「通常:イッタイ/怒:ナ↓ンジダ
ト/通常:オモ↓ッテイルンダ」である。これは、「一
体何時だと思っているんだ」というテキストを怒りの感
情で音声合成するという言語処理部201への入力に対
して、テキスト全体を一本調子に怒りの感情で音声合成
するのではなく、「何時だと」という部分に対して怒り
の感情を与え、「一体」および「思っているんだ」に対
しては、感情を持たない通常の音声合成を行うことを表
している。すなわち、局所的に感情・発話スタイルが付
与される。なお、この出力例における矢印↓はアクセン
トが高から低に変化する場所を示す記号である。
【0018】次に音声合成部203では、局所的感情・
発話スタイル決定部202の出力である、局所的感情・
発話スタイル情報、読み、アクセントの情報から、音声
合成辞書206を用いて合成音声を生成する。
【0019】音声合成辞書206は、基本周波数生成モ
デル、継続時間長推定モデル、パワー推定モデルなどの
韻律モデルと、音声波形やパラメータ素片などの音声モ
デルを含み、感情や発話スタイル別に用意されている。
音声合成部203は、局所的感情・発話スタイル決定部
202から得られた局所的感情・発話スタイルに従って
波形生成に用いる音声合成辞書を切り替えることによ
り、合成音声の生成を行うことができる。
【0020】次に、局所的感情・発話スタイル決定部2
02および感情・発話スタイルモデル205の実現方法
について説明する。
【0021】まず、感情・発話スタイルモデル205の
作成方法について説明する。モデルの作成を行うため
に、事前に学習データを準備する必要がある。様々な感
情・発話スタイルを持つ音声データを用意し、これに対
して大局的な感情・発話スタイルおよび局所的な感情・
発話スタイルの属性情報を自動もしくは人手によって付
与する。
【0022】ここで、大局的な感情・発話スタイルの属
性情報は、一般的には文を単位として付与するが、他に
も句、段落、文章全体などの単位に対して付与してもよ
い。また、局所的な感情・発話スタイルの属性情報は、
音素、音節、モーラ、形態素、単語、文節、アクセント
句、ポーズ句、文などを単位として付与する。但し、局
所的な属性情報は、大局的な属性情報よりも長さが短い
言語単位に対して付与する。
【0023】感情・発話スタイルモデル205は、大局
的な感情・発話スタイルの属性情報および言語解析結果
の情報から局所的な感情・発話スタイルの属性情報を推
定する予測モデルである。学習データの例を図4に示
す。この例では、局所的な感情・発話スタイルの単位は
アクセント句とし、予測モデルに用いる言語解析結果情
報として、先行、当該、後続のアクセント句の品詞情報
を用いている。
【0024】なお、1つのアクセント句に複数の品詞が
割り当てられる場合には、例えば最初の品詞情報を用い
るなどにより代表となる品詞を1つ選ぶ。また、感情・
発話スタイルの属性としては、怒り、楽しい、悲しいな
どの感情に関するもの、DJ調、アナウンサ調、アニメ
調、朗読調など発話スタイルに関するものとする。大局
的な属性情報と局所的な属性情報とで同じ属性を用いて
もよいし、局所的な属性情報に対しては、熱い怒り、冷
たい怒りなどより詳細に定義された属性を用いてもよ
い。
【0025】以上のような学習データを用いて予測モデ
ルを作成する。予測モデルには、ニューラルネットワー
ク、N-gramモデル、決定木などによって作成することが
できる。例えば、大局的感情・発話スタイルごとの予測
モデルを多層パーセプトロン(MLP)型のニューラル
ネットワークによって作成する場合には、例えば図5の
ような構成とすることができる。ここで、入力層には先
行、当該、後続のアクセント句に対する品詞情報が入力
される。例えば、図4の最初の例では、入力層における
先行品詞が文頭、当該品詞が副詞、後続品詞が名詞の各
ノードを1にし、それ以外のノードには0とする。ま
た、出力層は通常のノードを1にし、それ以外のノード
は0とする。
【0026】大局的感情・発話スタイルが怒である学習
データに対して、同様の入力を行い、バックプロパゲー
ションアルゴリズムなど一般的な学習アルゴリズムによ
ってニューラルネットワークの学習を行う。同様に、他
の感情や発話スタイルについてもそれぞれ図5と同じ構
成のニューラルネットワークを用いて学習を行うことに
よって、大局的感情・発話スタイル別に3アクセント句
の品詞情報から局所的感情・発話スタイルを推定する予
測モデルを作成することができる。局所的感情・発話ス
タイル決定部202は、大局的感情・発話スタイルに応
じた予測モデルを選択し、この予測モデルに対して、言
語解析結果の先行、当該、後続アクセント句の品詞情報
を入力した場合に、出力層において最大値となるノード
を局所的感情・発話スタイルとする。
【0027】以上説明したように、第1実施形態によれ
ば、入力テキストの言語解析結果と感情や発話スタイル
に関する大局的な属性情報とに基づいて、入力テキスト
内における感情や発話スタイルの局所的な属性情報を決
定し、この情報を用いて合成音声を生成する。このた
め、実際に人が発声する感情や発話スタイルに近い、自
然な合成音声を生成することが可能となる。
【0028】<第2実施形態>第1実施形態では、予測
モデルの入力として、先行、当該、後続の3アクセント
句に対する品詞情報を用いていたが、これらの情報に加
えて、先行のアクセント句に対して予測された局所的感
情・発話スタイルを用いるようにしてもよい。この場合
の学習データの例を図6に、ニューラルネットワークの
構成を図7にそれぞれ示す。
【0029】先行、当該、後続の3つのアクセント句に
対する品詞情報と先行の感情・発話スタイルに対する属
性を第1実施形態と同様に入力層の各ノードに入力し、
当該アクセント句の感情・発話スタイルに対する属性を
出力層の各ノードに入力することによって、ニューラル
ネットワークの学習を行う。局所的感情・発話スタイル
決定部202では、このようにして作成されたモデルを
感情・発話スタイルモデル205に対して、言語解析結
果から得られる3つのアクセント句の品詞情報と、先行
アクセント句に対して予測された局所的感情・発話スタ
イルを入力し、出力層において最大値を有するノードを
求めることによって当該アクセント句の局所的感情・発
話スタイルを得る。
【0030】なお、入力層の先行アクセント句に対する
局所的感情・発話スタイルは、1もしくは0の離散的な
値でもよいし、出力層から得られる値をそのまま入力し
てもよい。例えば、第1の実施形態では、先行、当該、
後続という3アクセント句に対する品詞情報、すなわち
離散値(該当品詞のノードに1、それ以外には0)を入
力する。これに対する出力(出力層の各ノードにおける
出力値)は、連続値(小数値)となる。また、第2の実
施形態における先行アクセント句に対する入力は、この
連続値(すなわち、先行アクセント句に関する入力を行
った際に出力層から得られる値)をそのまま用いること
ができる。ここで、先行アクセント句に関する入力を行
った際に出力層から得られる値を、最大値のノードのも
のを1、それ以外を0などの操作を行うことによって、
1もしくは0の離散値にすることもできる。以上説明し
たように、第2実施形態によれば、先行するアクセント
句にたいして予測された品詞をも考慮に入れるので、よ
り自然な合成音声の生成が可能である。
【0031】<第3実施形態>上記第1及び第2実施形
態では、局所的感情・発話スタイルの予測モデルとし
て、中間層が1層のMLP型のニューラルネットワーク
を用いたが、中間層を持たないものあるいは2層以上の
ネットワークを用いてもよい。また、MLP型の代わり
に、リカレントニューラルネットワーク、双方向リカレ
ントニューラルネットワークなどを用いてもよい。
【0032】<第4実施形態>また、上記第1及び第2
実施形態では、局所的感情・発話スタイルの予測モデル
として、ニューラルネットワークを用いたが、N-gramモ
デルに基づく方法によって予測を行うこともできる。
【0033】例えば、先行アクセント句の品詞情報およ
び当該アクセント句の品詞情報ct- 1(1≦t≦N、N
は入力テキストに対するアクセント句の総数)を用い
て、当該アクセント句の局所的感情・発話スタイルl^t
を求めることを考える。これは、局所的感情・発話スタ
イルの集合をL={l1,…,lJ}(Jは局所的感情・発
話スタイルの総数)としたとき、各感情・発話スタイル
jに対する品詞情報ct -1およびctの条件付き確率P
gi(lj|ct-1,ct)の最大値を求める。
【0034】すなわち、
【数1】 を求めることに得られる。ここで、giは大局的感情・
発話スタイルの集合をG={g1,…,gI}(Iは大局的
感情・発話スタイルの総数)としたときの現在の入力テ
キストに対する大局的感情・発話スタイルを表す。
【0035】なお、確率値Pgi(lj|ct-1,ct)は、
学習データに出現する次式、
【数2】 で求めることができる。なお、Fgi(lj,ct-1,
t),Fgi(ct-1,ct)は、それぞれの頻度である。
【0036】<第5実施形態>また、上記第4実施形態
では、先行および当該アクセント句の品詞情報を用いて
局所的感情・発話スタイルを求めていたが、これらの情
報に加えて、先行のアクセント句の局所的感情・発話ス
タイルを用いることもできる。
【0037】この場合、次式、
【数3】 を満たす局所的感情・発話スタイル系列を求めることに
より、全体の確率値が最も大きくなる最尤系列、
【数4】 を得ることができる。なお、各記号や添字は実施形態4
と同じである。
【0038】上式は、DPマッチングなど種々の探索ア
ルゴリズムを利用することにより最尤系列I^は得られ
る。確率値Pgi(lj|ct-1,ct,lt-1)は、学習デー
タに出現する次式、
【数5】 で求めることができる。
【0039】<第6実施形態>上記第1乃至第5実施形
態では、局所的感情・発話スタイルを求めるための言語
解析結果として、アクセント句に対する品詞情報を用い
ていたが、アクセント型、モーラ数、文内の位置、ポー
ズの有無、係り受け情報、単語IDなど言語解析結果か
ら得られるいかなる情報の組み合わせを利用してもよ
い。また、コンテキストの長さも、先行もしくは先行と
後続に限らず、任意の長さもしくはこれらの組み合わせ
たものを用いてもよい。
【0040】<第7実施形態>上記第1及び第2実施形
態では、大局的感情・発話スタイルごとに別のネットワ
ークを保持していたが、入力層に大局的感情・発話スタ
イルに関するノードを持つ1種類のネットワークを構成
してもよい。
【0041】<第8実施形態>上記第1乃至第5実施形
態では、予測モデルを、ニューラルネットワークもしく
はN-gramモデルに基づいて作成していたが、C4.5など決
定木に基づくものや数量化I類などの手法を用いて作成
してもよい。
【0042】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても達成される。この場合、
記憶媒体から読出されたプログラムコード自体が前述し
た実施形態の機能を実現することになり、そのプログラ
ムコードを記憶した記憶媒体は本発明を構成することに
なる。このようなプログラムコードを供給するための記
憶媒体としては、例えば、フレキシブルディスク、ハー
ドディスク、光ディスク、光磁気ディスク、CD−RO
M、CD−R、DVD、磁気テープ、不揮発性のメモリ
カード、ROMなどを用いることができる。
【0043】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行ない、その処理によって前述した実施形態の機能
が実現される場合も含まれる。
【0044】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行ない、
その処理によって前述した実施形態の機能が実現される
場合も含まれる。
【0045】
【発明の効果】以上説明したように本発明によれば、入
力テキストの言語解析結果と感情や発話スタイルに関す
る大局的な属性情報から、テキスト内における感情や発
話スタイルの局所的な属性情報を決定し、この情報を用
いて合成音声を生成することにより、より自然な合成音
声を生成することが可能となる。
【図面の簡単な説明】
【図1】本実施形態に係る音声合成装置のハードウェア
構成を示したブロック図である。
【図2】第1実施形態に係る音声合成方法の概要を説明
する流れ図である。
【図3】言語解析結果の例を示す図である。
【図4】言語解析結果の品詞情報を用いて局所的感情・
発話スタイルを決定する予測モデルの学習データの例を
示す図である。
【図5】言語解析結果の品詞情報を入力として局所的感
情・発話スタイルを決定するニューラルネットワークの
例を示す図である。
【図6】言語解析結果の品詞情報と先行の局所的感情・
発話スタイル情報を用いて局所的感情・発話スタイルを
決定する例を示す図である。
【図7】言語解析結果の品詞情報及び先行の局所的感情
・発話スタイル情報を入力として局所的感情・発話スタ
イルを決定するニューラルネットワークの例を示す図で
ある。

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 テキストに基づいて音声信号を生成する
    音声合成方法であって、 テキストに関して、合成音声の感情及び/又は発話スタ
    イルを示す大局的な属性情報を設定する設定工程と、 前記テキストを言語解析し、言語解析結果を求める解析
    工程と、 前記言語解析結果と前記設定された大局的な属性情報と
    に基づいて、前記テキスト内の各部の感情及び/又は発
    話スタイルを示す局所的な属性情報を決定する決定工程
    と、 言語解析結果と前記局所的な属性情報に基づいて合成音
    声信号を生成する生成工程とを備えることを特徴とする
    音声合成方法。
  2. 【請求項2】 前記テキストは、当該テキストに対する
    感情及び/又は発話スタイルを示す情報を含み、 前記設定工程は、前記テキストより前記情報を抽出し、
    該情報に従って前記大局的な属性情報を設定することを
    特徴とする請求項1に記載の音声合成方法。
  3. 【請求項3】 前記決定工程は、前記テキストの各部に
    ついて、当該部分とその前後の部分の品詞と、前記大局
    的な属性情報とに基づいて、当該部分の局所的な属性情
    報を決定することを特徴とする請求項1に記載の音声合
    成方法。
  4. 【請求項4】 前記決定工程は、前記テキストの各部に
    ついて、当該部分とその前後の部分の品詞と、当該部分
    よりも以前の部分に対して決定された局所的な属性情報
    と、前記大局的な属性情報とに基づいて、当該部分の局
    所的な属性情報を決定することを特徴とする請求項1に
    記載の音声合成方法。
  5. 【請求項5】 前記大局的な属性情報は、句、文、段
    落、文章全体のいずれかを単位として付与されているこ
    とを特徴とする請求項1乃至4のいずれかに記載の音声
    合成方法。
  6. 【請求項6】 前記局所的な属性情報は、音素、音節、
    モーラ、形態素、単語、文節、アクセント句、ポーズ
    句、文を単位として付与され、前記大局的な属性情報が
    付与される言語単位よりも短い言語単位で付与されるこ
    とを特徴とする請求項1乃至5のいずれかに記載の音声
    合成方法。
  7. 【請求項7】 前記決定工程は、予測モデルを参照して
    前記局所的な属性情報を決定し、 前記予測モデルを構築するための学習工程を更に備える
    ことを特徴とする請求項1乃至6のいずれかに記載の音
    声合成方法。
  8. 【請求項8】 前記予測モデルは、ニューラルネットワ
    ーク、N-gramモデル、決定木のいずれかの形態を有する
    ことを特徴とする請求項7に記載の音声合成方法。
  9. 【請求項9】 前記解析工程は、前記テキストを言語解
    析し、形態素、品詞、読み、アクセントなどの言語解析
    結果を求めることを特徴とする請求項1に記載の音声合
    成方法。
  10. 【請求項10】 テキストに基づいて音声信号を生成す
    る音声合成装置であって、 テキストに関して、合成音声の感情及び/又は発話スタ
    イルを示す大局的な属性情報を設定する設定手段と、 前記テキストを言語解析し、形態素、品詞、読み、アク
    セントなどの言語解析結果を求める解析手段と、 前記言語解析結果と前記設定された大局的な属性情報と
    に基づいて、前記テキスト内の各部の感情及び/又は発
    話スタイルを示す局所的な属性情報を決定する決定手段
    と、 言語解析結果と前記局所的な属性情報に基づいて合成音
    声信号を生成する生成手段とを備えることを特徴とする
    音声合成装置。
  11. 【請求項11】 前記テキストは、当該テキストに対す
    る感情及び/又は発話スタイルを示す情報を含み、 前記設定手段は、前記テキストより前記情報を抽出し、
    該情報に従って前記大局的な属性情報を設定することを
    特徴とする請求項10に記載の音声合成装置。
  12. 【請求項12】 前記決定手段は、前記テキストの各部
    について、当該部分とその前後の部分の品詞と、前記大
    局的な属性情報とに基づいて、当該部分の局所的な属性
    情報を決定することを特徴とする請求項10に記載の音
    声合成装置。
  13. 【請求項13】 前記決定手段は、前記テキストの各部
    について、当該部分とその前後の部分の品詞と、当該部
    分よりも以前の部分に対して決定された局所的な属性情
    報と、前記大局的な属性情報とに基づいて、当該部分の
    局所的な属性情報を決定することを特徴とする請求項1
    0に記載の音声合成装置。
  14. 【請求項14】 前記大局的な属性情報は、句、文、段
    落、文章全体のいずれかを単位として付与されているこ
    とを特徴とする請求項10乃至13のいずれかに記載の
    音声合成装置。
  15. 【請求項15】 前記局所的な属性情報は、音素、音
    節、モーラ、形態素、単語、文節、アクセント句、ポー
    ズ句、文を単位として付与され、前記大局的な属性情報
    が付与される言語単位よりも短い言語単位で付与される
    ことを特徴とする請求項10乃至14のいずれかに記載
    の音声合成装置。
  16. 【請求項16】 前記決定手段は、予測モデルを参照し
    て前記局所的な属性情報を決定し、 前記予測モデルを構築するための学習手段を更に備える
    ことを特徴とする請求項10乃至15のいずれかに記載
    の音声合成装置。
  17. 【請求項17】 前記予測モデルは、ニューラルネット
    ワーク、N-gramモデル、決定木のいずれかの形態を有す
    ることを特徴とする請求項16に記載の音声合成装置。
  18. 【請求項18】 前記解析手段は、前記テキストを言語
    解析し、形態素、品詞、読み、アクセントなどの言語解
    析結果を求めることを特徴とする請求項10に記載の音
    声合成装置。
  19. 【請求項19】 請求項1乃至9のいずれかに記載の音
    声合成方法をコンピュータに実行させるためのプログラ
    ム。
  20. 【請求項20】 請求項1乃至9のいずれかに記載の音
    声合成方法をコンピュータに実行させるためのプログラ
    ムを格納した記憶媒体。
JP2002109439A 2002-04-11 2002-04-11 音声合成方法及び装置 Withdrawn JP2003302992A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002109439A JP2003302992A (ja) 2002-04-11 2002-04-11 音声合成方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002109439A JP2003302992A (ja) 2002-04-11 2002-04-11 音声合成方法及び装置

Publications (1)

Publication Number Publication Date
JP2003302992A true JP2003302992A (ja) 2003-10-24

Family

ID=29392910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002109439A Withdrawn JP2003302992A (ja) 2002-04-11 2002-04-11 音声合成方法及び装置

Country Status (1)

Country Link
JP (1) JP2003302992A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123539A1 (ja) * 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US8065157B2 (en) 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
US8626489B2 (en) 2009-08-19 2014-01-07 Samsung Electronics Co., Ltd. Method and apparatus for processing data
JP2015215626A (ja) * 2015-07-03 2015-12-03 株式会社東芝 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2016142936A (ja) * 2015-02-03 2016-08-08 株式会社日立超エル・エス・アイ・システムズ 音声合成用データ作成方法、及び音声合成用データ作成装置
JP2017194510A (ja) * 2016-04-18 2017-10-26 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP2018072509A (ja) * 2016-10-27 2018-05-10 トッパン・フォームズ株式会社 音声読み上げ装置、音声読み上げシステム、音声読み上げ方法、およびプログラム
JP2018180459A (ja) * 2017-04-21 2018-11-15 株式会社日立超エル・エス・アイ・システムズ 音声合成システム、音声合成方法、及び音声合成プログラム
CN109523989A (zh) * 2019-01-29 2019-03-26 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
CN111681641A (zh) * 2020-05-26 2020-09-18 微软技术许可有限责任公司 基于短语的端对端文本到语音(tts)合成
WO2021235890A1 (ko) * 2020-05-22 2021-11-25 삼성전자 주식회사 인공지능 가상 비서 서비스에서의 텍스트 출력 방법 및 이를 지원하는 전자 장치
US20220253603A1 (en) * 2018-11-26 2022-08-11 A&B Computer Corporation E-mail classification device, e-mail classification method, and computer program
CN117854478A (zh) * 2024-03-05 2024-04-09 北京建筑大学 基于可控文本的语音合成方法、装置和系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123539A1 (ja) * 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US8073696B2 (en) 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
US8065157B2 (en) 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
US8626489B2 (en) 2009-08-19 2014-01-07 Samsung Electronics Co., Ltd. Method and apparatus for processing data
JP2016142936A (ja) * 2015-02-03 2016-08-08 株式会社日立超エル・エス・アイ・システムズ 音声合成用データ作成方法、及び音声合成用データ作成装置
JP2015215626A (ja) * 2015-07-03 2015-12-03 株式会社東芝 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2017194510A (ja) * 2016-04-18 2017-10-26 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP2018072509A (ja) * 2016-10-27 2018-05-10 トッパン・フォームズ株式会社 音声読み上げ装置、音声読み上げシステム、音声読み上げ方法、およびプログラム
JP2018180459A (ja) * 2017-04-21 2018-11-15 株式会社日立超エル・エス・アイ・システムズ 音声合成システム、音声合成方法、及び音声合成プログラム
US20220253603A1 (en) * 2018-11-26 2022-08-11 A&B Computer Corporation E-mail classification device, e-mail classification method, and computer program
CN109523989A (zh) * 2019-01-29 2019-03-26 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
CN109523989B (zh) * 2019-01-29 2022-01-11 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
WO2021235890A1 (ko) * 2020-05-22 2021-11-25 삼성전자 주식회사 인공지능 가상 비서 서비스에서의 텍스트 출력 방법 및 이를 지원하는 전자 장치
US11922127B2 (en) 2020-05-22 2024-03-05 Samsung Electronics Co., Ltd. Method for outputting text in artificial intelligence virtual assistant service and electronic device for supporting the same
CN111681641A (zh) * 2020-05-26 2020-09-18 微软技术许可有限责任公司 基于短语的端对端文本到语音(tts)合成
CN111681641B (zh) * 2020-05-26 2024-02-06 微软技术许可有限责任公司 基于短语的端对端文本到语音(tts)合成
CN117854478A (zh) * 2024-03-05 2024-04-09 北京建筑大学 基于可控文本的语音合成方法、装置和系统
CN117854478B (zh) * 2024-03-05 2024-05-03 北京建筑大学 基于可控文本的语音合成方法、装置和系统

Similar Documents

Publication Publication Date Title
JP4125362B2 (ja) 音声合成装置
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US11763797B2 (en) Text-to-speech (TTS) processing
JPH11259095A (ja) 音声合成方法および装置および記憶媒体
JP2001282279A (ja) 音声情報処理方法及び装置及び記憶媒体
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP4729902B2 (ja) 音声対話システム
WO2005109399A1 (ja) 音声合成装置および方法
WO2009021183A1 (en) System-effected text annotation for expressive prosody in speech synthesis and recognition
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP2023505670A (ja) アテンションベースのクロックワーク階層型変分エンコーダ
JP2020034883A (ja) 音声合成装置及びプログラム
JP2003302992A (ja) 音声合成方法及び装置
JP2006227589A (ja) 音声合成装置および音声合成方法
Shang et al. Incorporating Cross-Speaker Style Transfer for Multi-Language Text-to-Speech.
JP2003271194A (ja) 音声対話装置及びその制御方法
WO2008056590A1 (fr) Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole
JP2002041084A (ja) 対話処理システム
Chen et al. A statistics-based pitch contour model for Mandarin speech
Liao et al. Speaker adaptation of SR-HPM for speaking rate-controlled Mandarin TTS
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
JP2003084787A (ja) 規則音声合成装置
Trouvain et al. Speech synthesis: text-to-speech conversion and artificial voices

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050705