JP2005257747A - 音声合成装置、声質生成装置及びプログラム - Google Patents

音声合成装置、声質生成装置及びプログラム Download PDF

Info

Publication number
JP2005257747A
JP2005257747A JP2004065473A JP2004065473A JP2005257747A JP 2005257747 A JP2005257747 A JP 2005257747A JP 2004065473 A JP2004065473 A JP 2004065473A JP 2004065473 A JP2004065473 A JP 2004065473A JP 2005257747 A JP2005257747 A JP 2005257747A
Authority
JP
Japan
Prior art keywords
voice quality
speech
image
similarity
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004065473A
Other languages
English (en)
Other versions
JP4530134B2 (ja
Inventor
Atsushi Wakao
淳 若尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004065473A priority Critical patent/JP4530134B2/ja
Publication of JP2005257747A publication Critical patent/JP2005257747A/ja
Application granted granted Critical
Publication of JP4530134B2 publication Critical patent/JP4530134B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】多彩な声質、発話スタイルを容易に実現する、音声合成装置、声質生成装置及びプログラムを提供する。
【解決手段】画像・声質記憶手段1は、画像とそれに対応した声質・発話スタイルデータを複数組記憶する。類似度計算手段2は、入力された画像と画像・声質記憶手段1に記憶されている複数の画像との類似度を計算する。声質決定手段3は、類似度計算手段2で計算された複数の画像の類似度、画像・声質記憶手段1に記憶され、類似度に対応する声質・発話スタイルデータを受け取り、それらを元に合成音声の声質・発話スタイルを決定する。音声合成手段4は声質・発話スタイルデータを用いて入力されたテキストを合成音声に変換する。
【選択図】図1

Description

本発明は音声合成装置、声質生成装置及びプログラムに関し、特にその声質、発話スタイル等を画像に応じて多彩に変更できる音声合成装置、声質生成装置及びプログラムに関する。
従来の音声合成装置は、図9に示すように、モデル生成手段6と、声質決定手段13と、音声合成手段14とから構成されている(特許文献1参照。)。
このような構成を有する従来の音声合成装置はつぎのように動作する。
すなわち、モデル生成手段6において、3Dデジタイザなどで測定した頭部の測定データに標準形状モデルをフィッティングすることで声質に関わる寸法データを取得し、声質決定手段13において寸法データに該当する声質情報を選択し、音声合成手段14において声質情報を用いて入力テキストを音声に変換する。
このような構成を取ることで、頭部を測定した生物に近い声質を音声合成において実現可能となる。
また、入力された文字情報から予め定められた規則に従って合成パラメータを生成し、音声信号に変換するテキスト音声変換装置において、合成パラメータ生成部で生成された第1の発話スタイルの韻律パターンを、異なる第2の発話スタイルの韻律パターンに変更する発話スタイル変更手段と、発話スタイル変更手段での変更の度合いを調節する手段とを備えるテキスト音声変換装置がある(特許文献2参照。)。
また、書籍を読み上げる有名人等の読み上げキャラクタ画像、この読み上げキャラクタ画像固有の音声データを外部の配信元からそれぞれ配信してもらい、この配信された書籍データおよび読み上げキャラクタ画像を表示部に表示しながら、同じく配信された読み上げキャラクタ画像固有の音声データに対応する音声で、同じく配信された書籍データに従って読み上げ再生する電子書籍装置がある(特許文献3参照。)。
また、複数の顔画像の間の類似度を計算する方法が開示されている(非特許文献1参照。)。
特開2002−156989号公報 特開平10−11083号公報 特開2003−122554号公報 「個人顔認識のデータベースにおけるメタデータの提案」電子情報通信学会論文誌Vol.J86-D-II No.7 p.1005-1014の付録
従来の音声合成装置の第1の問題点は、3Dデジタイザ等の形状測定装置が大型で高価なため、携帯電話器等の小型端末では実現が難しいということである。
第2の問題点は、形状のみを測定しているため、声質のバリエーションが少ないことである。
本発明の目的は、多彩な声質、発話スタイルを容易に実現する、音声合成装置、声質生成装置及びプログラムを提供することにある。
本発明の音声合成装置は、
画像と画像に対応する声質・発話スタイルデータとを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、類似度計算を行った画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段と、声質・発話スタイルを元にテキストを合成音声に変換する音声合成手段とを備えている。
また、更に、声質決定手段により決定された声質・発話スタイルを記憶する声質記憶手段を備え、音声合成手段は、記憶された声質・発話スタイルを元にテキストを合成音声に変換してもよい。
また、声質決定手段は、類似度を元に最も入力画像に近い画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定してもよい。
また、声質決定手段は、類似度を元に入力画像に非常に近い画像を除外し、残った画像の中から類似度を元に最も入力画像に近い画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定してもよい。
また、声質決定手段は、類似度を元に入力画像に近い複数の画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定してもよい。
本発明の声質生成装置は、
画像と画像に対応する声質・発話スタイルを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、類似度計算を行った画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段とを備えている。
本発明のプログラムは、
コンピュータ又はマイクロプロセッサを上述の音声合成装置として機能させる。
本発明のプログラムは、
コンピュータ又はマイクロプロセッサを上述の声質生成装置として機能させる。
即ち、本発明の音声合成装置は、画像とそれに対応する声質・発話スタイルデータを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との間の類似度を計算する類似度計算手段と、類似度計算を行った画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度及び抽出した声質・発話スタイルデータから、合成音声の声質・発話スタイルを決定する声質決定手段と、声質・発話スタイルを元にテキストを合成音声に変換する音声合成手段とを備え、類似度計算手段では、画像中の物体の寸法・形状的な情報だけでなく色彩的な情報も加味して類似度が計算されるよう動作する。
このような構成を採用し、デジタルカメラ等から取得した画像を入力画像として用いることにより本発明の目的を達成することができる。
本発明には、以下の効果がある。
第1の効果は、容易に声質を変更できることにある。
その理由は、デジタルカメラ等の小型・安価な入力機器で作成可能で、インターネット上に多数存在する画像データを利用できるためである。
第2の効果は、多彩な声質を選択できることにある。
その理由は、画像を利用することで寸法・形状だけでなく色彩的な情報も利用できるためである。例えば、髪の毛の色等から年齢の情報を測定し、声質に反映することができる。即ち、色彩情報を含む画像を元に類似度を計算して声質を決定するように構成されているため、より正確な声質を設定可能である。なお、望ましい形態ではないが、色彩情報でなく濃淡情報しか持たない白黒画像であっても実現可能である。
即ち、音声合成装置において、多彩な声質を実現することができるので、特にカメラ付き携帯電話等において、予め送信者の顔画像を撮影、もしくは送信者が自身を撮影した顔画像を送信することで、電子メールをあたかも送信者が喋っているように読み上げることができる。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
(発明の第1の実施の形態)
図1を参照すると、本発明の第1の実施の形態の音声合成装置は、画像・声質記憶手段1と、類似度計算手段2と、声質決定手段3と、音声合成手段4とを含む。画像・声質記憶手段1と、類似度計算手段2と、声質決定手段3は、まとめて、声質決定手段10または声質決定装置としてもよい。これらの手段は、それぞれ概略つぎのように動作する。
画像・声質記憶手段1は、画像とそれに対応した声質・発話スタイルデータを複数組記憶する。ここで、画像はその特徴を抽出した状態、モデル化された状態でも構わない。また、画像の内容は人間の顔画像に限らず、風景等であっても構わない。
声質・発話スタイルデータは、ピッチ周波数、ホルマント周波数、発声速度等の声質を表すパラメータ、波形接続型音声合成装置で用いる素片波形辞書、声道長などの発声器官の物理的特長を表すパラメータ、入力テキストを解析する際のテキスト解析辞書、入力テキストを解析する際の動作モード、等のうち1ないし複数のデータを含む。
類似度計算手段2は、入力された画像と画像・声質記憶手段1に記憶されている複数の画像との類似度を計算する。
声質決定手段3は、類似度計算手段2で計算された複数の画像の類似度、画像・声質記憶手段1に記憶され前述の類似度に対応する声質・発話スタイルデータを受け取り、類似度を元に1ないし複数の声質・発話スタイルデータを選択する。
選択された声質・発話スタイルデータが一つの場合、その声質・発話スタイルデータが音声合成手段4に送られる。
選択された声質・発話スタイルデータが複数存在する場合、それらをマージしたものが音声合成手段4に送られる。
なお、マージの際、前述の類似度を重みとして用いることができる。
音声合成手段4は声質決定手段3から送られた声質・発話スタイルデータを用いて入力されたテキストを合成音声に変換する。
次に、図1及び図3のフローチャートを参照して本発明の第1の実施の形態の全体の動作について詳細に説明する。
まず、画像・声質記憶手段1から、画像を取得する(図3のステップS1)。
次に、取得した画像と入力画像の類似度を計算する(図3のステップS2)。
さらに、類似度を計算した画像に対応する声質・発話スタイルデータを画像・声質記憶手段1から取得する(図3のステップS3)。
ここで、画像・声質記憶手段1に未だ声質・発話スタイルデータを取得していない画像が存在するか確認する(図3のステップS4)。
存在する場合はS1に戻り、存在しない場合は次のS5に動作を移す。
そして、計算した類似度、取得した声質・発話スタイルデータから合成音声作成に用いる声質・発話スタイルデータを作成する(図3のステップ5)。
最後に、作成した声質・発話スタイルデータを用いてテキストを合成音声に変換する(図3のステップ6)。
(発明の第2の実施の形態)
図2を参照すると、本発明の第2の実施の形態の音声合成装置は、画像・声質記憶手段1と、類似度計算手段2と、声質決定手段3と、音声合成手段4と、声質記憶手段5とを含む。画像・声質記憶手段1と、類似度計算手段2と、声質決定手段3は、まとめて、声質決定手段10または声質決定装置としてもよい。これらの手段は、それぞれ概略つぎのように動作する。
画像・声質記憶手段1は、画像とそれに対応した声質・発話スタイルデータを複数組記憶する。ここで、画像はその特徴を抽出した状態、モデル化された状態でも構わない。また、画像の内容は人間の顔画像に限らず、風景等であっても構わない。
声質・発話スタイルデータは、ピッチ周波数、ホルマント周波数、発声速度等の声質を表すパラメータ、波形接続型音声合成装置で用いる素片波形辞書、声道長などの発声器官の物理的特長を表すパラメータ、入力テキストを解析する際のテキスト解析辞書、入力テキストを解析する際の動作モード、等のうち1ないし複数のデータを含む。
類似度計算手段2は、入力された画像と画像・声質記憶手段1に記憶されている複数の画像との類似度を計算する。
声質決定手段3は、類似度計算手段2で計算された複数の画像の類似度、画像・声質記憶手段1に記憶され前述の類似度に対応する声質・発話スタイルデータを受け取り、類似度を元に1ないし複数の声質・発話スタイルデータを選択する。
選択された声質・発話スタイルデータが一つの場合、その声質・発話スタイルデータが声質記憶手段5に送られる。
選択された声質・発話スタイルデータが複数存在する場合、それらをマージしたものが声質記憶手段5に送られる。
なお、マージの際、前述の類似度を重みとして用いることができる。
音声合成手段4はテキストが入力されると、声質記憶手段5に記憶された声質・発話スタイルデータを用いて合成音声を作成する。
次に、図2及び図4のフローチャートを参照して本発明の第2の実施の形態の全体の動作について詳細に説明する。
まず、画像・声質記憶手段1から、画像を取得する(図4のステップS1)。
次に、取得した画像と入力画像の類似度を計算する(図4のステップS2)。
さらに、類似度を計算した画像に対応する声質・発話スタイルデータを画像・声質記憶手段1から取得する(図4のステップS3)。
ここで、画像・声質記憶手段1に未だ声質・発話スタイルデータを取得していない画像が存在するか確認する(図4のステップS4)。
存在する場合はS1に戻り、存在しない場合は次のS5に動作を移す。
そして、計算した類似度、取得した声質・発話スタイルデータから合成音声作成に用いる声質・発話スタイルデータを作成する(図4のステップ5)。
作成した声質・発話スタイルデータを声質記憶手段5に記憶する(図4のステップ6)。
最後に、記憶した声質・発話スタイルデータを用いてテキストを合成音声に変換する(図4のステップ7)。
また、上述の本発明の実施の形態についての音声合成装置のプログラムにより、コンピュータ又はマイクロプロセッサを音声合成装置として機能させることができる。
また、上述の本発明の実施の形態についての声質生成装置のプログラムにより、コンピュータ又はマイクロプロセッサを声質生成装置として機能させることができる。
次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。
(第1の実施例)
第1の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段2は画像・声質記憶手段1に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献1に記述されている方法等を用いる。
計算された類似度の例を図5に示す。
計算された類似度は、声質決定手段3に渡される。
声質決定手段3は、前述の類似度のうち、最も高い値4.6を選択する。
そして、類似度4.6に対応する声質データを画像・声質記憶手段1から取得する。
画像・声質記憶手段1に記憶される声質データの例を図6に示す。
ここでは、先の類似度4.6、画像No.2に対応した声質データである、ピッチ周波数200、発話速度120、第一ホルマント周波数600、第二ホルマント周波数1000を画像・声質記憶手段1から取得する。取得した声質データは、音声合成手段4に渡す。
音声合成手段4は、テキストが入力されると、声質決定手段3から渡された声質データに従って合成音声を作成する。
(第2の実施例)
第2の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段2は画像・声質記憶手段1に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献1に記述されている方法等を用いる。
計算された類似度の例を図5に示す。
計算された類似度は、声質決定手段3に渡される。
声質決定手段3は、前述の類似度のうち、上位2値4.6、3.4を選択する。
そして、類似度4.6、3.4に対応する声質・発話スタイルデータを画像・声質記憶手段1から取得する。
画像・声質記憶手段1に記憶される声質・発話スタイルデータの例を図7に示す。
ここでは、先の類似度3.4(画像No.1)、4.6(画像No.2)に対応した声質データである、ピッチ周波数「100」、「200」、単語辞書No.
「1,2」、「1,3」を画像・声質記憶手段1から取得する。
取得した声質データのうち、ピッチ周波数「100」「200」は類似度を重みとして平均をとる。
その結果、100*3.4/(3.4+4.6)+200*4.6/(3.4+4.6)=157.5が計算される。
一方、単語辞書No.「1,2」「1,3」は論理和を計算し、「1,2,3」となる。
計算結果であるピッチ周波数157.5、単語辞書No.「1,2,3」は声質記憶手段5に記憶される。
音声合成手段4は、テキストが入力されると、声質記憶手段5から記憶された声質・発話パラメータデータに従って合成音声を作成する。
具体的には、入力テキストを解析する際に、No.1,2,3の単語辞書を用いて解析し、最終的に出力される合成音声のピッチ周波数が157.5Hzとなるように全体のピッチ周波数を調整する。
(第3の実施例)
第3の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段2は画像・声質記憶手段1に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献1に記述されている方法等を用いる。
計算された類似度の例を図5に示す。
計算された類似度は、声質決定手段3に渡される。
声質決定手段3は、前述の類似度のうち、予め決められた閾値4.5を越える類似度4.6を破棄する。
そして、残った類似度のうち、最も高い類似度3.4を選択し、対応する声質データを画像・声質記憶手段1から取得する。
画像・声質記憶手段1に記憶される声質データの例を図8に示す。
ここでは、先の類似度3.4、画像No.1に対応した声質データである、波形辞書No.1を画像・声質記憶手段1から取得する。
取得した声質データは、電子メールによって音声合成手段4に送られる。
音声合成手段4は、テキストが入力されると、声質決定手段3から渡された声質データに従って合成音声を作成する。
具体的には、波形辞書No.1から、入力テキストに合わせた適切な素片波形を選択し、それらをつなぎ合わせて合成音声を生成する。
第3の実施例のような実装を用いると、声紋を用いたセキュリティゲートなどを音声合成装置を使用して不正に通過することを防ぐことができる。
発明の第1の実施の形態の構成を示すブロック図である。 発明の第2の実施の形態の構成を示すブロック図である。 発明の第1の実施の形態の動作を示す流れ図である。 発明の第2の実施の形態の動作を示す流れ図である。 類似度計算手段による計算結果の例を示す図である。 画像・声質記憶手段に記憶されている、声質・発話スタイルデータの例を示す図である。 画像・声質記憶手段に記憶されている、声質・発話スタイルデータの例を示す図である。 画像・声質記憶手段に記憶されている、声質・発話スタイルデータの例を示す図である。 従来の音声合成装置を説明するためのブロック図である。
符号の説明
1 画像・声質記憶手段
2 類似度計算手段
3、13 声質決定手段
4、14 音声合成手段
5 声質記憶手段
6 モデル生成手段
10 声質生成手段

Claims (8)

  1. 画像と該画像に対応する声質・発話スタイルデータとを記憶する画像・声質記憶手段と、
    入力画像と前記画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、
    類似度計算を行った画像に対応した声質・発話スタイルデータを前記画像・声質記憶手段から抽出し、前記類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段と、
    前記声質・発話スタイルを元にテキストを合成音声に変換する音声合成手段とを備えたことを特徴とする音声合成装置。
  2. 更に、前記声質決定手段により決定された前記声質・発話スタイルを記憶する声質記憶手段を備え、
    前記音声合成手段は、記憶された前記声質・発話スタイルを元にテキストを合成音声に変換することを特徴とする請求項1に記載の音声合成装置。
  3. 前記声質決定手段は、類似度を元に最も入力画像に近い画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定することを特徴とする請求項1または請求項2に記載の音声合成装置。
  4. 前記声質決定手段は、類似度を元に入力画像に非常に近い画像を除外し、残った画像の中から類似度を元に最も入力画像に近い画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定することを特徴とする請求項1または請求項2に記載の音声合成装置。
  5. 前記声質決定手段は、類似度を元に入力画像に近い複数の画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定することを特徴とする請求項1または請求項2に記載の音声合成装置。
  6. 画像と該画像に対応する声質・発話スタイルを記憶する画像・声質記憶手段と、
    入力画像と前記画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、
    類似度計算を行った画像に対応した声質・発話スタイルデータを前記画像・声質記憶手段から抽出し、前記類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段とを備えたことを特徴とする声質生成装置。
  7. コンピュータ又はマイクロプロセッサを請求項1から請求項5のいずれか1項に記載の音声合成装置として機能させるためのプログラム。
  8. コンピュータ又はマイクロプロセッサを請求項6に記載の声質生成装置として機能させるためのプログラム。
JP2004065473A 2004-03-09 2004-03-09 音声合成装置、声質生成装置及びプログラム Expired - Fee Related JP4530134B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004065473A JP4530134B2 (ja) 2004-03-09 2004-03-09 音声合成装置、声質生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004065473A JP4530134B2 (ja) 2004-03-09 2004-03-09 音声合成装置、声質生成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2005257747A true JP2005257747A (ja) 2005-09-22
JP4530134B2 JP4530134B2 (ja) 2010-08-25

Family

ID=35083567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004065473A Expired - Fee Related JP4530134B2 (ja) 2004-03-09 2004-03-09 音声合成装置、声質生成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4530134B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129434A (ja) * 2006-11-22 2008-06-05 Oki Electric Ind Co Ltd 音声合成サーバシステム
JP2014035541A (ja) * 2012-08-10 2014-02-24 Casio Comput Co Ltd コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134642A (ja) * 1999-11-02 2001-05-18 Atr Media Integration & Communications Res Lab 社会的反応特性を利用したエージェントシステム
JP2003178306A (ja) * 2001-12-12 2003-06-27 Toshiba Corp 個人認証装置および個人認証方法
JP2003202885A (ja) * 2001-12-28 2003-07-18 Canon Electronics Inc 情報処理装置及び方法
JP2003319087A (ja) * 2002-04-23 2003-11-07 Matsushita Electric Ind Co Ltd 通信装置
JP2003323619A (ja) * 2002-04-30 2003-11-14 Nippon Signal Co Ltd:The 受付補助システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134642A (ja) * 1999-11-02 2001-05-18 Atr Media Integration & Communications Res Lab 社会的反応特性を利用したエージェントシステム
JP2003178306A (ja) * 2001-12-12 2003-06-27 Toshiba Corp 個人認証装置および個人認証方法
JP2003202885A (ja) * 2001-12-28 2003-07-18 Canon Electronics Inc 情報処理装置及び方法
JP2003319087A (ja) * 2002-04-23 2003-11-07 Matsushita Electric Ind Co Ltd 通信装置
JP2003323619A (ja) * 2002-04-30 2003-11-14 Nippon Signal Co Ltd:The 受付補助システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129434A (ja) * 2006-11-22 2008-06-05 Oki Electric Ind Co Ltd 音声合成サーバシステム
JP2014035541A (ja) * 2012-08-10 2014-02-24 Casio Comput Co Ltd コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム

Also Published As

Publication number Publication date
JP4530134B2 (ja) 2010-08-25

Similar Documents

Publication Publication Date Title
JP4296231B2 (ja) 声質編集装置および声質編集方法
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP6336676B2 (ja) 顔構造に基づいて声を合成する方法および装置
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
GB2516965A (en) Synthetic audiovisual storyteller
JP5039865B2 (ja) 声質変換装置及びその方法
JP5913394B2 (ja) 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
Sundaram et al. Automatic acoustic synthesis of human-like laughter
WO2013018294A1 (ja) 音声合成装置および音声合成方法
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
KR20170107683A (ko) 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법
JP2011028130A (ja) 音声合成装置
JP2006293026A (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
Xue et al. Acoustic and articulatory analysis and synthesis of shouted vowels
TWI574254B (zh) 用於電子系統的語音合成方法及裝置
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JP2004021121A (ja) 音声対話制御装置
JP4530134B2 (ja) 音声合成装置、声質生成装置及びプログラム
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2001242882A (ja) 音声合成方法及び音声合成装置
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
Theobald Audiovisual speech synthesis
JP6424419B2 (ja) 音声制御装置、音声制御方法およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100601

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees