JP4530134B2 - 音声合成装置、声質生成装置及びプログラム - Google Patents
音声合成装置、声質生成装置及びプログラム Download PDFInfo
- Publication number
- JP4530134B2 JP4530134B2 JP2004065473A JP2004065473A JP4530134B2 JP 4530134 B2 JP4530134 B2 JP 4530134B2 JP 2004065473 A JP2004065473 A JP 2004065473A JP 2004065473 A JP2004065473 A JP 2004065473A JP 4530134 B2 JP4530134 B2 JP 4530134B2
- Authority
- JP
- Japan
- Prior art keywords
- voice quality
- image
- speech
- similarity
- storage means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
画像と画像に対応する声質・発話スタイルデータとを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、類似度計算を行った、画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段と、声質・発話スタイルを基にテキストを合成音声に変換する音声合成手段とを備え、声質決定手段は、類似度を基に入力画像に非常に近い画像を除外し、残った画像の中から類似度を基に最も入力画像に近い画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定する。
画像と画像に対応する声質・発話スタイルデータとを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、類似度計算を行った、画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段と、声質・発話スタイルを基にテキストを合成音声に変換する音声合成手段とを備え、声質決定手段は、類似度を基に入力画像に近い複数の画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定する。
画像と画像に対応する声質・発話スタイルを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、類似度計算を行った、画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段とを備え、声質決定手段は、類似度を基に入力画像に非常に近い画像を除外し、残った画像の中から類似度を基に最も入力画像に近い画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定する。
画像と画像に対応する声質・発話スタイルを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、類似度計算を行った、画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段とを備え、声質決定手段は、類似度を基に入力画像に近い複数の画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定する。
コンピュータ又はマイクロプロセッサを上述の音声合成装置として機能させる。
コンピュータ又はマイクロプロセッサを上述の声質生成装置として機能させる。
または、本発明の音声合成装置は、画像とそれに対応する声質・発話スタイルデータを記憶する画像・声質記憶手段と、入力画像と画像・声質記憶手段に記憶された画像との間の類似度を計算する類似度計算手段と、類似度計算を行った、画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを画像・声質記憶手段から抽出し、類似度及び抽出した声質・発話スタイルデータから、合成音声の声質・発話スタイルを決定する声質決定手段と、声質・発話スタイルを基にテキストを合成音声に変換する音声合成手段とを備え、類似度計算手段は、画像中の物体の寸法・形状的な情報だけでなく色彩的な情報も加味して類似度を計算し、類似度を基に入力画像に近い複数の画像に対応した声質・発話スタイルデータを画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定するよう動作する。
図1を参照すると、本発明の第1の実施の形態の音声合成装置は、画像・声質記憶手段1と、類似度計算手段2と、声質決定手段3と、音声合成手段4とを含む。画像・声質記憶手段1と、類似度計算手段2と、声質決定手段3は、まとめて、声質生成手段10または声質生成装置としてもよい。これらの手段は、それぞれ概略つぎのように動作する。
図2を参照すると、本発明の第2の実施の形態の音声合成装置は、画像・声質記憶手段1と、類似度計算手段2と、声質決定手段3と、音声合成手段4と、声質記憶手段5とを含む。画像・声質記憶手段1と、類似度計算手段2と、声質決定手段3は、まとめて、声質生成手段10または声質生成装置としてもよい。これらの手段は、それぞれ概略つぎのように動作する。
第1の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段2は画像・声質記憶手段1に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献1に記述されている方法等を用いる。
第2の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段2は画像・声質記憶手段1に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献1に記述されている方法等を用いる。
「1,2」、「1,3」を画像・声質記憶手段1から取得する。
第3の実施例では、声質を実現したい話者の顔画像が入力されると、類似度計算手段2は画像・声質記憶手段1に蓄えられた複数の顔画像との間の類似度を計算する。類似度の計算方法としては、例えば非特許文献1に記述されている方法等を用いる。
2 類似度計算手段
3、13 声質決定手段
4、14 音声合成手段
5 声質記憶手段
6 モデル生成手段
10 声質生成手段
Claims (8)
- 画像と該画像に対応する声質・発話スタイルデータとを記憶する画像・声質記憶手段と、
入力画像と前記画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、
類似度計算を行った、前記画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを前記画像・声質記憶手段から抽出し、前記類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段と、
前記声質・発話スタイルを基にテキストを合成音声に変換する音声合成手段とを備え、
前記声質決定手段は、類似度を基に入力画像に非常に近い画像を除外し、残った画像の中から類似度を基に最も入力画像に近い画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定することを特徴とする音声合成装置。 - 更に、前記声質決定手段により決定された前記声質・発話スタイルを記憶する声質記憶手段を備え、
前記音声合成手段は、記憶された前記声質・発話スタイルを基にテキストを合成音声に変換することを特徴とする請求項1に記載の音声合成装置。 - 画像と該画像に対応する声質・発話スタイルデータとを記憶する画像・声質記憶手段と、
入力画像と前記画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、
類似度計算を行った、前記画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを前記画像・声質記憶手段から抽出し、前記類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段と、
前記声質・発話スタイルを基にテキストを合成音声に変換する音声合成手段とを備え、
前記声質決定手段は、類似度を基に入力画像に近い複数の画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定することを特徴とする音声合成装置。 - 更に、前記声質決定手段により決定された前記声質・発話スタイルを記憶する声質記憶手段を備え、
前記音声合成手段は、記憶された前記声質・発話スタイルを基にテキストを合成音声に変換することを特徴とする請求項3に記載の音声合成装置。 - 画像と該画像に対応する声質・発話スタイルを記憶する画像・声質記憶手段と、
入力画像と前記画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、
類似度計算を行った、前記画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを前記画像・声質記憶手段から抽出し、前記類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段とを備え、
前記声質決定手段は、類似度を基に入力画像に非常に近い画像を除外し、残った画像の中から類似度を基に最も入力画像に近い画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、合成音声の声質・発話スタイルを決定することを特徴とする声質生成装置。 - 画像と該画像に対応する声質・発話スタイルを記憶する画像・声質記憶手段と、
入力画像と前記画像・声質記憶手段に記憶された画像との類似度を計算する類似度計算手段と、
類似度計算を行った、前記画像・声質記憶手段に記憶された画像に対応した声質・発話スタイルデータを前記画像・声質記憶手段から抽出し、前記類似度と抽出した声質・発話スタイルデータとから合成音声の声質・発話スタイルを決定する声質決定手段とを備え、
前記声質決定手段は、類似度を基に入力画像に近い複数の画像に対応した声質・発話スタイルデータを前記画像・声質取得手段から抽出し、抽出した声質・発話スタイルをマージして合成音声の声質・発話スタイルを決定することを特徴とする声質生成装置。 - コンピュータ又はマイクロプロセッサを請求項1から請求項4のいずれか1項に記載の音声合成装置として機能させるためのプログラム。
- コンピュータ又はマイクロプロセッサを請求項5または請求項6に記載の声質生成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004065473A JP4530134B2 (ja) | 2004-03-09 | 2004-03-09 | 音声合成装置、声質生成装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004065473A JP4530134B2 (ja) | 2004-03-09 | 2004-03-09 | 音声合成装置、声質生成装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005257747A JP2005257747A (ja) | 2005-09-22 |
JP4530134B2 true JP4530134B2 (ja) | 2010-08-25 |
Family
ID=35083567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004065473A Expired - Fee Related JP4530134B2 (ja) | 2004-03-09 | 2004-03-09 | 音声合成装置、声質生成装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4530134B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129434A (ja) * | 2006-11-22 | 2008-06-05 | Oki Electric Ind Co Ltd | 音声合成サーバシステム |
JP2014035541A (ja) * | 2012-08-10 | 2014-02-24 | Casio Comput Co Ltd | コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134642A (ja) * | 1999-11-02 | 2001-05-18 | Atr Media Integration & Communications Res Lab | 社会的反応特性を利用したエージェントシステム |
JP2003178306A (ja) * | 2001-12-12 | 2003-06-27 | Toshiba Corp | 個人認証装置および個人認証方法 |
JP2003202885A (ja) * | 2001-12-28 | 2003-07-18 | Canon Electronics Inc | 情報処理装置及び方法 |
JP2003319087A (ja) * | 2002-04-23 | 2003-11-07 | Matsushita Electric Ind Co Ltd | 通信装置 |
JP2003323619A (ja) * | 2002-04-30 | 2003-11-14 | Nippon Signal Co Ltd:The | 受付補助システム |
-
2004
- 2004-03-09 JP JP2004065473A patent/JP4530134B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134642A (ja) * | 1999-11-02 | 2001-05-18 | Atr Media Integration & Communications Res Lab | 社会的反応特性を利用したエージェントシステム |
JP2003178306A (ja) * | 2001-12-12 | 2003-06-27 | Toshiba Corp | 個人認証装置および個人認証方法 |
JP2003202885A (ja) * | 2001-12-28 | 2003-07-18 | Canon Electronics Inc | 情報処理装置及び方法 |
JP2003319087A (ja) * | 2002-04-23 | 2003-11-07 | Matsushita Electric Ind Co Ltd | 通信装置 |
JP2003323619A (ja) * | 2002-04-30 | 2003-11-14 | Nippon Signal Co Ltd:The | 受付補助システム |
Also Published As
Publication number | Publication date |
---|---|
JP2005257747A (ja) | 2005-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JP4296231B2 (ja) | 声質編集装置および声質編集方法 | |
JP6336676B2 (ja) | 顔構造に基づいて声を合成する方法および装置 | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
WO2019214047A1 (zh) | 建立声纹模型的方法、装置、计算机设备和存储介质 | |
KR20150146373A (ko) | 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치 | |
JP5913394B2 (ja) | 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム | |
Sundaram et al. | Automatic acoustic synthesis of human-like laughter | |
JP2006293026A (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
CN111916054B (zh) | 基于唇形的语音生成方法、装置和系统及存储介质 | |
CN112735371A (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Xue et al. | Acoustic and articulatory analysis and synthesis of shouted vowels | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
TWI574254B (zh) | 用於電子系統的語音合成方法及裝置 | |
JP2001034280A (ja) | 電子メール受信装置および電子メールシステム | |
JP2004021121A (ja) | 音声対話制御装置 | |
JP4530134B2 (ja) | 音声合成装置、声質生成装置及びプログラム | |
JP4011844B2 (ja) | 翻訳装置、翻訳方法および媒体 | |
CN115956269A (zh) | 语音转换装置、语音转换方法、程序及记录介质 | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
Theobald | Audiovisual speech synthesis | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
CN117115318B (zh) | 口型动画合成方法及装置和电子设备 | |
KR101196116B1 (ko) | 리얼 타임 토킹 리얼리티 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060207 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100519 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100601 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130618 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |