JP4539537B2 - 音声合成装置,音声合成方法,およびコンピュータプログラム - Google Patents
音声合成装置,音声合成方法,およびコンピュータプログラム Download PDFInfo
- Publication number
- JP4539537B2 JP4539537B2 JP2005332354A JP2005332354A JP4539537B2 JP 4539537 B2 JP4539537 B2 JP 4539537B2 JP 2005332354 A JP2005332354 A JP 2005332354A JP 2005332354 A JP2005332354 A JP 2005332354A JP 4539537 B2 JP4539537 B2 JP 4539537B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- label
- text
- recorded
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 95
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 95
- 238000004590 computer program Methods 0.000 title claims description 9
- 238000001308 synthesis method Methods 0.000 title claims description 8
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims description 15
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 abstract description 11
- 238000001228 spectrum Methods 0.000 description 55
- 230000006870 function Effects 0.000 description 25
- 230000037433 frameshift Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 3
- 230000001953 sensory effect Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
第1実施形態では,本発明にかかる音声合成装置を,ネットワーク106を介して接続されたサーバ装置102とクライアント装置104を含む音声合成システム100に適用して説明する。音声合成システム100では,合成音声を生成させる対象のテキストを読み上げる自然音声を入力され,入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション,アクセントを持つ合成音声が生成され,出力される。従って,ユーザは,合成音声を生成させる対象のテキストを,所望のイントネーションやアクセントで読み上げて,読み上げた際の自然音声を音声合成システム100に入力することにより,所望のイントネーション,アクセントにより対象のテキストを合成音声で読み上げさせることができる。
第2実施形態では,本発明にかかる音声合成装置を,ネットワーク106を介して接続されたサーバ装置202とクライアント装置204を含む音声合成システム200に適用して説明する。音声合成システム200でも,第1実施形態にかかる音声合成システム100と同様に,合成音声を生成させる対象のテキストを読み上げる自然音声を入力され,入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション,アクセントを持つ合成音声が生成され,出力される。第1実施形態では,入力された読み上げ音声から,ピッチとスペクトルの双方を抽出したが,本実施形態では,ピッチのみを抽出し,スペクトルは,抽出されたピッチと,入力されたラベル列およびラベル情報と,後述の言語韻律情報と,音韻モデルとによって推測する点で,第1実施形態と異なる。以後,第1実施形態と異なる点を中心に説明する。
第3実施形態では,本発明にかかる音声合成装置を,ネットワーク106を介して接続されたサーバ装置302とクライアント装置304を含む音声合成システム300に適用して説明する。音声合成システム300でも,第1実施形態にかかる音声合成システム100と同様に,合成音声を生成させる対象のテキストを読み上げる自然音声を入力され,入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション,アクセントを持つ合成音声が生成され,出力される。第1実施形態では,入力された読み上げ音声から,ピッチとスペクトルの双方を抽出したが,本実施形態では,ピッチのみを抽出し,スペクトルは,抽出されたピッチと,ラベル列およびラベル情報と,言語韻律情報と,音韻モデルとによって推測する点で,第1実施形態と異なる。また,スペクトルを上記のように推測する点で第2実施形態と同様であるが,第2実施形態ではラベル列およびラベル情報がクライアント装置204から入力されたのに対し,本実施形態ではサーバ装置202でラベル列およびラベル情報を生成する点で異なる。以後,第1実施形態および第2実施形態と異なる点を中心に説明する。
第4実施形態では,本発明にかかる音声合成装置を,ネットワーク106を介して接続されたサーバ装置402とクライアント装置404を含む音声合成システム400に適用して説明する。音声合成システム400は,第1〜第3実施形態と異なり,読み上げ音声は入力されない。音声合成システム400では,ラベル情報を詳細に設定することにより,ユーザの所望のイントネーションに近い合成音声を生成する。
102,202,302,402 サーバ装置
104,204,304,404 クライアント装置
110 音声入力部
112 属性情報入力部
114 合成音受信部
116,216,316 パラメータ抽出部
118 ピッチ抽出部
120 スペクトル抽出部
122 音声合成部
124 収録音声記憶部
126 合成音送信部
230 テキスト入力部
232,332 テキスト解析部
234 音韻モデル記憶部
236 韻律予測部
340 ラベル情報導出部
342 ラベル別音響モデル記憶部
440 ラベルフレーム入力部
442 ラベルフレーム変更部
Claims (4)
- 予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成装置において:
予め録音された音声である収録音声が格納されている収録音声記憶部と;
前記収録音声記憶部に格納されている収録音声に基づいて予め生成された,前記収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,が格納されている音韻モデル記憶部と;
前記合成音声を作成する対象のテキストを入力するテキスト入力部と;
前記テキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力部と;
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力部と;
前記テキストを解析し,言語韻律情報を取得するテキスト解析部と;
前記ラベル列,前記ラベル情報,および前記読み上げ音声に基づいて,前記読み上げ音声の韻律的特徴を示す韻律パラメータを抽出するパラメータ抽出部と;
前記ラベル列と,前記ラベル情報と,前記韻律パラメータと,前記言語韻律情報と,前記音韻モデル記憶部に格納されている前記音響モデルおよび前記韻律モデルとに基づいて,前記テキストが読み上げられる際の自然音声の音響的特徴を推定し,該特徴を示す音響パラメータを導出する特徴推定部と;
前記収録音声記憶部から,前記韻律パラメータおよび前記音響パラメータを含む特徴パラメータに応じて前記収録音声を選択し,選択した前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成部と;
を備えることを特徴とする音声合成装置。 - 前記ラベル毎に,前記ラベルに対応する前記各音素の音響的な特徴をモデル化したラベル別音響モデルが格納されているラベル別音響モデル記憶部と;
前記読み上げ音声と,前記ラベル列と,前記ラベル別音響モデルとに基づいて,前記ラベル情報を導出するラベル情報導出部と;
を備えることを特徴とする,請求項1に記載の音声合成装置。 - コンピュータをして,予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成装置であって:
前記合成音声を作成する対象のテキストを入力するテキスト入力処理と;
前記テキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力処理と;
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力処理と;
前記テキストを解析し,言語韻律情報を取得するテキスト解析処理と;
前記ラベル列,前記ラベル情報,および前記読み上げ音声に基づいて,前記読み上げ音声の韻律的特徴を示す韻律パラメータを抽出するパラメータ抽出処理と;
前記ラベル列と,前記ラベル情報と,前記韻律パラメータと,前記言語韻律情報と,予め録音された音声である収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,前記テキストが読み上げられる際の自然音声の音響的特徴を推定し,該特徴を示す音響パラメータを導出する特徴推定処理と;
前記収録音声記憶部から,前記韻律パラメータおよび前記音響パラメータを含む特徴パラメータに応じて前記収録音声を選択する選択処理と;
前記選択処理により選択された前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成処理と;
を実行せしめることを特徴とするコンピュータプログラム。 - 予め録音された音声を用いて,テキストを読み上げる合成音声を作成する音声合成方法において:
前記合成音声を作成する対象のテキストを入力するテキスト入力ステップと;
前記テキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力ステップと;
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と,前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と,を入力する属性情報入力ステップと;
前記テキストを解析し,言語韻律情報を取得するテキスト解析ステップと;
前記ラベル列,前記ラベル情報,および前記読み上げ音声に基づいて,前記読み上げ音声の韻律的特徴を示す韻律パラメータを抽出するパラメータ抽出ステップと;
前記ラベル列と,前記ラベル情報と,前記韻律パラメータと,前記言語韻律情報と,予め録音された音声である収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと,前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと,前記テキストが読み上げられる際の自然音声の音響的特徴を推定し,該特徴を示す音響パラメータを導出する特徴推定ステップと;
前記収録音声記憶部から,前記韻律パラメータおよび前記音響パラメータを含む特徴パラメータに応じて前記収録音声を選択する選択ステップと;
前記選択ステップにより選択された前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成ステップと;
を含むことを特徴とする音声合成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005332354A JP4539537B2 (ja) | 2005-11-17 | 2005-11-17 | 音声合成装置,音声合成方法,およびコンピュータプログラム |
US11/594,977 US7739113B2 (en) | 2005-11-17 | 2006-11-09 | Voice synthesizer, voice synthesizing method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005332354A JP4539537B2 (ja) | 2005-11-17 | 2005-11-17 | 音声合成装置,音声合成方法,およびコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007140002A JP2007140002A (ja) | 2007-06-07 |
JP4539537B2 true JP4539537B2 (ja) | 2010-09-08 |
Family
ID=38041992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005332354A Expired - Fee Related JP4539537B2 (ja) | 2005-11-17 | 2005-11-17 | 音声合成装置,音声合成方法,およびコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7739113B2 (ja) |
JP (1) | JP4539537B2 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058667A (ja) * | 2006-08-31 | 2008-03-13 | Sony Corp | 信号処理装置および方法、記録媒体、並びにプログラム |
US8489399B2 (en) | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US9186579B2 (en) | 2008-06-27 | 2015-11-17 | John Nicholas and Kristin Gross Trust | Internet based pictorial game system and method |
US8606583B2 (en) * | 2008-08-13 | 2013-12-10 | Nec Corporation | Speech synthesis system for generating speech information obtained by converting text into speech |
US8620663B2 (en) * | 2008-08-13 | 2013-12-31 | Nec Corporation | Speech synthesis system for generating speech information obtained by converting text into speech |
JP5153521B2 (ja) * | 2008-08-29 | 2013-02-27 | 株式会社タイトー | データ配信装置、データ配信プログラム |
JP5049310B2 (ja) * | 2009-03-30 | 2012-10-17 | 日本電信電話株式会社 | 音声学習・合成システム及び音声学習・合成方法 |
US8332225B2 (en) * | 2009-06-04 | 2012-12-11 | Microsoft Corporation | Techniques to create a custom voice font |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
GB2480108B (en) * | 2010-05-07 | 2012-08-29 | Toshiba Res Europ Ltd | A speech processing method an apparatus |
US9183560B2 (en) | 2010-05-28 | 2015-11-10 | Daniel H. Abelow | Reality alternate |
US8731932B2 (en) | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
TWI413104B (zh) | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
KR101246287B1 (ko) * | 2011-03-28 | 2013-03-21 | (주)클루소프트 | 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법 |
US9570066B2 (en) * | 2012-07-16 | 2017-02-14 | General Motors Llc | Sender-responsive text-to-speech processing |
US20140074478A1 (en) * | 2012-09-07 | 2014-03-13 | Ispeech Corp. | System and method for digitally replicating speech |
US20140136208A1 (en) * | 2012-11-14 | 2014-05-15 | Intermec Ip Corp. | Secure multi-mode communication between agents |
JP6234134B2 (ja) * | 2013-09-25 | 2017-11-22 | 三菱電機株式会社 | 音声合成装置 |
CN106293604A (zh) * | 2016-08-11 | 2017-01-04 | 乐视控股(北京)有限公司 | 一种数据处理方法和终端 |
CN109767754A (zh) * | 2019-01-15 | 2019-05-17 | 谷晓佳 | 一种模拟发声方法、装置、电子设备及存储介质 |
CN109697973B (zh) * | 2019-01-22 | 2024-07-19 | 清华大学深圳研究生院 | 一种韵律层级标注的方法、模型训练的方法及装置 |
CN110534089B (zh) * | 2019-07-10 | 2022-04-22 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN110751940B (zh) | 2019-09-16 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 一种生成语音包的方法、装置、设备和计算机存储介质 |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
CN113793590B (zh) * | 2020-05-26 | 2024-07-05 | 华为技术有限公司 | 语音合成方法及装置 |
JP2022081790A (ja) * | 2020-11-20 | 2022-06-01 | 株式会社日立製作所 | 音声合成装置、音声合成方法、および音声合成プログラム |
KR20220147276A (ko) * | 2021-04-27 | 2022-11-03 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 프로소디 제어를 위한 tts 모델 생성 방법 |
CN113327574B (zh) * | 2021-05-31 | 2024-03-01 | 广州虎牙科技有限公司 | 一种语音合成方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62174800A (ja) * | 1986-01-29 | 1987-07-31 | 松下電器産業株式会社 | 外国語母音の模範発音出力装置 |
JPS63125998A (ja) * | 1986-11-14 | 1988-05-30 | ブラザー工業株式会社 | 音声入出力装置 |
JPH1152987A (ja) * | 1997-07-31 | 1999-02-26 | Hitachi Ltd | 話者適応機能を持つ音声合成装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6240384B1 (en) * | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US7280968B2 (en) * | 2003-03-25 | 2007-10-09 | International Business Machines Corporation | Synthetically generated speech responses including prosodic characteristics of speech inputs |
-
2005
- 2005-11-17 JP JP2005332354A patent/JP4539537B2/ja not_active Expired - Fee Related
-
2006
- 2006-11-09 US US11/594,977 patent/US7739113B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62174800A (ja) * | 1986-01-29 | 1987-07-31 | 松下電器産業株式会社 | 外国語母音の模範発音出力装置 |
JPS63125998A (ja) * | 1986-11-14 | 1988-05-30 | ブラザー工業株式会社 | 音声入出力装置 |
JPH1152987A (ja) * | 1997-07-31 | 1999-02-26 | Hitachi Ltd | 話者適応機能を持つ音声合成装置 |
Also Published As
Publication number | Publication date |
---|---|
US7739113B2 (en) | 2010-06-15 |
US20070112570A1 (en) | 2007-05-17 |
JP2007140002A (ja) | 2007-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4539537B2 (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
JP4246792B2 (ja) | 声質変換装置および声質変換方法 | |
JP3913770B2 (ja) | 音声合成装置および方法 | |
JPH10153998A (ja) | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 | |
JP2002221980A (ja) | テキスト音声変換装置 | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
JPWO2006040908A1 (ja) | 音声合成装置及び音声合成方法 | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JPH1138989A (ja) | 音声合成装置及び方法 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP5062178B2 (ja) | 音声収録システム、音声収録方法、および収録処理プログラム | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JPH1152987A (ja) | 話者適応機能を持つ音声合成装置 | |
JP2010224419A (ja) | 音声合成装置、方法およびプログラム | |
JP3685648B2 (ja) | 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 | |
JP4758931B2 (ja) | 音声合成装置、方法、プログラム及びその記録媒体 | |
JP4260071B2 (ja) | 音声合成方法、音声合成プログラム及び音声合成装置 | |
JP6163454B2 (ja) | 音声合成装置、その方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100614 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130702 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130702 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130702 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |