JP5728913B2 - 音声合成情報編集装置およびプログラム - Google Patents
音声合成情報編集装置およびプログラム Download PDFInfo
- Publication number
- JP5728913B2 JP5728913B2 JP2010269305A JP2010269305A JP5728913B2 JP 5728913 B2 JP5728913 B2 JP 5728913B2 JP 2010269305 A JP2010269305 A JP 2010269305A JP 2010269305 A JP2010269305 A JP 2010269305A JP 5728913 B2 JP5728913 B2 JP 5728913B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- information
- editing
- expansion
- contraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Description
図1は、本発明の第1実施形態の音声合成装置100のブロック図である。音声合成装置100は、所望の合成対象音を合成する音響処理装置であり、図1に示すように、演算処理装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。入力装置14(例えばマウスやキーボード)は、利用者からの指示を受付ける。表示装置16(例えば液晶表示装置)は、演算処理装置10から指示された画像を表示する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音声信号Xに応じた音響を再生する。
k[n]=La[n]・R・P[n] ……(1)
K[n]=k[n]/Σ(k[n]) ……(2)
数式(2)の記号Σ(k[n])は、伸縮対象区間内の全部(N個)の音素σ[1]〜σ[N]にわたる伸縮係数k[n]の総和(Σ(k[n])=k[1]+k[2]+……+k[N])を意味する。すなわち、数式(2)は、伸縮係数k[n]を1以下の正数に正規化する演算に相当する。
Lb[n]=La[n]+K[n]・ΔL ……(3)
k[n]=La[n]・R/P[n] ……(4)
Lb[n]=La[n]−K[n]・ΔL ……(5)
数式(5)から理解されるように、音高P[n]が低い音素σ[n]ほど短縮の度合が大きく、かつ、子音と比較して母音の音素σ[n]の短縮の度合が大きくなるように、短縮後の各音素σ[n]の発音長Lb[n]が可変に設定される。
本発明の第2実施形態を以下に説明する。第2実施形態では、特徴量情報SBが指定する各編集点αの時系列(音高の時間変化を示す遷移線56)の編集に着目した形態である。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。なお、音素の時系列の伸縮が指示された場合の動作は第1実施形態と同様である。
δP[m]=PA[m]・ΔLP/LP ……(6)
すなわち、音高軸54の方向における編集点α[m]の移動量δP[m]は、基準点Zrefに対する移動前の音高差PA[m]と、音高軸54の方向における選択領域60の伸縮の度合(ΔLP/LP)に応じて可変に設定される。
δT[m]=R・TA[m]・ΔLT/LT ……(7)
すなわち、時間軸52の方向における編集点α[m]の移動量δT[m]は、基準点Zrefに対する移動前の時間差TA[m]と時間軸52の方向における選択領域60の伸縮の度合(ΔLT/LT)とに加えて音素伸縮率Rに応じて可変に設定される。
TA[m-1]+δT[m-1]≦TA[m]+δT[m] ……(7a)
例えば、利用者による選択領域60の伸縮を数式(7a)の制約条件が成立する範囲内に制限する構成や、各編集点αに対応する音素伸縮率Rを数式(7a)の制約条件が成立するように動的に調整する構成、あるいは、数式(7)で算定された移動量δT[m]を数式(7a)が成立するように補正する構成が好適に採用される。
以上の形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
第1実施形態では音高P[n]に応じて各音素σ[n]を伸縮させたが、各音素σ[n]の伸縮度K[n]に反映される合成対象音の特徴量は音高P[n]に限定されない。例えば、発声音の音量に応じて各音素の伸縮の度合が変化する(例えば音量が大きい箇所ほど伸長し易い)という傾向を前提とした場合には、音量(ダイナミクス)の時間変化を指定するように特徴量情報SBを生成し、第1実施形態で説明した各演算の音高P[n]を、特徴量情報SBが示す音量D[n]に置換した構成が採用される。すなわち、例えば、音量D[n]が大きい音素σ[n]ほど伸長の度合が大きく、かつ、音量D[n]が小さい音素σ[n]ほど短縮の度合が大きくなるように伸縮度K[n]が音量D[n]に応じて可変に設定される。伸縮度K[n]の算定に好適な特徴量としては、音高P[n]や音量D[n]のほかに音声の明瞭度等が想定され得る。
第1実施形態では音素毎に伸縮度K[n]を個別に設定したが、音素毎の個別的な伸縮が適切でない場合もある。例えば、"string"という単語の先頭から3個の音素(/s/,/t/,/r/)の各々を相異なる伸縮度K[n]で伸縮すると却って不自然な音声となり得る。そこで、伸縮対象区間のうち特定の複数の音素(例えば利用者が選択した音素や所定の条件を充足する音素)の各々の伸縮度K[n]を相等しい数値に設定する構成も採用され得る。例えば、3個以上の子音の音素が連続する場合にはこれらの音素の伸縮度K[n]を相等しい数値に設定する構成が好適である。
第1実施形態では、数式(1)や数式(4)に適用される音素伸縮率Rが前後の音素σ[n-1]と音素[n]とで急激に変化する可能性がある。そこで、複数の音素にわたる音素伸縮率Rの移動平均(例えば音素σ[n-1]の音素伸縮率Rと音素σ[n]の音素伸縮率Rとの平均値)を数式(1)や数式(4)の音素伸縮率Rとする構成も好適である。第2実施形態においても同様に、編集点α[m]毎に決定される音素伸縮率Rの移動平均を数式(7)の演算に適用する構成が採用される。
第1実施形態では、特徴量情報SBから算定される音高を直接的に数式(1)や数式(4)の音高P[n]として適用したが、特徴量情報SBから特定される音高pに対する所定の演算で音高P[n]を算定する構成も採用され得る。例えば、音高pの冪乗(例えばp2)を音高P[n]とする構成や、音高pの対数値(logp)を音高P[n]とする構成が好適である。
以上の各形態では、音素列情報SAと特徴量情報SBとを単一の記憶装置12に格納したが、音素列情報SAと特徴量情報SBとを別個の記憶装置12に格納した構成も採用される。すなわち、音素列情報SAを記憶する要素(音素列記憶手段)と特徴量情報SBを記憶する要素(特徴量記憶手段)との別体/一体は本発明において不問である。
以上の各形態では、音声合成部26を含む音声合成装置100を例示したが、表示制御部22や音声合成部26は省略され得る。表示制御部22を省略した構成(編集画面30の表示や編集画面30に対する利用者からの編集指示を省略した構成)では、例えば利用者からの編集指示を必要とせずに自動的に音声合成情報Sの作成および編集が実行される。以上の構成では、編集処理部24による音声合成情報Sの作成および編集を利用者からの指示に応じてオン/オフする構成が好適である。
Claims (5)
- 合成対象音の音素毎に発音長を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報とを含む音声合成情報を編集する手段であって、前記音素列情報が指定する各音素の発音長を、前記特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する一方、前記特徴量の時間変化の変更が指示された場合に、前記音素列情報が示す音素の発音区間内の前記編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる編集処理手段
を具備する音声合成情報編集装置。 - 前記特徴量情報が示す特徴量は音高であり、
前記編集処理手段は、前記合成対象音を伸長する場合に、前記特徴量情報が指定する音高が高い前記音素ほど伸長の度合が大きくなるように、前記伸縮度を前記特徴量に応じて可変に設定する
請求項1の音声合成情報編集装置。 - 前記音素列情報が指定する発音長に応じて時間軸の方向の長さが設定された音素指示子を前記合成対象音の複数の音素について時間軸の方向に配列した音素列画像と、前記特徴量情報が指定する特徴量の時系列を示す特徴量画像とを、時間軸を共通にして配置した編集画面を表示装置に表示させ、前記編集処理手段による処理の結果に応じて前記編集画面を更新する表示制御手段
を具備する請求項1または請求項2の音声合成情報編集装置。 - 前記編集処理手段は、前記特徴量情報が指定する編集点の時系列のうち編集対象となる選択領域内の各編集点を当該選択領域の伸縮に応じて移動する一方、前記選択領域の内側の各編集点と当該選択領域の外側の各編集点との時間軸上の前後関係が前記選択領域の伸縮の前後で維持されるように、前記特徴量情報を更新する
請求項1から請求項3の何れかの音声合成情報編集装置。 - 合成対象音の音素毎に発音長を指定する音素列情報と、時間軸に沿って配列された編集点毎に前記合成対象音の特徴量を指定する特徴量情報とを含む音声合成情報を編集する手段であって、前記音素列情報が指定する各音素の発音長を、前記特徴量情報が当該音素について指定する特徴量に応じた伸縮度で変更する一方、前記特徴量の時間変化の変更が指示された場合に、前記音素列情報が示す音素の発音区間内の前記編集点の時間軸上の位置を、当該音素の種類に応じた移動量だけ時間軸の方向に移動させる編集処理手段
としてコンピュータを機能させるプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010269305A JP5728913B2 (ja) | 2010-12-02 | 2010-12-02 | 音声合成情報編集装置およびプログラム |
EP11191269.7A EP2461320B1 (en) | 2010-12-02 | 2011-11-30 | Speech synthesis information editing |
US13/309,258 US9135909B2 (en) | 2010-12-02 | 2011-12-01 | Speech synthesis information editing apparatus |
TW100144454A TWI471855B (zh) | 2010-12-02 | 2011-12-02 | 語音合成資訊編輯裝置、儲存媒體及方法 |
CN201110396819.0A CN102486921B (zh) | 2010-12-02 | 2011-12-02 | 语音合成信息编辑设备 |
KR1020140049198A KR101542005B1 (ko) | 2010-12-02 | 2014-04-24 | 음성 합성 정보 편집 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010269305A JP5728913B2 (ja) | 2010-12-02 | 2010-12-02 | 音声合成情報編集装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012118385A JP2012118385A (ja) | 2012-06-21 |
JP5728913B2 true JP5728913B2 (ja) | 2015-06-03 |
Family
ID=45047662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010269305A Active JP5728913B2 (ja) | 2010-12-02 | 2010-12-02 | 音声合成情報編集装置およびプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US9135909B2 (ja) |
EP (1) | EP2461320B1 (ja) |
JP (1) | JP5728913B2 (ja) |
KR (1) | KR101542005B1 (ja) |
CN (1) | CN102486921B (ja) |
TW (1) | TWI471855B (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US20110184738A1 (en) * | 2010-01-25 | 2011-07-28 | Kalisky Dror | Navigation and orientation tools for speech synthesis |
JP5728913B2 (ja) * | 2010-12-02 | 2015-06-03 | ヤマハ株式会社 | 音声合成情報編集装置およびプログラム |
WO2013149188A1 (en) * | 2012-03-29 | 2013-10-03 | Smule, Inc. | Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
JP5821824B2 (ja) * | 2012-11-14 | 2015-11-24 | ヤマハ株式会社 | 音声合成装置 |
JP5817854B2 (ja) * | 2013-02-22 | 2015-11-18 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP6152753B2 (ja) * | 2013-08-29 | 2017-06-28 | ヤマハ株式会社 | 音声合成管理装置 |
JP6507579B2 (ja) * | 2014-11-10 | 2019-05-08 | ヤマハ株式会社 | 音声合成方法 |
EP3038106B1 (en) * | 2014-12-24 | 2017-10-18 | Nxp B.V. | Audio signal enhancement |
WO2018175892A1 (en) * | 2017-03-23 | 2018-09-27 | D&M Holdings, Inc. | System providing expressive and emotive text-to-speech |
CN111583904B (zh) * | 2020-05-13 | 2021-11-19 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63246800A (ja) * | 1987-03-31 | 1988-10-13 | 渡辺 富夫 | 音声情報発生装置 |
JPH0667685A (ja) | 1992-08-25 | 1994-03-11 | Fujitsu Ltd | 音声合成装置 |
US5796916A (en) * | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
JP3563772B2 (ja) * | 1994-06-16 | 2004-09-08 | キヤノン株式会社 | 音声合成方法及び装置並びに音声合成制御方法及び装置 |
CA2221762C (en) * | 1995-06-13 | 2002-08-20 | British Telecommunications Public Limited Company | Ideal phonetic unit duration adjustment for text-to-speech system |
US6029131A (en) * | 1996-06-28 | 2000-02-22 | Digital Equipment Corporation | Post processing timing of rhythm in synthetic speech |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US6006187A (en) * | 1996-10-01 | 1999-12-21 | Lucent Technologies Inc. | Computer prosody user interface |
US6088674A (en) * | 1996-12-04 | 2000-07-11 | Justsystem Corp. | Synthesizing a voice by developing meter patterns in the direction of a time axis according to velocity and pitch of a voice |
JP2000305582A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2001265375A (ja) * | 2000-03-17 | 2001-09-28 | Oki Electric Ind Co Ltd | 規則音声合成装置 |
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
JP2005283788A (ja) * | 2004-03-29 | 2005-10-13 | Yamaha Corp | 表示制御装置およびプログラム |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
CA2674614C (en) * | 2007-01-25 | 2017-02-28 | Eliza Corporation | Systems and techniques for producing spoken voice prompts |
JP5119700B2 (ja) * | 2007-03-20 | 2013-01-16 | 富士通株式会社 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
JP2008268477A (ja) * | 2007-04-19 | 2008-11-06 | Hitachi Business Solution Kk | 韻律調整可能な音声合成装置 |
US20100066742A1 (en) * | 2008-09-18 | 2010-03-18 | Microsoft Corporation | Stylized prosody for speech synthesis-based applications |
US8352270B2 (en) * | 2009-06-09 | 2013-01-08 | Microsoft Corporation | Interactive TTS optimization tool |
JP5728913B2 (ja) * | 2010-12-02 | 2015-06-03 | ヤマハ株式会社 | 音声合成情報編集装置およびプログラム |
-
2010
- 2010-12-02 JP JP2010269305A patent/JP5728913B2/ja active Active
-
2011
- 2011-11-30 EP EP11191269.7A patent/EP2461320B1/en not_active Not-in-force
- 2011-12-01 US US13/309,258 patent/US9135909B2/en active Active
- 2011-12-02 CN CN201110396819.0A patent/CN102486921B/zh active Active
- 2011-12-02 TW TW100144454A patent/TWI471855B/zh not_active IP Right Cessation
-
2014
- 2014-04-24 KR KR1020140049198A patent/KR101542005B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
US9135909B2 (en) | 2015-09-15 |
JP2012118385A (ja) | 2012-06-21 |
EP2461320A1 (en) | 2012-06-06 |
KR101542005B1 (ko) | 2015-08-04 |
CN102486921A (zh) | 2012-06-06 |
TWI471855B (zh) | 2015-02-01 |
EP2461320B1 (en) | 2015-10-14 |
US20120143600A1 (en) | 2012-06-07 |
KR20140075652A (ko) | 2014-06-19 |
TW201230009A (en) | 2012-07-16 |
CN102486921B (zh) | 2015-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5728913B2 (ja) | 音声合成情報編集装置およびプログラム | |
EP2983168B1 (en) | Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program | |
JP6620462B2 (ja) | 合成音声編集装置、合成音声編集方法およびプログラム | |
JP5423375B2 (ja) | 音声合成装置 | |
JP6390690B2 (ja) | 音声合成方法および音声合成装置 | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
WO2019172397A1 (ja) | 音処理方法、音処理装置および記録媒体 | |
JP6044284B2 (ja) | 音声合成装置 | |
JP5515986B2 (ja) | 情報編集装置およびプログラム | |
JP2007271910A (ja) | 合成音声生成装置 | |
JP5935831B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5935545B2 (ja) | 音声合成装置 | |
WO2019239971A1 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP5790860B2 (ja) | 音声合成装置 | |
JP5552797B2 (ja) | 音声合成装置および音声合成方法 | |
JP5641266B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP6435791B2 (ja) | 表示制御装置および表示制御方法 | |
JP6331470B2 (ja) | ブレス音設定装置およびブレス音設定方法 | |
WO2019239972A1 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP3515268B2 (ja) | 音声合成装置 | |
JP2019159014A (ja) | 音声処理方法および音声処理装置 | |
JP2019159013A (ja) | 音声処理方法および音声処理装置 | |
KR20120060757A (ko) | 음성 합성 정보 편집 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150323 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5728913 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |