JP4296231B2 - 声質編集装置および声質編集方法 - Google Patents
声質編集装置および声質編集方法 Download PDFInfo
- Publication number
- JP4296231B2 JP4296231B2 JP2008548905A JP2008548905A JP4296231B2 JP 4296231 B2 JP4296231 B2 JP 4296231B2 JP 2008548905 A JP2008548905 A JP 2008548905A JP 2008548905 A JP2008548905 A JP 2008548905A JP 4296231 B2 JP4296231 B2 JP 4296231B2
- Authority
- JP
- Japan
- Prior art keywords
- voice quality
- feature
- voice
- unit
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 95
- 238000004364 calculation method Methods 0.000 claims description 61
- 238000010276 construction Methods 0.000 claims description 11
- 230000001755 vocal effect Effects 0.000 description 141
- 238000010586 diagram Methods 0.000 description 63
- 238000006243 chemical reaction Methods 0.000 description 62
- 238000012545 processing Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 18
- 238000007726 management method Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000009466 transformation Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Description
図4は、本発明の実施の形態1に係る声質編集装置の外観図である。声質編集装置は、パーソナルコンピュータやEWS(Engineering Workstation)などの一般的なコンピュータを用いて実現される。
次に、ステップS001において重み設定部103が行なう具体的な重み設定方法について説明する。重み設定時には重み設定部103以外の処理部も動作する。
次に、別の重み設定方法について説明する。
次に、別の重み設定方法について説明する。
また、重み設定部103により重みを調節することにより、声質間距離算出部102が、ユーザが感じる距離感を反映した声質間距離を算出することが可能となる。また、ユーザの距離感覚を元に、尺度構成部105が各声質の座標位置を算出する。このため、表示部107は、ユーザの感覚に合う声質空間を表示することができる。さらに、この声質空間は、ユーザの感覚にあった距離空間である。このため、表示されている複数の声質の間に位置する声質を想定することも、予め決められた距離尺度を用いて声質を想定する場合と比較すると、容易となる。したがって、位置入力部108を用いてユーザが所望する声質に対応した座標を指定することも容易になる。
実施の形態1では、声質特徴DB101に保持されている声質特徴を全て用いてユーザ所望の声質を編集していたが、本変形例では、声質特徴DB101に保持されている声質特徴の一部を使用してユーザに声質を編集させることを特徴とする。
以上のように声質編集装置を構成することにより、表示部107により提示される声質空間は、ユーザが知っている声質のみから構成される。このことにより、さらにユーザの感覚に合った声質空間を構成することが可能となる。したがって、ユーザが所望の声質を指定する際にも、提示されている空間がユーザの感覚に合っていることから、指定したい座標を簡単に設定することが可能となる。
本発明の実施の形態1に係る声質編集装置は、1台のコンピュータで声質の編集を行なうものである。しかしながら、一人で複数台のコンピュータを使用するということも日常的に行なわれている。また、現在では種々のサービスは、コンピュータだけでなく、携帯電話や携帯端末向けにされている。したがって、あるコンピュータで構築した自分の環境を他のコンピュータ、携帯電話、携帯端末で利用するという利用も考えられる。そこで、実施の形態2では、複数の端末において同一の編集環境を実現することができる声質編集システムについて説明する。
かかる構成によると、複数の端末に共通する声質空間上で、声質の編集を行なうことが可能となる。例えば、実施の形態1に係る声質編集装置では、ユーザがコンピュータや携帯端末など複数の端末で声質を決定するような場合には、個々の端末で重みを決定する必要がある。しかし、実施の形態2に係る声質編集システムを用いることにより、1つの端末で重みを決定し、決定したサーバに重みを保存することにより、他の端末では重みを決定する必要がなくなる。つまり、他の端末は、サーバから重みを取得するだけでよい。したがって、声質編集における声質空間の構成に必要な重み設定作業量を個々の端末ごとに行なう場合と比較すると、ユーザが声質を決定する際の負担を大幅に削減することが可能となるという効果を有する。
102 声質間距離算出部
103 重み設定部
104 入力部
105 尺度構成部
106 話者属性DB
107 表示部
108 位置入力部
109 重み記憶部
110 声質混合部
201 近接声質候補選択部
202 混合比率算出部
203 特徴量混合部
301 母音安定区間抽出部
302 声質特徴算出部
401 重みDB
402 重み選択部
403 代表声質DB
404 声質提示部
405、407 重み算出部
406 主観軸提示部
501 ユーザ情報管理DB
601 母音変換部
602 子音声道情報保持部
603 子音選択部
604 子音変形部
605 音源変形部
606 合成部
701、702 端末
703 サーバ
704 ネットワーク
Claims (11)
- 各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集装置であって、
複数の声質特徴を記憶する声質特徴データベースと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、
声質の音響特徴量毎に重みを設定する重み設定部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記重み設定部で設定された重みとに基づいて、当該声質特徴の表示座標を算出する表示座標算出部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する表示部と、
座標の入力を受け付ける位置入力部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部と
を備え、
前記表示座標算出部は、前記重み設定部により設定された重みがより大きい音響特徴量同士が類似するほど、当該音響特徴量を有する声質特徴同士が近くに配置されるように、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴の表示座標を算出する
声質編集装置。 - 前記話者属性データベースは、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を有する音声の話者の顔画像、似顔絵もしくは名前、または当該声質特徴を有する音声を発声するキャラクタの画像もしくは名前を記憶し、
前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている話者の顔画像、似顔絵もしくは名前、またはキャラクタの画像もしくは名前を、前記表示座標算出部で算出された表示座標に表示する
請求項1に記載の声質編集装置。 - 前記表示座標算出部は、
前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の2つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を前記重み設定部で設定された重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、
前記声質間距離算出部により算出された声質特徴間の距離に基づいて、声質特徴間の距離が小さいほど当該距離を算出するのに用いられた声質特徴同士が近くに配置されるように、前記声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部とを有し、
前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する
請求項1に記載の声質編集装置。 - 前記重み設定部は、
前記複数の声質の音響特徴量の重み付けにそれぞれ用いられる複数の重みからなる重み情報を記憶する重み記憶部と、
重み情報を指定する重み指定部と、
前記重み指定部で指定された重み情報を、前記重み記憶部の中から選択することにより、声質の音響特徴量毎の重みを設定する重み選択部とを有する
請求項1に記載の声質編集装置。 - 前記重み設定部は、
前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、予め選択された2つ以上の声質特徴を記憶する代表声質記憶部と、
前記代表声質記憶部に記憶されている声質特徴をユーザに提示する声質提示部と、
前記声質提示部により提示された声質特徴の中から、声質特徴の組の入力を受け付ける声質特徴組入力部と、
前記入力部により入力された前記声質特徴の組に含まれる声質特徴間の距離が最小となるような複数の声質の音響特徴量の重みを算出する重み算出部とを有する
請求項1に記載の声質編集装置。 - 前記重み設定部は、
声質の音響特徴量毎に、当該音響特徴量を表す主観的表現を提示する主観的表現提示部と、
前記主観的表現提示部により提示された主観的表現毎に、当該主観的表現に対する重要度の入力を受け付ける重要度入力部と、
前記重要度入力部で受け付けられた重要度に基づいて、当該重要度が高いほど当該重要度に対する声質の音響特徴量の重みが高くなるように重みを決定することにより、声質の音響特徴量毎の重みを算出する重み算出部とを有する
請求項1に記載の声質編集装置。 - さらに、ユーザが知っている声質に対応する声質特徴の識別情報を記憶するユーザ情報管理データベースを備え、
前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する
請求項1に記載の声質編集装置。 - さらに、
ユーザの性別または年齢の入力を受け付ける個人特性入力部と、
ユーザの性別または年齢毎に、当該性別または当該年齢のユーザが知っていると思われる声質の声質特徴の識別情報を記憶するユーザ情報管理データベースとを備え、
前記表示部は、前記声質特徴データベースに記憶されている前記複数の声質特徴のうち、識別情報が前記ユーザ情報管理データベースに記憶されている前記個人特性入力部で受け付けられたユーザの性別または年齢に対応する識別情報と一致する声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記表示座標算出部で算出された表示座標に表示する
請求項1に記載の声質編集装置。 - 声質編集装置により、各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集方法であって、
前記声質編集装置は、
複数の声質特徴を記憶する声質特徴データベースと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースとを備え、
前記声質編集方法は、
声質の音響特徴量毎に重みを設定するステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記設定された重みとに基づいて、当該声質特徴の表示座標を算出するステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、表示装置の前記算出された表示座標に表示するステップと、
座標の入力を受け付けるステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記受け付けられた座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成するステップと
を含み、
前記算出するステップでは、前記設定するステップにおいて設定された重みがより大きい音響特徴量同士が類似するほど、当該音響特徴量を有する声質特徴同士が近くに配置されるように、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴の表示座標を算出する
声質編集方法。 - 各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成するコンピュータ実行可能なプログラムであって、
前記コンピュータは、
複数の声質特徴を記憶する声質特徴データベースと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースとを備え、
声質の音響特徴量毎に重みを設定するステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴を構成する前記複数の音響特徴量と前記設定された重みとに基づいて、当該声質特徴の表示座標を算出するステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、表示装置の前記算出された表示座標に表示するステップと、
座標の入力を受け付けるステップと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記受け付けられた座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成するステップと
をコンピュータに実行させ、
前記算出するステップでは、前記設定するステップにおいて設定された重みがより大きい音響特徴量同士が類似するほど、当該音響特徴量を有する声質特徴同士が近くに配置されるように、前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴の表示座標を算出する
プログラム。 - 各々が複数の声質の音響特徴量から構成される複数の声質特徴を編集することにより新たな声質特徴を生成する声質編集システムであって、
ネットワークを介して相互に接続される第1の端末と、第2の端末と、サーバとを備え、
前記第1の端末および前記第2の端末の各々は、
複数の声質特徴を記憶する声質特徴データベースと、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する声質をユーザが想起可能な識別子を記憶する話者属性データベースと、
声質の音響特徴量毎に重みを設定し、前記サーバに送信する重み設定部と、
前記声質特徴データベースに記憶されている複数の声質特徴の中から任意の2つの声質特徴からなる声質特徴の組を抽出し、抽出された声質特徴の組毎に当該組に含まれる声質特徴を構成する音響特徴量を、前記サーバが保持する重みで重み付けし、重み付け後の前記声質特徴間の距離を算出する声質間距離算出部と、
前記声質間距離算出部により算出された声質特徴間の距離に基づいて、声質特徴間の距離が小さいほど当該距離を算出するのに用いられた声質特徴同士が近くに配置されるように、声質特徴データベースに記憶されている前記複数の声質特徴の表示座標を算出する尺度構成部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の各々について、当該声質特徴に対応する前記話者属性データベースに記憶されている識別子を、前記尺度構成部で算出された表示座標に表示する表示部と、
座標の入力を受け付ける位置入力部と、
前記声質特徴データベースに記憶されている前記複数の声質特徴の一部または全部の各々について、当該声質特徴の表示座標と前記位置入力部により受け付けられた前記座標との間の距離を算出し、算出された距離の比率に基づいて前記複数の声質特徴の一部または全部の音響特徴量を混合することにより新たな声質特徴を生成する声質混合部とを有し、
前記サーバは、前記第1の端末または前記第2の端末から送信される重みを記憶する重み記憶部を有する
声質編集システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007151022 | 2007-06-06 | ||
JP2007151022 | 2007-06-06 | ||
PCT/JP2008/001407 WO2008149547A1 (ja) | 2007-06-06 | 2008-06-04 | 声質編集装置および声質編集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4296231B2 true JP4296231B2 (ja) | 2009-07-15 |
JPWO2008149547A1 JPWO2008149547A1 (ja) | 2010-08-19 |
Family
ID=40093379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008548905A Expired - Fee Related JP4296231B2 (ja) | 2007-06-06 | 2008-06-04 | 声質編集装置および声質編集方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8155964B2 (ja) |
JP (1) | JP4296231B2 (ja) |
CN (1) | CN101622659B (ja) |
WO (1) | WO2008149547A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9601106B2 (en) | 2012-08-20 | 2017-03-21 | Kabushiki Kaisha Toshiba | Prosody editing apparatus and method |
US10535335B2 (en) | 2015-09-14 | 2020-01-14 | Kabushiki Kaisha Toshiba | Voice synthesizing device, voice synthesizing method, and computer program product |
US10930264B2 (en) | 2016-03-15 | 2021-02-23 | Kabushiki Kaisha Toshiba | Voice quality preference learning device, voice quality preference learning method, and computer program product |
JP7146961B2 (ja) | 2019-10-12 | 2022-10-04 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声パッケージの推薦方法、装置、電子機器および記憶媒体 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
TWI384423B (zh) * | 2008-11-26 | 2013-02-01 | Ind Tech Res Inst | 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法 |
JP5275102B2 (ja) * | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
CN101727899B (zh) * | 2009-11-27 | 2014-07-30 | 北京中星微电子有限公司 | 一种音频数据处理方法及音频数据处理系统 |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
JP2011250311A (ja) * | 2010-05-28 | 2011-12-08 | Panasonic Corp | 聴覚ディスプレイ装置及び方法 |
CN102473416A (zh) * | 2010-06-04 | 2012-05-23 | 松下电器产业株式会社 | 音质变换装置及其方法、元音信息制作装置及音质变换系统 |
US8731931B2 (en) * | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US20140207456A1 (en) * | 2010-09-23 | 2014-07-24 | Waveform Communications, Llc | Waveform analysis of speech |
US9520125B2 (en) * | 2011-07-11 | 2016-12-13 | Nec Corporation | Speech synthesis device, speech synthesis method, and speech synthesis program |
CN103370743A (zh) * | 2011-07-14 | 2013-10-23 | 松下电器产业株式会社 | 音质变换系统、音质变换装置及其方法、声道信息生成装置及其方法 |
WO2013018294A1 (ja) * | 2011-08-01 | 2013-02-07 | パナソニック株式会社 | 音声合成装置および音声合成方法 |
USD732555S1 (en) * | 2012-07-19 | 2015-06-23 | D2L Corporation | Display screen with graphical user interface |
USD733167S1 (en) * | 2012-07-20 | 2015-06-30 | D2L Corporation | Display screen with graphical user interface |
US9542939B1 (en) * | 2012-08-31 | 2017-01-10 | Amazon Technologies, Inc. | Duration ratio modeling for improved speech recognition |
JP6127422B2 (ja) * | 2012-09-25 | 2017-05-17 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
US20140236602A1 (en) * | 2013-02-21 | 2014-08-21 | Utah State University | Synthesizing Vowels and Consonants of Speech |
JP5802807B2 (ja) * | 2014-07-24 | 2015-11-04 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
EP3438972B1 (en) * | 2016-03-28 | 2022-01-26 | Sony Group Corporation | Information processing system and method for generating speech |
US9653096B1 (en) * | 2016-04-19 | 2017-05-16 | FirstAgenda A/S | Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same |
US10433052B2 (en) * | 2016-07-16 | 2019-10-01 | Ron Zass | System and method for identifying speech prosody |
US11195542B2 (en) | 2019-10-31 | 2021-12-07 | Ron Zass | Detecting repetitions in audio data |
US10204098B2 (en) * | 2017-02-13 | 2019-02-12 | Antonio GONZALO VACA | Method and system to communicate between devices through natural language using instant messaging applications and interoperable public identifiers |
CN109146450A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
KR20190108364A (ko) * | 2018-03-14 | 2019-09-24 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
CN108682413B (zh) * | 2018-04-24 | 2020-09-29 | 上海师范大学 | 一种基于语音转换的情感疏导系统 |
US11423920B2 (en) * | 2018-09-28 | 2022-08-23 | Rovi Guides, Inc. | Methods and systems for suppressing vocal tracks |
JP6582157B1 (ja) * | 2018-10-29 | 2019-09-25 | 健一 海沼 | 音声処理装置、およびプログラム |
JP7394411B2 (ja) * | 2020-09-08 | 2023-12-08 | パナソニックIpマネジメント株式会社 | 音信号処理システム、及び、音信号処理方法 |
CN112164387A (zh) * | 2020-09-22 | 2021-01-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频合成方法、装置及电子设备和计算机可读存储介质 |
US11386919B1 (en) * | 2020-12-31 | 2022-07-12 | AC Global Risk, Inc. | Methods and systems for audio sample quality control |
WO2023166850A1 (ja) * | 2022-03-04 | 2023-09-07 | ソニーグループ株式会社 | 音声処理装置及び音声処理方法、情報端末、情報処理装置、並びにコンピュータプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3251662B2 (ja) | 1992-10-19 | 2002-01-28 | 富士通株式会社 | データ表示処理システム |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
JP3739967B2 (ja) | 1999-06-24 | 2006-01-25 | 富士通株式会社 | 音響ブラウジング装置及び方法 |
KR20020060975A (ko) * | 1999-11-23 | 2002-07-19 | 스티븐 제이. 커우 | 특정의 인간 음성을 템플릿하기 위한 시스템 및 방법 |
US7099828B2 (en) * | 2001-11-07 | 2006-08-29 | International Business Machines Corporation | Method and apparatus for word pronunciation composition |
US7315820B1 (en) * | 2001-11-30 | 2008-01-01 | Total Synch, Llc | Text-derived speech animation tool |
JP4196052B2 (ja) * | 2002-02-19 | 2008-12-17 | パナソニック株式会社 | 楽曲検索再生装置、及びそのシステム用プログラムを記録した媒体 |
US7548651B2 (en) | 2003-10-03 | 2009-06-16 | Asahi Kasei Kabushiki Kaisha | Data process unit and data process unit control program |
US7571099B2 (en) * | 2004-01-27 | 2009-08-04 | Panasonic Corporation | Voice synthesis device |
JP4430960B2 (ja) | 2004-03-01 | 2010-03-10 | 日本電信電話株式会社 | 音声素片探索用データベース構成方法およびこれを実施する装置、音声素片探索方法、音声素片探索プログラムおよびこれを記憶する記憶媒体 |
WO2005106844A1 (en) * | 2004-04-29 | 2005-11-10 | Koninklijke Philips Electronics N.V. | Method of and system for classification of an audio signal |
JP4403996B2 (ja) | 2005-03-29 | 2010-01-27 | 日本電気株式会社 | 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム |
CN101176146B (zh) * | 2005-05-18 | 2011-05-18 | 松下电器产业株式会社 | 声音合成装置 |
US8036899B2 (en) * | 2006-10-20 | 2011-10-11 | Tal Sobol-Shikler | Speech affect editing systems |
US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
-
2008
- 2008-06-04 US US12/438,642 patent/US8155964B2/en not_active Expired - Fee Related
- 2008-06-04 WO PCT/JP2008/001407 patent/WO2008149547A1/ja active Application Filing
- 2008-06-04 JP JP2008548905A patent/JP4296231B2/ja not_active Expired - Fee Related
- 2008-06-04 CN CN2008800016642A patent/CN101622659B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9601106B2 (en) | 2012-08-20 | 2017-03-21 | Kabushiki Kaisha Toshiba | Prosody editing apparatus and method |
US10535335B2 (en) | 2015-09-14 | 2020-01-14 | Kabushiki Kaisha Toshiba | Voice synthesizing device, voice synthesizing method, and computer program product |
US10930264B2 (en) | 2016-03-15 | 2021-02-23 | Kabushiki Kaisha Toshiba | Voice quality preference learning device, voice quality preference learning method, and computer program product |
JP7146961B2 (ja) | 2019-10-12 | 2022-10-04 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声パッケージの推薦方法、装置、電子機器および記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
WO2008149547A1 (ja) | 2008-12-11 |
CN101622659A (zh) | 2010-01-06 |
CN101622659B (zh) | 2012-02-22 |
US8155964B2 (en) | 2012-04-10 |
JPWO2008149547A1 (ja) | 2010-08-19 |
US20100250257A1 (en) | 2010-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4296231B2 (ja) | 声質編集装置および声質編集方法 | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
US20180349495A1 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
US8898055B2 (en) | Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech | |
JP4125362B2 (ja) | 音声合成装置 | |
US7966186B2 (en) | System and method for blending synthetic voices | |
JP4539537B2 (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP6639285B2 (ja) | 声質嗜好学習装置、声質嗜好学習方法及びプログラム | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
JP2010014913A (ja) | 声質変換音声生成装置および声質変換音声生成システム | |
JP6737320B2 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
JP2012141354A (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
JP2001242882A (ja) | 音声合成方法及び音声合成装置 | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム | |
JP6163454B2 (ja) | 音声合成装置、その方法及びプログラム | |
JP2009216723A (ja) | 類似音声選択装置、音声生成装置及びコンピュータプログラム | |
Jayasinghe | Machine Singing Generation Through Deep Learning | |
CN115101043A (zh) | 音频合成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090413 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4296231 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140417 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |