JP2002328695A - テキストからパーソナライズ化音声を生成する方法 - Google Patents
テキストからパーソナライズ化音声を生成する方法Info
- Publication number
- JP2002328695A JP2002328695A JP2002085138A JP2002085138A JP2002328695A JP 2002328695 A JP2002328695 A JP 2002328695A JP 2002085138 A JP2002085138 A JP 2002085138A JP 2002085138 A JP2002085138 A JP 2002085138A JP 2002328695 A JP2002328695 A JP 2002328695A
- Authority
- JP
- Japan
- Prior art keywords
- personalized
- speech
- parameters
- text
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 6
- 238000003066 decision tree Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 4
- 238000011002 quantification Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000963438 Gaussia <copepod> Species 0.000 description 1
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
生成する方法を提供すること。 【解決手段】 テキストからパーソナライズされた音声
を生成する方法が、入力テキストを分析し、標準テキス
ト−音声データベースから、合成される音声の標準パラ
メータを獲得するステップと、トレーニング・プロセス
において獲得されたパーソナライズ化モデルにより、標
準音声パラメータをパーソナライズされた音声パラメー
タにマップするステップと、パーソナライズ化音声パラ
メータにもとづき、入力テキストに対応する音声を合成
するステップとを含む。本方法は、対象となる人間の音
声をシミュレートし、TTSシステムにより生成される
音声を、より魅力的に且つパーソナライズ化するために
使用される。
Description
声変換に関し、特に、テキストからパーソナライズされ
た(personalized)すなわち個別に設定された音声を生
成する方法に関する。
テムにより生成される音声は、一般に、感情を欠き単調
である。汎用TTSシステムでは、全ての音節または単
語の標準発音が最初に記録され、分析され、次に音節レ
ベルまたは単語レベルで、標準発音を表現する関連パラ
メータが辞書に記憶される。辞書内で定義される標準制
御パラメータ及びスムージング技術を通じて、成分音を
連結することにより、テキストに対応する音声が合成さ
れる。こうして合成された音声は非常に単調でパーソナ
ライズされない。
ストからパーソナライズされた音声を生成する方法を提
供する。
からパーソナライズされた音声を生成する方法は、入力
テキストを分析し、標準テキスト−音声データベースか
ら、標準音声パラメータを獲得するステップと、トレー
ニング・プロセスにおいて獲得されたパーソナライズ化
モデルにより、標準音声パラメータをパーソナライズさ
れた音声パラメータにマップするステップと、パーソナ
ライズ化音声パラメータにもとづき、入力テキストに対
応する音声を合成するステップとを含む。
Sシステムにおいて、テキストから音声を生成するため
に、一般には次のステップ、すなわち、最初に入力テキ
ストを分析し、標準テキスト−音声データベースから標
準発音の関連パラメータを獲得するステップと、第2に
合成及びスムージング技術により、成分音を連結し、音
声を合成するステップとが実行される。こうして合成さ
れた音声は非常に単調で、パーソナライズされない。
イズされた音声を生成する方法を提供する。
キストからパーソナライズされた音声を生成する方法
は、最初に入力テキストを分析し、標準音声パラメータ
を獲得するステップと、第2にトレーニング・プロセス
において獲得されたパーソナライズ化モデルにより、標
準音声パラメータをパーソナライズされた音声パラメー
タに変換するステップと、最後にパーソナライズ化音声
パラメータにもとづき、音声を合成するステップとを含
む。
デルを生成するプロセスについて述べる。まず最初に、
パーソナライズ化モデルを獲得するために、標準TTS
分析プロセスにより、標準音声パラメータVgeneralが
獲得される。同時に、パーソナライズ化音声が検出さ
れ、その音声パラメータVpersonalizedが獲得され、標
準音声パラメータとパーソナライズ化音声パラメータと
の間の関係を表すパーソナライズ化モデルが最初に生成
される。すなわち、
化されたパーソナライズ化モデルが獲得されるまで、パ
ーソナライズ化音声パラメータVpersonalizedを検出す
るプロセスが複数回繰り返され、パラメータ・パーソナ
ライズ化モデルF[*]が検出結果に従い調整される。
検出において、2つの隣接結果が|Fi[*]−Fi+1
[*]|<δを満足する場合、F[*]は安定とみなされ
る。本発明の好適な実施例によれば、本発明は、標準音
声パラメータVgeneralとパーソナライズ化音声パラメ
ータVpersonalizedとの間の関係を表すパーソナライズ
化モデルF[*]を、以下の2つのレベルにおいて達成
する。すなわち、 レベル1:ケプストラム・パラメータ関連音響レベル レベル2:超分節パラメータ関連韻律素レベル。異なる
トレーニング方法が異なるレベルに対して使用される。
音響レベル:音声認識技術により、音声ケプストラム・
パラメータ・シーケンスが獲得される。同一テキストに
対する2人の人間の音声が与えられると、各人のケプス
トラム・パラメータ・シーケンスだけでなく、フレーム
・レベルでの2つのケプストラム・パラメータ・シーケ
ンスの間の関係が獲得される。従って、それらの間の差
がフレーム毎に比較され、それらの差がモデル化され、
音声レベルでのケプストラム・パラメータ関連変換関数
F[*]が獲得される。
タの2つのセットが定義される。一方は標準TTSシス
テムから定義され、他はシミュレート対象の人間の音声
から定義される。図4に示される高機能VQ(ベクトル
定量化)法を用いて、ケプストラム・パラメータの2つ
のセット間のマッピングが生成される。最初に、標準T
TSでの音声ケプストラム・パラメータが初期にガウス
・クラスタ化され、ベクトルが定量化されて、G1、G2
が達成される。第2に、シミュレートされる音声の初期
ガウス・クラスタ化結果が、フレーム毎のケプストラム
・パラメータ・シーケンスの2つのセット間の厳密なマ
ッピングと、標準TTSにおける音声ケプストラム・パ
ラメータの初期ガウス・クラスタ化結果とから獲得され
る。各G'iのより正確なモデルを獲得するために、ガウ
ス・クラスタ化が実行され、G'1.1,G'1.2,G'2.1,
G'2.2,..が獲得される。その後、ガウス(gaussia
n)間の1対1のマッピングが獲得され、F[*]が次の
ように定義される。すなわち、
jの平均値及び偏差をそれぞれ表し、MG'i,j、DG'i,j
は、G'i,jの平均値及び偏差をそれぞれ表す。
ベル:周知のように、韻律素パラメータがコンテキスト
に関連付けられる。コンテキスト情報は、子音、アクセ
ント、意義素、構文及び意味構造などを含む。コンテキ
スト情報間の関係を決定するために、ここでは決定樹を
用いて、韻律素レベルの変換機構F[*]をモデル化す
る。
値及び音量値を含む。各音節に対して、韻律素ベクトル
が次のように定義される。すなわち、 基本周波数値:音節全体に分布される10ポイントでの
全ての基本周波数値 持続時間:バースト部分、安定部分及び遷移部分でのそ
れぞれの持続期間を含む3つの値 音量値:正面及び背面の音量値を含む2つの値
素を表現するために使用される。
すると、標準TTSシステムの音声韻律素ベクトルをク
ラスタ化するために、汎用決定樹アルゴリズムを使用で
きる。従って、図5に示される決定樹(D.T.)及び
ガウス値G1、G2、G3が獲得される。
されるとき、テキストが最初に分析されて、コンテキス
ト情報が獲得され、次にコンテキスト情報が決定樹D.
T.に入力され、ガウス値G'1,G'2,G'3,..の別
のセットが獲得される。
2,G'3,..は、1対1マッピングと仮定され、次の
マッピング関数が与えられる。
jの平均値及び偏差をそれぞれ表し、MG'i,j、DG'i,j
は、G'i,jの平均値及び偏差をそれぞれ表す。
ナライズ化音声を生成する方法が、図1乃至図5と共に
述べられている。ここでの主な問題は、固有ベクトルか
らリアルタイムに、子音の類推信号を合成することであ
る。これはディジタル文字を抽出するプロセスの逆であ
る(逆フーリエ変換に類似する)。こうしたプロセスは
非常に複雑であるが、例えばIBMにより発明されたケ
プストラム・パラメータから音声を復元する技術など
の、現在使用可能な特殊アルゴリズムにより実現され
る。
イム変換アルゴリズムにより生成されるが、完全なパー
ソナライズ化TTSデータベースが、特定の目的のため
に準備されてもよい。類推音声成分音の変換及び生成
は、TTSシステムにおいてパーソナライズ化音声を生
成する最終ステップにおいて完了されるので、本発明の
方法は汎用TTSシステムには影響を及ぼさない。
て、テキストからパーソナライズ化音声を生成する方法
について述べてきた。当業者であれば、本発明の多くの
変更及び変形が、本発明の趣旨及び範囲から逸れること
なく可能であることが理解できよう。従って、本発明は
これら全ての変更及び変形についても包含するものであ
る。
の事項を開示する。
音声を生成する方法であって、前記入力テキストを分析
し、標準テキスト−音声データベースから、合成される
前記音声の標準パラメータを獲得するステップと、トレ
ーニング・プロセスにおいて獲得されたパーソナライズ
化モデルにより、前記標準音声パラメータをパーソナラ
イズされた音声パラメータにマップするステップと、前
記パーソナライズ化音声パラメータにもとづき、前記入
力テキストに対応する前記音声を合成するステップとを
含む方法。 (2)前記パーソナライズ化モデルを獲得するトレーニ
ング・プロセスが、前記標準テキスト−音声分析プロセ
スを通じて、前記標準音声パラメータを獲得するステッ
プと、前記パーソナライズ化音声の前記パーソナライズ
化音声パラメータを検出するステップと、前記標準音声
パラメータと前記パーソナライズ化音声パラメータとの
間の関係を表す前記パーソナライズ化モデルを初期に生
成するステップと、前記パーソナライズ化音声パラメー
タを検出し、検出結果にもとづき、前記パーソナライズ
化モデルを調整するプロセスを、前記パーソナライズ化
モデルが安定するまで繰り返すステップとを含む、前記
(1)記載の方法。 (3)前記パーソナライズ化モデルが、ケプストラム・
パラメータに関連する音響レベルの前記パーソナライズ
化モデルを含む、前記(1)または(2)に記載の方
法。 (4)高機能ベクトル定量化法により、前記ケプストラ
ム・パラメータに関連する音響レベルの前記パーソナラ
イズ化モデルを生成する、前記(3)記載の方法。 (5)前記パーソナライズ化モデルが、超分節パラメー
タに関連する韻律素レベルの前記パーソナライズ化モデ
ルを含む、前記(1)または(2)に記載の方法。 (6)決定樹により、前記超分節パラメータに関連する
韻律素レベルの前記パーソナライズ化モデルを生成す
る、前記(5)記載の方法。
音声を生成するプロセスを示す。
れた音声を生成するプロセスを示す。
ーソナライズ化モデルを生成するプロセスを示す。
プストラム・パラメータの2つのセット間のマッピング
・プロセスを示す。
Claims (6)
- 【請求項1】テキストからパーソナライズされた音声を
生成する方法であって、 前記入力テキストを分析し、標準テキスト−音声データ
ベースから、合成される前記音声の標準パラメータを獲
得するステップと、 トレーニング・プロセスにおいて獲得されたパーソナラ
イズ化モデルにより、前記標準音声パラメータをパーソ
ナライズされた音声パラメータにマップするステップ
と、 前記パーソナライズ化音声パラメータにもとづき、前記
入力テキストに対応する前記音声を合成するステップと
を含む方法。 - 【請求項2】前記パーソナライズ化モデルを獲得するト
レーニング・プロセスが、 前記標準テキスト−音声分析プロセスを通じて、前記標
準音声パラメータを獲得するステップと、 前記パーソナライズ化音声の前記パーソナライズ化音声
パラメータを検出するステップと、 前記標準音声パラメータと前記パーソナライズ化音声パ
ラメータとの間の関係を表す前記パーソナライズ化モデ
ルを初期に生成するステップと、 前記パーソナライズ化音声パラメータを検出し、検出結
果にもとづき、前記パーソナライズ化モデルを調整する
プロセスを、前記パーソナライズ化モデルが安定するま
で繰り返すステップとを含む、請求項1記載の方法。 - 【請求項3】前記パーソナライズ化モデルが、ケプスト
ラム・パラメータに関連する音響レベルの前記パーソナ
ライズ化モデルを含む、請求項1または請求項2に記載
の方法。 - 【請求項4】高機能ベクトル定量化法により、前記ケプ
ストラム・パラメータに関連する音響レベルの前記パー
ソナライズ化モデルを生成する、請求項3記載の方法。 - 【請求項5】前記パーソナライズ化モデルが、超分節パ
ラメータに関連する韻律素レベルの前記パーソナライズ
化モデルを含む、請求項1または請求項2に記載の方
法。 - 【請求項6】決定樹により、前記超分節パラメータに関
連する韻律素レベルの前記パーソナライズ化モデルを生
成する、請求項5記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN01116305.4 | 2001-04-06 | ||
CNB011163054A CN1156819C (zh) | 2001-04-06 | 2001-04-06 | 由文本生成个性化语音的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002328695A true JP2002328695A (ja) | 2002-11-15 |
Family
ID=4662451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002085138A Pending JP2002328695A (ja) | 2001-04-06 | 2002-03-26 | テキストからパーソナライズ化音声を生成する方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20020173962A1 (ja) |
JP (1) | JP2002328695A (ja) |
CN (1) | CN1156819C (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100341018C (zh) * | 2003-01-23 | 2007-10-03 | 日产自动车株式会社 | 信息系统 |
JPWO2014061230A1 (ja) * | 2012-10-16 | 2016-09-05 | 日本電気株式会社 | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム |
JP2020076844A (ja) * | 2018-11-06 | 2020-05-21 | ヤマハ株式会社 | 音響処理方法および音響処理装置 |
Families Citing this family (145)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8768701B2 (en) * | 2003-01-24 | 2014-07-01 | Nuance Communications, Inc. | Prosodic mimic method and apparatus |
ATE404967T1 (de) * | 2003-12-16 | 2008-08-15 | Loquendo Spa | Text-zu-sprache-system und verfahren, computerprogramm dafür |
CN100362521C (zh) * | 2004-01-06 | 2008-01-16 | 秦国锋 | Gps动态精确定位智能自动报站终端 |
GB2412046A (en) * | 2004-03-11 | 2005-09-14 | Seiko Epson Corp | Semiconductor device having a TTS system to which is applied a voice parameter set |
ATE424022T1 (de) * | 2005-01-31 | 2009-03-15 | France Telecom | Verfahren zur schätzung einer sprachumsetzungsfunktion |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
EP2017832A4 (en) * | 2005-12-02 | 2009-10-21 | Asahi Chemical Ind | VOICE QUALITY CONVERSION SYSTEM |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
GB2443027B (en) * | 2006-10-19 | 2009-04-01 | Sony Comp Entertainment Europe | Apparatus and method of audio processing |
US8886537B2 (en) | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2008132533A1 (en) * | 2007-04-26 | 2008-11-06 | Nokia Corporation | Text-to-speech conversion method, apparatus and system |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8332225B2 (en) * | 2009-06-04 | 2012-12-11 | Microsoft Corporation | Techniques to create a custom voice font |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8682670B2 (en) * | 2011-07-07 | 2014-03-25 | International Business Machines Corporation | Statistical enhancement of speech output from a statistical text-to-speech synthesis system |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
CN102693729B (zh) * | 2012-05-15 | 2014-09-03 | 北京奥信通科技发展有限公司 | 个性化语音阅读方法、系统及具有该系统的终端 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN103856626A (zh) * | 2012-11-29 | 2014-06-11 | 北京千橡网景科技发展有限公司 | 个性声音的定制方法和装置 |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9824681B2 (en) * | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN105989832A (zh) * | 2015-02-10 | 2016-10-05 | 阿尔卡特朗讯 | 一种用于在计算机设备中生成个性化语音的方法和装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
CN105096934B (zh) * | 2015-06-30 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 构建语音特征库的方法、语音合成方法、装置及设备 |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN105206258B (zh) * | 2015-10-19 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105609096A (zh) * | 2015-12-30 | 2016-05-25 | 小米科技有限责任公司 | 文本数据输出方法和装置 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN106847256A (zh) * | 2016-12-27 | 2017-06-13 | 苏州帷幄投资管理有限公司 | 一种语音转化聊天方法 |
CN106920547B (zh) * | 2017-02-21 | 2021-11-02 | 腾讯科技(上海)有限公司 | 语音转换方法和装置 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109935225A (zh) * | 2017-12-15 | 2019-06-25 | 富泰华工业(深圳)有限公司 | 文字信息处理装置及方法、计算机存储介质及移动终端 |
CN108366302B (zh) * | 2018-02-06 | 2020-06-30 | 南京创维信息技术研究院有限公司 | Tts播报指令优化方法、智能电视、系统及存储装置 |
US11023470B2 (en) | 2018-11-14 | 2021-06-01 | International Business Machines Corporation | Voice response system for text presentation |
CN111369966A (zh) * | 2018-12-06 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 一种用于个性化语音合成的方法和装置 |
CN110289010B (zh) | 2019-06-17 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 一种声音采集的方法、装置、设备和计算机存储介质 |
CN111145721B (zh) * | 2019-12-12 | 2024-02-13 | 科大讯飞股份有限公司 | 个性化提示语生成方法、装置和设备 |
CN111192566B (zh) * | 2020-03-03 | 2022-06-24 | 云知声智能科技股份有限公司 | 英文语音合成方法及装置 |
CN112712798B (zh) * | 2020-12-23 | 2022-08-05 | 思必驰科技股份有限公司 | 私有化数据获取方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624012A (en) * | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US5063698A (en) * | 1987-09-08 | 1991-11-12 | Johnson Ellen B | Greeting card with electronic sound recording |
US5278943A (en) * | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
US5165008A (en) * | 1991-09-18 | 1992-11-17 | U S West Advanced Technologies, Inc. | Speech synthesis using perceptual linear prediction parameters |
US5502790A (en) * | 1991-12-24 | 1996-03-26 | Oki Electric Industry Co., Ltd. | Speech recognition method and system using triphones, diphones, and phonemes |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
US6035273A (en) * | 1996-06-26 | 2000-03-07 | Lucent Technologies, Inc. | Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes |
US6119086A (en) * | 1998-04-28 | 2000-09-12 | International Business Machines Corporation | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens |
US5974116A (en) * | 1998-07-02 | 1999-10-26 | Ultratec, Inc. | Personal interpreter |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
-
2001
- 2001-04-06 CN CNB011163054A patent/CN1156819C/zh not_active Expired - Fee Related
-
2002
- 2002-03-26 JP JP2002085138A patent/JP2002328695A/ja active Pending
- 2002-04-05 US US10/118,497 patent/US20020173962A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100341018C (zh) * | 2003-01-23 | 2007-10-03 | 日产自动车株式会社 | 信息系统 |
JPWO2014061230A1 (ja) * | 2012-10-16 | 2016-09-05 | 日本電気株式会社 | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム |
JP2020076844A (ja) * | 2018-11-06 | 2020-05-21 | ヤマハ株式会社 | 音響処理方法および音響処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20020173962A1 (en) | 2002-11-21 |
CN1379391A (zh) | 2002-11-13 |
CN1156819C (zh) | 2004-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002328695A (ja) | テキストからパーソナライズ化音声を生成する方法 | |
EP3895159B1 (en) | Multi-speaker neural text-to-speech synthesis | |
JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
US6535852B2 (en) | Training of text-to-speech systems | |
US5113449A (en) | Method and apparatus for altering voice characteristics of synthesized speech | |
US6970820B2 (en) | Voice personalization of speech synthesizer | |
CN1835074B (zh) | 一种结合高层描述信息和模型自适应的说话人转换方法 | |
JPH1091183A (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
JPH031200A (ja) | 規則型音声合成装置 | |
US20220157329A1 (en) | Method of converting voice feature of voice | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
US10643600B1 (en) | Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus | |
Al-Said et al. | An Arabic text-to-speech system based on artificial neural networks | |
CN111179902B (zh) | 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质 | |
JP2002014687A (ja) | 音声合成装置 | |
JPH01211799A (ja) | 多言語を扱う音声の規則合成装置 | |
JPS5949599A (ja) | 合成音声の音声特徴を変更する方法及び装置 | |
JP2674280B2 (ja) | 音声合成装置 | |
JP3967571B2 (ja) | 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム | |
Mani et al. | High-Quality Sound Conversion Method for Speaker Adaptation | |
JPH071434B2 (ja) | 標準パタン作成方式 | |
JP3133347B2 (ja) | 韻律制御装置 | |
Pan et al. | Comprehensive voice conversion analysis based on DGMM and feature combination | |
Zhou et al. | An improved algorithm of GMM voice conversion system based on changing the time-scale |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041026 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20050117 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20050120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050426 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050719 |