JP2002328695A - テキストからパーソナライズ化音声を生成する方法 - Google Patents

テキストからパーソナライズ化音声を生成する方法

Info

Publication number
JP2002328695A
JP2002328695A JP2002085138A JP2002085138A JP2002328695A JP 2002328695 A JP2002328695 A JP 2002328695A JP 2002085138 A JP2002085138 A JP 2002085138A JP 2002085138 A JP2002085138 A JP 2002085138A JP 2002328695 A JP2002328695 A JP 2002328695A
Authority
JP
Japan
Prior art keywords
personalized
speech
parameters
text
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002085138A
Other languages
English (en)
Inventor
Donald T Tang
ドナルド・ティ・タン
Ligin Shen
リジン・シェン
Qin Shi
キン・シ
Wei Zhang
ウェイ・ザン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002328695A publication Critical patent/JP2002328695A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 テキストから、パーソナライズされた音声を
生成する方法を提供すること。 【解決手段】 テキストからパーソナライズされた音声
を生成する方法が、入力テキストを分析し、標準テキス
ト−音声データベースから、合成される音声の標準パラ
メータを獲得するステップと、トレーニング・プロセス
において獲得されたパーソナライズ化モデルにより、標
準音声パラメータをパーソナライズされた音声パラメー
タにマップするステップと、パーソナライズ化音声パラ
メータにもとづき、入力テキストに対応する音声を合成
するステップとを含む。本方法は、対象となる人間の音
声をシミュレートし、TTSシステムにより生成される
音声を、より魅力的に且つパーソナライズ化するために
使用される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は一般にテキスト−音
声変換に関し、特に、テキストからパーソナライズされ
た(personalized)すなわち個別に設定された音声を生
成する方法に関する。
【0002】
【従来の技術】汎用TTS(テキスト−音声変換)シス
テムにより生成される音声は、一般に、感情を欠き単調
である。汎用TTSシステムでは、全ての音節または単
語の標準発音が最初に記録され、分析され、次に音節レ
ベルまたは単語レベルで、標準発音を表現する関連パラ
メータが辞書に記憶される。辞書内で定義される標準制
御パラメータ及びスムージング技術を通じて、成分音を
連結することにより、テキストに対応する音声が合成さ
れる。こうして合成された音声は非常に単調でパーソナ
ライズされない。
【0003】
【発明が解決しようとする課題】従って、本発明はテキ
ストからパーソナライズされた音声を生成する方法を提
供する。
【0004】
【課題を解決するための手段】本発明に従い、テキスト
からパーソナライズされた音声を生成する方法は、入力
テキストを分析し、標準テキスト−音声データベースか
ら、標準音声パラメータを獲得するステップと、トレー
ニング・プロセスにおいて獲得されたパーソナライズ化
モデルにより、標準音声パラメータをパーソナライズさ
れた音声パラメータにマップするステップと、パーソナ
ライズ化音声パラメータにもとづき、入力テキストに対
応する音声を合成するステップとを含む。
【0005】
【発明の実施の形態】図1に示されるように、汎用TT
Sシステムにおいて、テキストから音声を生成するため
に、一般には次のステップ、すなわち、最初に入力テキ
ストを分析し、標準テキスト−音声データベースから標
準発音の関連パラメータを獲得するステップと、第2に
合成及びスムージング技術により、成分音を連結し、音
声を合成するステップとが実行される。こうして合成さ
れた音声は非常に単調で、パーソナライズされない。
【0006】従って、本発明はテキストからパーソナラ
イズされた音声を生成する方法を提供する。
【0007】図2に示されるように、本発明に従い、テ
キストからパーソナライズされた音声を生成する方法
は、最初に入力テキストを分析し、標準音声パラメータ
を獲得するステップと、第2にトレーニング・プロセス
において獲得されたパーソナライズ化モデルにより、標
準音声パラメータをパーソナライズされた音声パラメー
タに変換するステップと、最後にパーソナライズ化音声
パラメータにもとづき、音声を合成するステップとを含
む。
【0008】次に図3を参照して、パーソナライズ化モ
デルを生成するプロセスについて述べる。まず最初に、
パーソナライズ化モデルを獲得するために、標準TTS
分析プロセスにより、標準音声パラメータVgeneralが
獲得される。同時に、パーソナライズ化音声が検出さ
れ、その音声パラメータVpersonalizedが獲得され、標
準音声パラメータとパーソナライズ化音声パラメータと
の間の関係を表すパーソナライズ化モデルが最初に生成
される。すなわち、
【数1】Vpersonalized=F[Vgeneral]
【0009】安定したF[*]を獲得するために、安定
化されたパーソナライズ化モデルが獲得されるまで、パ
ーソナライズ化音声パラメータVpersonalizedを検出す
るプロセスが複数回繰り返され、パラメータ・パーソナ
ライズ化モデルF[*]が検出結果に従い調整される。
検出において、2つの隣接結果が|Fi[*]−Fi+1
[*]|<δを満足する場合、F[*]は安定とみなされ
る。本発明の好適な実施例によれば、本発明は、標準音
声パラメータVgeneralとパーソナライズ化音声パラメ
ータVpersonalizedとの間の関係を表すパーソナライズ
化モデルF[*]を、以下の2つのレベルにおいて達成
する。すなわち、 レベル1:ケプストラム・パラメータ関連音響レベル レベル2:超分節パラメータ関連韻律素レベル。異なる
トレーニング方法が異なるレベルに対して使用される。
【0010】レベル1:ケプストラム・パラメータ関連
音響レベル:音声認識技術により、音声ケプストラム・
パラメータ・シーケンスが獲得される。同一テキストに
対する2人の人間の音声が与えられると、各人のケプス
トラム・パラメータ・シーケンスだけでなく、フレーム
・レベルでの2つのケプストラム・パラメータ・シーケ
ンスの間の関係が獲得される。従って、それらの間の差
がフレーム毎に比較され、それらの差がモデル化され、
音声レベルでのケプストラム・パラメータ関連変換関数
F[*]が獲得される。
【0011】このモデルでは、ケプストラム・パラメー
タの2つのセットが定義される。一方は標準TTSシス
テムから定義され、他はシミュレート対象の人間の音声
から定義される。図4に示される高機能VQ(ベクトル
定量化)法を用いて、ケプストラム・パラメータの2つ
のセット間のマッピングが生成される。最初に、標準T
TSでの音声ケプストラム・パラメータが初期にガウス
・クラスタ化され、ベクトルが定量化されて、G1、G2
が達成される。第2に、シミュレートされる音声の初期
ガウス・クラスタ化結果が、フレーム毎のケプストラム
・パラメータ・シーケンスの2つのセット間の厳密なマ
ッピングと、標準TTSにおける音声ケプストラム・パ
ラメータの初期ガウス・クラスタ化結果とから獲得され
る。各G'iのより正確なモデルを獲得するために、ガウ
ス・クラスタ化が実行され、G'1.1,G'1.2,G'2.1,
G'2.2,..が獲得される。その後、ガウス(gaussia
n)間の1対1のマッピングが獲得され、F[*]が次の
ように定義される。すなわち、
【数2】
【0012】前記式において、MGi,j、DGi,jは、Gi,
jの平均値及び偏差をそれぞれ表し、MG'i,j、DG'i,j
は、G'i,jの平均値及び偏差をそれぞれ表す。
【0013】レベル2:超分節パラメータ関連韻律素レ
ベル:周知のように、韻律素パラメータがコンテキスト
に関連付けられる。コンテキスト情報は、子音、アクセ
ント、意義素、構文及び意味構造などを含む。コンテキ
スト情報間の関係を決定するために、ここでは決定樹を
用いて、韻律素レベルの変換機構F[*]をモデル化す
る。
【0014】韻律素パラメータは、基本周波数値、期間
値及び音量値を含む。各音節に対して、韻律素ベクトル
が次のように定義される。すなわち、 基本周波数値:音節全体に分布される10ポイントでの
全ての基本周波数値 持続時間:バースト部分、安定部分及び遷移部分でのそ
れぞれの持続期間を含む3つの値 音量値:正面及び背面の音量値を含む2つの値
【0015】15次元を有するベクトルが、音節の韻律
素を表現するために使用される。
【0016】韻律素ベクトルがガウス分布であると仮定
すると、標準TTSシステムの音声韻律素ベクトルをク
ラスタ化するために、汎用決定樹アルゴリズムを使用で
きる。従って、図5に示される決定樹(D.T.)及び
ガウス値G1、G2、G3が獲得される。
【0017】テキストが入力され、音声がシミュレート
されるとき、テキストが最初に分析されて、コンテキス
ト情報が獲得され、次にコンテキスト情報が決定樹D.
T.に入力され、ガウス値G'1,G'2,G'3,..の別
のセットが獲得される。
【0018】ガウスG1,G2,G3,..及びG'1,G'
2,G'3,..は、1対1マッピングと仮定され、次の
マッピング関数が与えられる。
【数3】
【0019】前記式において、MGi,j、DGi,jは、Gi,
jの平均値及び偏差をそれぞれ表し、MG'i,j、DG'i,j
は、G'i,jの平均値及び偏差をそれぞれ表す。
【0020】前述の説明において、テキストからパーソ
ナライズ化音声を生成する方法が、図1乃至図5と共に
述べられている。ここでの主な問題は、固有ベクトルか
らリアルタイムに、子音の類推信号を合成することであ
る。これはディジタル文字を抽出するプロセスの逆であ
る(逆フーリエ変換に類似する)。こうしたプロセスは
非常に複雑であるが、例えばIBMにより発明されたケ
プストラム・パラメータから音声を復元する技術など
の、現在使用可能な特殊アルゴリズムにより実現され
る。
【0021】一般に、パーソナライズ化音声はリアルタ
イム変換アルゴリズムにより生成されるが、完全なパー
ソナライズ化TTSデータベースが、特定の目的のため
に準備されてもよい。類推音声成分音の変換及び生成
は、TTSシステムにおいてパーソナライズ化音声を生
成する最終ステップにおいて完了されるので、本発明の
方法は汎用TTSシステムには影響を及ぼさない。
【0022】以上、特定の実施例により、本発明におい
て、テキストからパーソナライズ化音声を生成する方法
について述べてきた。当業者であれば、本発明の多くの
変更及び変形が、本発明の趣旨及び範囲から逸れること
なく可能であることが理解できよう。従って、本発明は
これら全ての変更及び変形についても包含するものであ
る。
【0023】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0024】(1)テキストからパーソナライズされた
音声を生成する方法であって、前記入力テキストを分析
し、標準テキスト−音声データベースから、合成される
前記音声の標準パラメータを獲得するステップと、トレ
ーニング・プロセスにおいて獲得されたパーソナライズ
化モデルにより、前記標準音声パラメータをパーソナラ
イズされた音声パラメータにマップするステップと、前
記パーソナライズ化音声パラメータにもとづき、前記入
力テキストに対応する前記音声を合成するステップとを
含む方法。 (2)前記パーソナライズ化モデルを獲得するトレーニ
ング・プロセスが、前記標準テキスト−音声分析プロセ
スを通じて、前記標準音声パラメータを獲得するステッ
プと、前記パーソナライズ化音声の前記パーソナライズ
化音声パラメータを検出するステップと、前記標準音声
パラメータと前記パーソナライズ化音声パラメータとの
間の関係を表す前記パーソナライズ化モデルを初期に生
成するステップと、前記パーソナライズ化音声パラメー
タを検出し、検出結果にもとづき、前記パーソナライズ
化モデルを調整するプロセスを、前記パーソナライズ化
モデルが安定するまで繰り返すステップとを含む、前記
(1)記載の方法。 (3)前記パーソナライズ化モデルが、ケプストラム・
パラメータに関連する音響レベルの前記パーソナライズ
化モデルを含む、前記(1)または(2)に記載の方
法。 (4)高機能ベクトル定量化法により、前記ケプストラ
ム・パラメータに関連する音響レベルの前記パーソナラ
イズ化モデルを生成する、前記(3)記載の方法。 (5)前記パーソナライズ化モデルが、超分節パラメー
タに関連する韻律素レベルの前記パーソナライズ化モデ
ルを含む、前記(1)または(2)に記載の方法。 (6)決定樹により、前記超分節パラメータに関連する
韻律素レベルの前記パーソナライズ化モデルを生成す
る、前記(5)記載の方法。
【図面の簡単な説明】
【図1】従来のTTSシステムにおいて、テキストから
音声を生成するプロセスを示す。
【図2】本発明に従い、テキストからパーソナライズさ
れた音声を生成するプロセスを示す。
【図3】本発明の好適な実施例に従い、テキストからパ
ーソナライズ化モデルを生成するプロセスを示す。
【図4】パーソナライズ化モデルを獲得するための、ケ
プストラム・パラメータの2つのセット間のマッピング
・プロセスを示す。
【図5】韻律素モデルで使用される決定樹を示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ドナルド・ティ・タン アメリカ合衆国10549、ニューヨーク州マ ウント・キスコ、フォックス・デン・ロー ド 49 (72)発明者 リジン・シェン 中華人民共和国100096、ペキン、キサン キ、キンカンユアン・キアオーク 5−10 −09 (72)発明者 キン・シ 中華人民共和国100085、ペキン、ハイダン 区、ジュアン・シャンディ 2−401、ナ ンバー 13 (72)発明者 ウェイ・ザン 中華人民共和国100086、ペキン、ハイダン 区、ファンフイ・ユアン・イヘ・シャング ザング ビルディング 25、ルーム 442 Fターム(参考) 5D045 AA07

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】テキストからパーソナライズされた音声を
    生成する方法であって、 前記入力テキストを分析し、標準テキスト−音声データ
    ベースから、合成される前記音声の標準パラメータを獲
    得するステップと、 トレーニング・プロセスにおいて獲得されたパーソナラ
    イズ化モデルにより、前記標準音声パラメータをパーソ
    ナライズされた音声パラメータにマップするステップ
    と、 前記パーソナライズ化音声パラメータにもとづき、前記
    入力テキストに対応する前記音声を合成するステップと
    を含む方法。
  2. 【請求項2】前記パーソナライズ化モデルを獲得するト
    レーニング・プロセスが、 前記標準テキスト−音声分析プロセスを通じて、前記標
    準音声パラメータを獲得するステップと、 前記パーソナライズ化音声の前記パーソナライズ化音声
    パラメータを検出するステップと、 前記標準音声パラメータと前記パーソナライズ化音声パ
    ラメータとの間の関係を表す前記パーソナライズ化モデ
    ルを初期に生成するステップと、 前記パーソナライズ化音声パラメータを検出し、検出結
    果にもとづき、前記パーソナライズ化モデルを調整する
    プロセスを、前記パーソナライズ化モデルが安定するま
    で繰り返すステップとを含む、請求項1記載の方法。
  3. 【請求項3】前記パーソナライズ化モデルが、ケプスト
    ラム・パラメータに関連する音響レベルの前記パーソナ
    ライズ化モデルを含む、請求項1または請求項2に記載
    の方法。
  4. 【請求項4】高機能ベクトル定量化法により、前記ケプ
    ストラム・パラメータに関連する音響レベルの前記パー
    ソナライズ化モデルを生成する、請求項3記載の方法。
  5. 【請求項5】前記パーソナライズ化モデルが、超分節パ
    ラメータに関連する韻律素レベルの前記パーソナライズ
    化モデルを含む、請求項1または請求項2に記載の方
    法。
  6. 【請求項6】決定樹により、前記超分節パラメータに関
    連する韻律素レベルの前記パーソナライズ化モデルを生
    成する、請求項5記載の方法。
JP2002085138A 2001-04-06 2002-03-26 テキストからパーソナライズ化音声を生成する方法 Pending JP2002328695A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN01116305.4 2001-04-06
CNB011163054A CN1156819C (zh) 2001-04-06 2001-04-06 由文本生成个性化语音的方法

Publications (1)

Publication Number Publication Date
JP2002328695A true JP2002328695A (ja) 2002-11-15

Family

ID=4662451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002085138A Pending JP2002328695A (ja) 2001-04-06 2002-03-26 テキストからパーソナライズ化音声を生成する方法

Country Status (3)

Country Link
US (1) US20020173962A1 (ja)
JP (1) JP2002328695A (ja)
CN (1) CN1156819C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100341018C (zh) * 2003-01-23 2007-10-03 日产自动车株式会社 信息系统
JPWO2014061230A1 (ja) * 2012-10-16 2016-09-05 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP2020076844A (ja) * 2018-11-06 2020-05-21 ヤマハ株式会社 音響処理方法および音響処理装置

Families Citing this family (145)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
ATE404967T1 (de) * 2003-12-16 2008-08-15 Loquendo Spa Text-zu-sprache-system und verfahren, computerprogramm dafür
CN100362521C (zh) * 2004-01-06 2008-01-16 秦国锋 Gps动态精确定位智能自动报站终端
GB2412046A (en) * 2004-03-11 2005-09-14 Seiko Epson Corp Semiconductor device having a TTS system to which is applied a voice parameter set
ATE424022T1 (de) * 2005-01-31 2009-03-15 France Telecom Verfahren zur schätzung einer sprachumsetzungsfunktion
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP2017832A4 (en) * 2005-12-02 2009-10-21 Asahi Chemical Ind VOICE QUALITY CONVERSION SYSTEM
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
US8886537B2 (en) 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8682670B2 (en) * 2011-07-07 2014-03-25 International Business Machines Corporation Statistical enhancement of speech output from a statistical text-to-speech synthesis system
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
CN102693729B (zh) * 2012-05-15 2014-09-03 北京奥信通科技发展有限公司 个性化语音阅读方法、系统及具有该系统的终端
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN103856626A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 个性声音的定制方法和装置
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105989832A (zh) * 2015-02-10 2016-10-05 阿尔卡特朗讯 一种用于在计算机设备中生成个性化语音的方法和装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105609096A (zh) * 2015-12-30 2016-05-25 小米科技有限责任公司 文本数据输出方法和装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN106847256A (zh) * 2016-12-27 2017-06-13 苏州帷幄投资管理有限公司 一种语音转化聊天方法
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109935225A (zh) * 2017-12-15 2019-06-25 富泰华工业(深圳)有限公司 文字信息处理装置及方法、计算机存储介质及移动终端
CN108366302B (zh) * 2018-02-06 2020-06-30 南京创维信息技术研究院有限公司 Tts播报指令优化方法、智能电视、系统及存储装置
US11023470B2 (en) 2018-11-14 2021-06-01 International Business Machines Corporation Voice response system for text presentation
CN111369966A (zh) * 2018-12-06 2020-07-03 阿里巴巴集团控股有限公司 一种用于个性化语音合成的方法和装置
CN110289010B (zh) 2019-06-17 2020-10-30 百度在线网络技术(北京)有限公司 一种声音采集的方法、装置、设备和计算机存储介质
CN111145721B (zh) * 2019-12-12 2024-02-13 科大讯飞股份有限公司 个性化提示语生成方法、装置和设备
CN111192566B (zh) * 2020-03-03 2022-06-24 云知声智能科技股份有限公司 英文语音合成方法及装置
CN112712798B (zh) * 2020-12-23 2022-08-05 思必驰科技股份有限公司 私有化数据获取方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US5063698A (en) * 1987-09-08 1991-11-12 Johnson Ellen B Greeting card with electronic sound recording
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
US6035273A (en) * 1996-06-26 2000-03-07 Lucent Technologies, Inc. Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes
US6119086A (en) * 1998-04-28 2000-09-12 International Business Machines Corporation Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
US5974116A (en) * 1998-07-02 1999-10-26 Ultratec, Inc. Personal interpreter
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100341018C (zh) * 2003-01-23 2007-10-03 日产自动车株式会社 信息系统
JPWO2014061230A1 (ja) * 2012-10-16 2016-09-05 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP2020076844A (ja) * 2018-11-06 2020-05-21 ヤマハ株式会社 音響処理方法および音響処理装置

Also Published As

Publication number Publication date
US20020173962A1 (en) 2002-11-21
CN1379391A (zh) 2002-11-13
CN1156819C (zh) 2004-07-07

Similar Documents

Publication Publication Date Title
JP2002328695A (ja) テキストからパーソナライズ化音声を生成する方法
EP3895159B1 (en) Multi-speaker neural text-to-speech synthesis
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
US6535852B2 (en) Training of text-to-speech systems
US5113449A (en) Method and apparatus for altering voice characteristics of synthesized speech
US6970820B2 (en) Voice personalization of speech synthesizer
CN1835074B (zh) 一种结合高层描述信息和模型自适应的说话人转换方法
JPH1091183A (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
JPH031200A (ja) 規則型音声合成装置
US20220157329A1 (en) Method of converting voice feature of voice
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2898568B2 (ja) 声質変換音声合成装置
US10643600B1 (en) Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus
Al-Said et al. An Arabic text-to-speech system based on artificial neural networks
CN111179902B (zh) 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质
JP2002014687A (ja) 音声合成装置
JPH01211799A (ja) 多言語を扱う音声の規則合成装置
JPS5949599A (ja) 合成音声の音声特徴を変更する方法及び装置
JP2674280B2 (ja) 音声合成装置
JP3967571B2 (ja) 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム
Mani et al. High-Quality Sound Conversion Method for Speaker Adaptation
JPH071434B2 (ja) 標準パタン作成方式
JP3133347B2 (ja) 韻律制御装置
Pan et al. Comprehensive voice conversion analysis based on DGMM and feature combination
Zhou et al. An improved algorithm of GMM voice conversion system based on changing the time-scale

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041026

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050117

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050719