JP2002539483A - 音声信号の特徴記述子を求める方法 - Google Patents

音声信号の特徴記述子を求める方法

Info

Publication number
JP2002539483A
JP2002539483A JP2000604404A JP2000604404A JP2002539483A JP 2002539483 A JP2002539483 A JP 2002539483A JP 2000604404 A JP2000604404 A JP 2000604404A JP 2000604404 A JP2000604404 A JP 2000604404A JP 2002539483 A JP2002539483 A JP 2002539483A
Authority
JP
Japan
Prior art keywords
speech
model
time pattern
training
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000604404A
Other languages
English (en)
Inventor
ホルツアプフェル マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2002539483A publication Critical patent/JP2002539483A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 音声信号の特徴記述子を求める方法において、第1の時間パターンで第1の音声モデルをトレーニングし、第2の時間パターンで第2の時間モデルをトレーニングし、第2の音声モデルを第1の音声モデルによってイニシャライズする。

Description

【発明の詳細な説明】
【0001】 本発明は音声信号の特徴記述子を求める方法および装置に関する。
【0002】 この種の方法および装置は文献[1]から知られる。この文献では時間離散的
なシーケンスの特徴ベクトルが音声信号から抽出される。これは a)音声のディジタル表現 b)データ量の低減 c)表明内容(発話された音声および言葉)を識別する助けとなる変動性の強調 d)話者、発話形式、環境影響、および音響的伝達特性ないし電気的伝達特性を
表す変動性の溶暗 などを目的として行われる。
【0003】 一般に適用領域に関連するパターンクラスの特徴ベクトルが特徴空間の領域を
なるべくコンパクトに占有し、種々のパターンクラスの領域をできる限り相互に
シャープに分離可能でなければならない。特徴獲得のための公知の技術は、主と
してディジタル信号処理法(特に行列展開)と音声生成または音声受容に対する
関数モデルとの組み合わせに基づく。
【0004】
【外1】
【0005】 音波は非定常的な信号であり、そのスペクトル特性は音声ごとに変化している
。音素内でさえアーティキュレーション法則のダイナミクスにより音声構造の連
続的な変化(2重母音)および急激な変化(破裂音および破擦音)が生じる。き
わめて短い時間区間、例えば5ms〜30msの間だけしか音声信号をほぼ定常
的であると見なすことはできない。
【0006】 音声信号の短時間の特徴はサンプリング時点mごとに計算しなくてもよい。音
声信号の25msのオーダのウィンドウ区間は10msのステップ時間で音声信
号により運動される。10msの時点ごとに特徴ベクトルが発生する。10ms
の時点でデータウィンドウ(25ms)の値のスペクトル特性および周期特性が
解析され、特徴ベクトルのかたちで記憶される。
【0007】 さらに音声のモデリングのための隠れマルコフモデルHMMが文献[2]から
知られる。語を音声的に生成する際には可変の持続時間と種々のスペクトル組成
とを有する連続的な音声が実現される。発話テンポおよび発話リズムに依存して
、発音における個々の音素セグメントのうち予測不能な数の特徴ベクトルが欠落
してしまう。各ベクトルは音素内容のほかに、話者、環境、および不明瞭な発音
に起因する情報成分を有しており、これらは音声による識別を著しく困難にする
【0008】 この状態は簡単に2段階のプロセスによってモデリングされ、これについては
図1の語“haben”についての実施例で示されている。この語の音素につい
てはモデル内に相応の数のステータス102〜106が保存され、これらのステ
ータスが音声生成のために矢印方向101に沿って経過する。それぞれのタイミ
ングクロックではその時点でのステータスにとどまるか、または次のステータス
へ移行することができる。システムは統計的に動作し、図示の移行の確率107
〜111によって定められる。例えば音素/a/に属するステータス103には
複数(平均で10個以上)の連続する短時間解析インターバルを越える時間がか
かり、これに対して破裂音/b/の実現は僅かな時間で応答される。
【0009】 前述のランダムプロセスの第1段階では種々の発音バリエーションの時間的な
歪みがモデリングされ、第2段階ではスペクトルバリエーションが検出される。
語のモデルの各ステータスには統計的な出力関数が結びついており、この出力関
数では音素の実現選択肢が重みづけされている。図1の実施例では音素/a/の
生成に対して本来該当する音声のクラス113のほかに、正の確率(ここでは0
.1)を有する音声のクラス114も許容される。同様に音素/n/の生成につ
いては確率0.3の音声のクラス118も許容される。また前述の形式によれば
付加的な音声の消去の記述子も得られる。これはステータス105の“ブリッジ
”すなわちステータス104とステータス106との間の直接の移行により表さ
れている。このブリッジは例えば確率0.2で行われる。
【0010】 隠れマルコフモデルの移行確率はトレーニングデータに基づいて求められる。
完全にトレーニングされた隠れマルコフモデルHMMは音声シーケンスの生成プ
ロトコルとなる(文献[2]127頁〜139頁を参照)。隠れマルコフモデルHMM
のトレーニング法としてBaum-Welchアルゴリズムを使用することが挙げられる。
【0011】 ここでトレーニングされた隠れマルコフモデルHMMが音声認識すなわち自然
言語による表現とモデルとの比較にも、音声合成すなわちトレーニングデータに
基づく音声の生成にも使用可能であることを指摘しておく。
【0012】 冒頭で言及した10ms区間は特に音声合成に対する特徴ベクトルには充分で
ない。ただしこれ以上微細な時間分割を行うと、周知の機構では隠れマルコフモ
デルHMMのトレーニングの収束に欠陥が生じる。
【0013】 本発明の課題は、音声信号の特徴記述子を獲得して高いサンプリングレートで
記述力の高い特徴を得ることである。
【0014】 この課題は独立請求項に記載の特徴により解決される。本発明の他の実施形態
は従属請求項から得られる。
【0015】 この課題は音声信号の特徴記述子を求める方法において、第1の時間パターン
で第1の音声モデルをトレーニングし、第2の時間パターンで第2の音声モデル
をトレーニングし、第2の音声モデルを第1の音声モデルでイニシャライズする
ことにより解決される。
【0016】 別の実施形態では第2の時間パターンが第1の時間パターンよりも小さい。
【0017】 第1の音声モデルから得られた知識を用いたイニシャライズにより第2の音声
モデルはきわめて小さな第2の時間パターンに対しても収束し、これにより相応
の高分解能の音声信号の情報が供給される。音声合成ではまさにこの情報が必要
である。なぜなら合成すべき音の間の移行は高い時間分解能で精確にモデリング
することが困難だからである。
【0018】 一般に時間パターンはここでは音声信号のサンプリングが行われる反復レート
、または(冒頭で25ms幅とした)時間ウィンドウがシフトされる反復レート
であると解されたい。
【0019】 別の実施形態では第2の音声モデルが第1の音声モデルのセグメント境界(Se
gmentgrenze)でイニシャライズされる。第1の音声モデル、有利には隠れマル
コフモデルHMMのトレーニングに関して、例えば音声/a/で可能な複数の代
理候補(Repraesentant)が見出される。これらの代理候補は音声/a/に対し
て第1の粗いセグメンテーションを設定する。この音声は第2の音声モデルに対
して基礎として利用され、第2の時間パターンにより精確な時間分解能で第1の
音声モデルを用いて見出された音声/a/の代理候補の精確な判別が可能となる
。新たなトレーニングが収束し、さらに第1の音声モデルと比べて一段と改善さ
れた音声の判別性ないし記述性が保証される。
【0020】 別の実施形態では音声モデルは隠れマルコフモデルHMMであり、特に第2の
音声モデルのイニシャライズのためのセグメント境界は隠れマルコフモデルHM
Mのトレーニングの結果である。
【0021】 別の実施形態では特徴記述子は特徴ベクトルである。
【0022】 別の実施形態では第1の時間パターンは4ms〜10msの範囲である。相応
に第2の時間パターンは0ms〜6msの範囲よりも大きい。
【0023】 更なる実施形態では、前述の方法を音声処理、特に音声合成に使用する。
【0024】 音声合成に関して、重要なタスクは適切な音声の境界を包括的なトレーニング
材料(発話されたテキスト)から求める(“切り出す”)ことである。その際に
種々の音声、すなわち音素、ダイフォン、トライフォン、ハーフシラブル、シラ
ブル、語、結合語などが考慮される。特に個々の音声はコンテクストに照らして
切り出さなければならない。その際に左方コンテクストと右方コンテクストとは
区別しやすく、それぞれそれ自体で音声に結合されているか、または種々の長さ
のコンビネーションで音声に結合されている。このことの例(語のコンテクスト
)には次のようなものがある。“Verfahren zur Ermittlung einer Merkmalbesc
hreibung eines Sprachsignals”のなかの語“Ermittlung”を観察してみよう。
長さ1の右方コンテクストは語“einer”を含んでおり、相応に長さ1の左方コ
ンテクストは語“zur”を含んでいる。相応に種々の長さの別のコンテクストを
考慮することができる。
【0025】 音声単位の長さと考慮すべきそれぞれのコンテクストとに相応して、セグメン
テーションの際には音声の間の境界を精確に検出することが重要となる。
【0026】 また前述の課題は本発明の音声信号の特徴記述子を求める装置により解決され
る。この装置にはプロセッサユニットが設けられており、このプロセッサユニッ
トは第1の時間パターンで第1の音声信号をトレーニング可能であり、第2の時
間パターンで第2の音声モデルをトレーニング可能であり、第2の音声モデルは
第1の音声モデルによってイニシャライズされるように構成されていることを特
徴とする。
【0027】 この装置は特に、本発明の方法または前述の実施形態を実施するのに適してい
る。
【0028】 本発明の実施例を以下に図に即して説明する。図1には隠れマルコフモデルH
MMを用いた音声モデルの概略図が示されている。図2には音声信号の特徴記述
子を求める方法のブロック図が示されている。図3には所定の時間にわたる音声
信号の特徴抽出ないしセグメンテーションの様子が示されている。図4にはプロ
セッサユニットが示されている。
【0029】 図2には音声信号の特徴記述子を求める方法の動作の様子を表すブロック図が
示されている。ステップ201では第1の音声モデルが所定の第1の時間パター
ンt1にわたってトレーニングされる。この場合自然言語テキストのトレーニン
グ材料が隠れマルコフモデルのトレーニングに使用され、各サンプリング時点(
特にt1=6ms)で特徴ベクトルが音声信号から求められ、隠れマルコフモデ
ルHMMのトレーニングに使用される。隠れマルコフモデルHMMのトレーニン
グが終了した後、第1の音声モデル202が発生する。この音声モデル202に
基づいて音声を識別可能であり、そのセグメント境界(すなわち第1の音声モデ
ル内で求められた音声信号区間)を第2の隠れマルコフモデルHMMのトレーニ
ングに対するイニシャライゼーションとして利用できる。第2の音声モデルに基
づいて第2の時間パターンt2が生じ、ここでt2<t1(特にt2=2ms)
が成り立つ。第1のトレーニングから識別された区間による第2の隠れマルコフ
モデルHMMのトレーニングをイニシャライズすることにより第2の音声モデル
204も収束し、これにより音声モデル204は格段に高い時間分解能で形成さ
れる。したがって高い分解能を維持しつつ有意義なトレーニングが行われること
が保証される。
【0030】 図3には音声信号301が時間tに関して示されている。音声信号は"Heute i
st schoenes Fruehlingswetter"というセンテンスである。音声信号の経過に基
づいて発音境界のセグメンテーションがあまり細かくないことがわかる。短い区
間(音声の移行を表す区間)の記述情報を抽出することにより、特に自動的な抽
出が可能となる。図3にはさらに特徴ベクトル(図2を参照)内に収容されてい
る情報から取り出し可能なエネルギ特性302が示されている。
【0031】 図4にはプロセッサユニットPRZEが示されている。プロセッサユニットP
RZEはプロセッサCPU、メモリSPE、入出力インタフェースIOSを有し
ており、このユニットはインタフェースIFCを介して種々に利用される。グラ
フィックインタフェースを介して出力はモニタMONで可視に出力されるか、お
よび/またはプリンタPRTへ出力される。入力はマウスMASまたはキーボー
ドTASTを介して行われる。またプロセッサユニットPRZEにはデータバス
BUSが設けられており、このバスはメモリMEM、プロセッサCPUおよび入
出力インタフェースIOSの接続を保証している。さらにデータバスBUSへは
付加的なコンポーネント、例えば付加的なメモリ、データメモリ(ハードディス
ク)またはスキャナを接続することができる。
【0032】 参照文献リスト [1]E.G.Schukat-Talamazzini, "Automatische Spracherkennung-Grundlagen,
statistische Modelle und effiziente Algorithmen", Vieweg&Sohn Verlagsge
sellschaft mbH, Braunschweig/Wiesbaden 1995 p.45-74 [2]E.G.Schukat-Talamazzini, "Automatische Spracherkennung-Grundlagen,
statistische Modelle und effiziente Algorithmen", Vieweg&Sohn Verlagsge
sellschaft mbH, Braunschweig/Wiesbaden 1995 p.125-139
【図面の簡単な説明】
【図1】 隠れマルコフモデルHMMを用いた音声モデルの概略図である。
【図2】 音声信号の特徴記述子を求める方法のブロック図である。
【図3】 所定の時間にわたる音声信号の特徴抽出ないしセグメンテーションを示す図で
ある。
【図4】 プロセッサユニットを示す図である。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 a)第1の時間パターンで第1の音声モデルをトレーニング
    し、 b)第2の時間パターンで第2の音声モデルをトレーニングし、第2の音声モデ
    ルを第1の音声モデルでイニシャライズする、 ことを特徴とする音声信号の特徴記述子を求める方法。
  2. 【請求項2】 第2の時間パターンは第1の時間パターンよりも小さい、請
    求項1記載の方法。
  3. 【請求項3】 第2の音声モデルを第1の音声モデルのセグメント境界でイ
    ニシャライズする、請求項1または2記載の方法。
  4. 【請求項4】 音声モデルは隠れマルコフモデルである、請求項1から3ま
    でのいずれか1項記載の方法。
  5. 【請求項5】 隠れマルコフモデルをトレーニングすることによりセグメン
    ト境界を求める、請求項4記載の方法。
  6. 【請求項6】 特徴記述子は特徴ベクトルである、請求項1から5までのい
    ずれか1項記載の方法。
  7. 【請求項7】 第1の時間パターンは4ms〜10msの範囲である、請求
    項1から6までのいずれか1項記載の方法。
  8. 【請求項8】 第2の時間パターンは0ms〜6msの範囲よりも大きい、
    請求項1から7までのいずれか1項記載の方法。
  9. 【請求項9】 音声処理システムに使用することを特徴とする請求項1から
    8までのいずれか1項記載の音声信号の特徴記述子を求める方法。
  10. 【請求項10】 音声合成システムに使用することを特徴とする請求項1か
    ら8までのいずれか1項記載の音声信号の特徴記述子を求める方法。
  11. 【請求項11】 プロセッサユニットが設けられており、該プロセッサユニ
    ットは a)第1の時間パターンで第1の音声信号をトレーニング可能であり、 b)第2の時間パターンで第2の音声モデルをトレーニング可能であり、第2の
    音声モデルは第1の音声モデルによってイニシャライズされる ように構成されている、 ことを特徴とする音声信号の特徴記述子を求める装置。
JP2000604404A 1999-03-08 2000-03-01 音声信号の特徴記述子を求める方法 Pending JP2002539483A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19910038 1999-03-08
DE19910038.1 1999-03-08
PCT/DE2000/000597 WO2000054256A1 (de) 1999-03-08 2000-03-01 Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals

Publications (1)

Publication Number Publication Date
JP2002539483A true JP2002539483A (ja) 2002-11-19

Family

ID=7900039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000604404A Pending JP2002539483A (ja) 1999-03-08 2000-03-01 音声信号の特徴記述子を求める方法

Country Status (5)

Country Link
US (1) US6523005B2 (ja)
EP (1) EP1159734B1 (ja)
JP (1) JP2002539483A (ja)
DE (1) DE50006493D1 (ja)
WO (1) WO2000054256A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176132A (ja) * 2007-01-19 2008-07-31 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Families Citing this family (121)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
US8321427B2 (en) * 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
TWI224771B (en) * 2003-04-10 2004-12-01 Delta Electronics Inc Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110689902B (zh) * 2019-12-11 2020-07-14 北京影谱科技股份有限公司 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质
CN111402867B (zh) * 2020-04-21 2021-01-22 北京字节跳动网络技术有限公司 混合采样率声学模型训练方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754978A (en) 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
DE19706516C1 (de) 1997-02-19 1998-01-15 Fraunhofer Ges Forschung Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen
US6272463B1 (en) * 1998-03-03 2001-08-07 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176132A (ja) * 2007-01-19 2008-07-31 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム

Also Published As

Publication number Publication date
US20020035469A1 (en) 2002-03-21
US6523005B2 (en) 2003-02-18
EP1159734A1 (de) 2001-12-05
EP1159734B1 (de) 2004-05-19
DE50006493D1 (de) 2004-06-24
WO2000054256A1 (de) 2000-09-14

Similar Documents

Publication Publication Date Title
JP2002539483A (ja) 音声信号の特徴記述子を求める方法
JP7445267B2 (ja) 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
WO2020118521A1 (en) Multi-speaker neural text-to-speech synthesis
US5682501A (en) Speech synthesis system
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
Rashad et al. An overview of text-to-speech synthesis techniques
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2001265375A (ja) 規則音声合成装置
Hatala Practical speech recognition with htk
Mullah A comparative study of different text-to-speech synthesis techniques
Hatala Speech recognition for Indonesian language and its application to home automation
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Sharma et al. Recurrent neural network based approach to recognize assamese vowels using experimentally derived acoustic-phonetic features
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
Huckvale 14 An Introduction to Phonetic Technology
JP2018041116A (ja) 音声合成装置、音声合成方法およびプログラム
Balyan et al. Development and implementation of Hindi TTS
Javidan et al. Concatenative Synthesis of Persian Language Based on Word, Diphone and Triphone Databases
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법
RU160585U1 (ru) Система распознавания речи с моделью вариативности произношения
Weiss et al. Blizzard entry: Integrated voice building and synthesis for unit-selection tts
Nurk Creation of HMM-based Speech Model for Estonian Text-to-Speech Synthesis.
Rao et al. Prosody Modification
JPH07129193A (ja) 音声出力装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040917