JP5242724B2 - 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 - Google Patents
音声プロセッサ、音声処理方法および音声プロセッサの学習方法 Download PDFInfo
- Publication number
- JP5242724B2 JP5242724B2 JP2011045161A JP2011045161A JP5242724B2 JP 5242724 B2 JP5242724 B2 JP 5242724B2 JP 2011045161 A JP2011045161 A JP 2011045161A JP 2011045161 A JP2011045161 A JP 2011045161A JP 5242724 B2 JP5242724 B2 JP 5242724B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- speech
- learning data
- model
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title description 2
- 238000003066 decision tree Methods 0.000 claims abstract description 97
- 238000009826 distribution Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000006978 adaptation Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 20
- 238000013519 translation Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 238000013499 data model Methods 0.000 claims 1
- 238000001308 synthesis method Methods 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 23
- 238000003786 synthesis reaction Methods 0.000 description 23
- 238000007476 Maximum Likelihood Methods 0.000 description 15
- 230000001419 dependent effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
一連の観測値を含む既知の話者から音声入力を受け取り、
該一連の観測値から生じる一連の語の尤度を音響モデルを使用して判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されており、
所与の言語に生じる一連の観測値の尤度を言語モデルを使用して判断し、
前記音響モデルおよび前記言語モデルによって判断された尤度を組み合わせて前記音声入力信号から識別された一連の語を出力し、該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して前記音響モデルに含まれており、該決定木の構造は第2の学習データに基づいていることを特徴とする。
一連の語を含むテキスト入力を受け取り、
該一連の語から生じる一連の音声ベクトルの尤度を音響モデルを使用して判断し、該音響モデルが、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されており、
前記音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して前記音響モデルに含まれており、該決定木の構造は第2の学習データに基づいていることを特徴とする。
音声と、該音声に対応するテキストとを含む第1の学習データを受け取り、
該第1の学習データを使用して第1の音響モデルを学習し、
既知の話者からの第2の学習データを受け取り、
該第2の学習データを使用して第2の音響モデルを形成するように該第1の音響モデルを適応させ、
該第2のモデルを形成するように該第1のモデルを適応させることは、文脈依存性をモデリングするために決定木を構築することを含み、該決定木の構造は該第2の学習データに基づいていることを特徴とする。
一連の観測値を含む既知の話者からの音声入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の観測値から生じる一連の語の尤度を判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応され、
所与の言語で生じる一連の観測値の尤度を言語モデルを使用して判断し、
該音響モデルおよび該言語モデルによって判断された該確率を組み合わせて前記音声入力信号から識別された一連の語を出力するように構成されており、
該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して該モデルに含まれており、該決定木の構造は第2の学習データに基づいていることを特徴とする。
一連の語を含むテキスト入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の語から生じる一連の音声ベクトルの尤度を判断し、該音響モデルが、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルが第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されるように構成されており、
該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は複数の決定木を使用して該モデルに含まれており、該決定木の構造は第2の学習データに基づいていることを特徴とする。
占有は
Claims (18)
- 一連の観測値を含む既知の話者から音声入力信号を受け取り、
該一連の観測値から生じる一連の語の尤度を音響モデルを使用して判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応されており、
所与の言語に生じる一連の観測値の尤度を言語モデルを使用して判断し、
前記音響モデルおよび前記言語モデルによって判断された尤度を組み合わせて前記音声入力信号から識別された一連の語を出力し、
前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第2の学習データに適応され、
前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第2の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声認識方法。 - 前記文脈への依存性がトライフォンとして実現されることを特徴とする、請求項1又は2に記載の音声認識方法。
- 前記音響モデルは、平均および分散によって表される確率分布を含んでおり、前記決定木は平均および共分散の両方について提供されることを特徴とする、請求項1乃至3のいずれかに記載の音声認識方法。
- 前記文脈は、音声的、言語的および韻律的に選択されることを特徴とする、請求項1乃至4のいずれかに記載の音声認識方法。
- 前記決定木を、少なくとも表出型文脈、性別、年齢または音声特徴のいずれかをモデリングするために用いることを特徴とする、請求項1乃至5のいずれかに記載の音声認識方法。
- 一連の語を含むテキスト入力を受け取り、
該一連の語から生じる一連の音声ベクトルの尤度を音響モデルを使用して判断し、
前記一連の音声ベクトルの尤度に基づく音声信号を出力し、
前記音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第1の学習データを使用して学習され、かつ第2の学習データを使用して前記第2の学習データの話者に適応されており、
前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第2の学習データに適応され、
前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第2の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声合成方法。 - 音声と、該音声に対応するテキストとを含む第1の学習データを受け取り、
該第1の学習データを使用して第1の音響モデルを学習し、
既知の話者からの第2の学習データを受け取り、
該第2の学習データを使用して第2の音響モデルを形成するように該第1の音響モデルを適応させ、
該第2の音響モデルを形成するように該第1の音響モデルを適応させることは、文脈依存性をモデリングするために複数の決定木を構築することを含み、
前記決定木が前記第2の学習データに適応され、
前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造、および前記第1の音響モデルのモデルパラメータを条件として前記第2の学習データに対する前記第1の音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声処理システム用の音響モデル学習方法。 - 前記第2の音響モデルへの適応が異なる位置で実行可能になるように前記第1の音響モデルを記憶することをさらに含む、請求項8記載の音響モデル学習方法。
- 前記第1の音響モデルを学習することは、複数の隠れマルコフモデル(HMM)を初期化し、前記第1の学習データに基づいて該HMMを再度推定し、該第1の学習データの文脈をモデリングするために決定木を構築することを含む、請求項8または9に記載の音響モデル学習方法。
- 前記第1の音響モデルの学習は、前記決定木によってクラスタリングされた前記HMMを再度推定することを含む請求項10記載の音響モデル学習方法。
- 前記第2の音響モデルの学習は、前記第2の学習データおよび前記第1の学習データについてフォワード−バックワードアルゴリズムを実行することにより該第2の音響モデルのモデルパラメータを導出し、
スケーリングパラメータを使用して該第1の学習データから取得された統計値をスケーリングし、該第1および第2の学習データを使用して決定木をそれぞれ構築することを含む、請求項8乃至11のいずれかに記載の音響モデル学習方法。 - 前記スケーリングパラメータを試行錯誤によって判断する、請求項12記載の音響モデル学習方法。
- 前記第2の音響モデルの学習は、前記決定木によってクラスタリングされた前記第2の音響モデルを再度推定することを更に含む、請求項12又は13記載の音響モデル学習方法。
- 請求項1−14のいずれかに記載された方法を実行するようにコンピュータを制御するためのプログラム。
- 一連の観測値を含む既知の話者からの音声入力信号を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の観測値から生じる一連の語の尤度を判断し、該音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第1の学習データを使用して学習され、かつ第2の学習データを使用して前記話者に適応され、
所与の言語で生じる一連の観測値の尤度を言語モデルを使用して判断し、
該音響モデルおよび該言語モデルによって判断された該尤度を組み合わせて前記音声入力信号から識別された一連の語を出力するように構成されており、
前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第2の学習データに適応され、
前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第2の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声認識装置。 - 一連の語を含むテキスト入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の語から生じる一連の音声ベクトルの尤度を判断し、
前記一連の音声ベクトルの尤度に基づく音声信号を出力し、
前記音響モデルは、1つの語またはその一部を1つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第1の学習データを使用して学習され、かつ第2の学習データを使用して前記第2の学習データの話者に適応されるように構成されており、
前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第2の学習データに適応され、
前記決定木の構造は、前記第1および第2の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第2の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声合成装置。 - 第1の言語の音声を認識するように構成された請求項16に記載の音声認識装置と、
第1の言語で受信されたテキストを第2の言語のテキストに翻訳するように構成された翻訳モジュールと、
前記第2の言語の音声を出力するように構成された請求項17に記載の音声合成装置とを備える、音声翻訳システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1003496.5 | 2010-03-02 | ||
GB1003496.5A GB2478314B (en) | 2010-03-02 | 2010-03-02 | A speech processor, a speech processing method and a method of training a speech processor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011180596A JP2011180596A (ja) | 2011-09-15 |
JP5242724B2 true JP5242724B2 (ja) | 2013-07-24 |
Family
ID=42125880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011045161A Expired - Fee Related JP5242724B2 (ja) | 2010-03-02 | 2011-03-02 | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9043213B2 (ja) |
JP (1) | JP5242724B2 (ja) |
GB (1) | GB2478314B (ja) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
CN102385858B (zh) * | 2010-08-31 | 2013-06-05 | 国际商业机器公司 | 情感语音合成方法和系统 |
US8484023B2 (en) * | 2010-09-24 | 2013-07-09 | Nuance Communications, Inc. | Sparse representation features for speech recognition |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
US9558738B2 (en) * | 2011-03-08 | 2017-01-31 | At&T Intellectual Property I, L.P. | System and method for speech recognition modeling for mobile voice search |
GB2489473B (en) * | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
US8682670B2 (en) * | 2011-07-07 | 2014-03-25 | International Business Machines Corporation | Statistical enhancement of speech output from a statistical text-to-speech synthesis system |
CN102270449A (zh) * | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
US9275636B2 (en) * | 2012-05-03 | 2016-03-01 | International Business Machines Corporation | Automatic accuracy estimation for audio transcriptions |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
BR112015017106B1 (pt) * | 2012-07-20 | 2023-12-12 | Interactive Intelligence, Inc | Método implementado por computador para detectar palavras-chave predeterminadas |
US20150199960A1 (en) * | 2012-08-24 | 2015-07-16 | Microsoft Corporation | I-Vector Based Clustering Training Data in Speech Recognition |
JP6314828B2 (ja) * | 2012-10-16 | 2018-04-25 | 日本電気株式会社 | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム |
US8935170B2 (en) | 2012-11-27 | 2015-01-13 | Longsand Limited | Speech recognition |
CN103871403B (zh) * | 2012-12-13 | 2017-04-12 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
GB2517503B (en) * | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
US9640173B2 (en) * | 2013-09-10 | 2017-05-02 | At&T Intellectual Property I, L.P. | System and method for intelligent language switching in automated text-to-speech systems |
US10140981B1 (en) * | 2014-06-10 | 2018-11-27 | Amazon Technologies, Inc. | Dynamic arc weights in speech recognition models |
WO2016042626A1 (ja) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
CN104795063A (zh) * | 2015-03-20 | 2015-07-22 | 中国人民解放军信息工程大学 | 一种基于声学空间非线性流形结构的声学模型构建方法 |
JP6523893B2 (ja) * | 2015-09-16 | 2019-06-05 | 株式会社東芝 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
CN111243606B (zh) * | 2017-05-12 | 2023-07-21 | 苹果公司 | 用户特定的声学模型 |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
CN111201565A (zh) | 2017-05-24 | 2020-05-26 | 调节股份有限公司 | 用于声对声转换的系统和方法 |
CN107515862A (zh) * | 2017-09-01 | 2017-12-26 | 北京百度网讯科技有限公司 | 语音翻译方法、装置及服务器 |
US11694681B2 (en) * | 2018-01-08 | 2023-07-04 | Ebay Inc. | Artificial assistant system notifications |
WO2019139428A1 (ko) * | 2018-01-11 | 2019-07-18 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 방법 |
EP3739476A4 (en) * | 2018-01-11 | 2021-12-08 | Neosapience, Inc. | SPEECH SYNTHESIS PROCESS FROM MULTILINGUAL TEXT |
JP7124358B2 (ja) | 2018-03-13 | 2022-08-24 | 富士通株式会社 | 出力プログラム、情報処理装置及び出力制御方法 |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
US11955120B1 (en) | 2019-01-31 | 2024-04-09 | Alan AI, Inc. | Systems and methods for integrating voice controls into applications |
US11935539B1 (en) * | 2019-01-31 | 2024-03-19 | Alan AI, Inc. | Integrating voice controls into applications |
CN109887484B (zh) * | 2019-02-22 | 2023-08-04 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
US11538485B2 (en) | 2019-08-14 | 2022-12-27 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
CN110737268B (zh) * | 2019-10-14 | 2022-07-15 | 哈尔滨工程大学 | 一种基于Viterbi算法的确定指令的方法 |
KR20210053020A (ko) | 2019-11-01 | 2021-05-11 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
CN116670754A (zh) | 2020-10-08 | 2023-08-29 | 调节公司 | 用于内容审核的多阶段自适应系统 |
CN113627153B (zh) * | 2021-07-30 | 2023-10-27 | 湖南提奥医疗科技有限公司 | 处理数据的方法、装置、设备及存储介质 |
CN115831089B (zh) * | 2021-12-27 | 2023-12-01 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN116386637B (zh) * | 2023-06-05 | 2023-08-04 | 中国电子科技集团公司第十五研究所 | 雷达飞行指挥语音指令生成方法及系统 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715367A (en) * | 1995-01-23 | 1998-02-03 | Dragon Systems, Inc. | Apparatuses and methods for developing and using models for speech recognition |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
JP2991288B2 (ja) * | 1997-01-30 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
US6574597B1 (en) * | 1998-05-08 | 2003-06-03 | At&T Corp. | Fully expanded context-dependent networks for speech recognition |
DE19912405A1 (de) | 1999-03-19 | 2000-09-21 | Philips Corp Intellectual Pty | Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US7472064B1 (en) * | 2000-09-30 | 2008-12-30 | Intel Corporation | Method and system to scale down a decision tree-based hidden markov model (HMM) for speech recognition |
EP1205907B1 (en) * | 2000-11-14 | 2005-06-08 | International Business Machines Corporation | Phonetic context adaptation for improved speech recognition |
DE60111329T2 (de) * | 2000-11-14 | 2006-03-16 | International Business Machines Corp. | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
WO2002091357A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
WO2004047077A1 (en) * | 2002-11-15 | 2004-06-03 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
US7574359B2 (en) * | 2004-10-01 | 2009-08-11 | Microsoft Corporation | Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models |
US7409346B2 (en) * | 2004-11-05 | 2008-08-05 | Microsoft Corporation | Two-stage implementation for phonetic recognition using a bi-directional target-filtering model of speech coarticulation and reduction |
US20070033027A1 (en) * | 2005-08-03 | 2007-02-08 | Texas Instruments, Incorporated | Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition |
JP4087400B2 (ja) * | 2005-09-15 | 2008-05-21 | 株式会社東芝 | 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム |
KR100815115B1 (ko) * | 2006-03-31 | 2008-03-20 | 광주과학기술원 | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 |
US20080059200A1 (en) * | 2006-08-22 | 2008-03-06 | Accenture Global Services Gmbh | Multi-Lingual Telephonic Service |
JP4705535B2 (ja) | 2006-08-31 | 2011-06-22 | 日本放送協会 | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム |
ATE457511T1 (de) * | 2007-10-10 | 2010-02-15 | Harman Becker Automotive Sys | Sprechererkennung |
CA2724753A1 (en) * | 2008-05-30 | 2009-12-03 | Nokia Corporation | Method, apparatus and computer program product for providing improved speech synthesis |
GB2464093B (en) * | 2008-09-29 | 2011-03-09 | Toshiba Res Europ Ltd | A speech recognition method |
JP2010152081A (ja) * | 2008-12-25 | 2010-07-08 | Toshiba Corp | 話者適応装置及びそのプログラム |
US8340965B2 (en) * | 2009-09-02 | 2012-12-25 | Microsoft Corporation | Rich context modeling for text-to-speech engines |
-
2010
- 2010-03-02 GB GB1003496.5A patent/GB2478314B/en active Active
-
2011
- 2011-01-26 US US13/014,185 patent/US9043213B2/en not_active Expired - Fee Related
- 2011-03-02 JP JP2011045161A patent/JP5242724B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB2478314B (en) | 2012-09-12 |
GB201003496D0 (en) | 2010-04-14 |
US20110218804A1 (en) | 2011-09-08 |
US9043213B2 (en) | 2015-05-26 |
JP2011180596A (ja) | 2011-09-15 |
GB2478314A (en) | 2011-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5242724B2 (ja) | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
Hain et al. | New features in the CU-HTK system for transcription of conversational telephone speech | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
JP5398909B2 (ja) | テキスト音声合成方法及びシステム | |
JP5418223B2 (ja) | 音声分類装置、音声分類方法、および音声分類用プログラム | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
US8595006B2 (en) | Speech recognition system and method using vector taylor series joint uncertainty decoding | |
Gutkin et al. | TTS for low resource languages: A Bangla synthesizer | |
JP2010170075A (ja) | 情報処理装置、プログラム、および音響モデルを生成する方法 | |
Uebel et al. | Improvements in linear transform based speaker adaptation | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
US20110276332A1 (en) | Speech processing method and apparatus | |
Hain et al. | The cu-htk march 2000 hub5e transcription system | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
Furui | Generalization problem in ASR acoustic model training and adaptation | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP2017151224A (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
Shahnawazuddin et al. | A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130403 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |