JP6550068B2 - 音声認識における発音予測 - Google Patents
音声認識における発音予測 Download PDFInfo
- Publication number
- JP6550068B2 JP6550068B2 JP2016555771A JP2016555771A JP6550068B2 JP 6550068 B2 JP6550068 B2 JP 6550068B2 JP 2016555771 A JP2016555771 A JP 2016555771A JP 2016555771 A JP2016555771 A JP 2016555771A JP 6550068 B2 JP6550068 B2 JP 6550068B2
- Authority
- JP
- Japan
- Prior art keywords
- pronunciation
- potential
- source language
- language
- text identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 55
- 230000001755 vocal effect Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 27
- 238000012549 training Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000006399 behavior Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010009269 Cleft palate Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 125000001475 halogen functional group Chemical group 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000002396 uvula Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本出願は、その全体が参照により本明細書に組み込まれる、2014年3月4日出願の米国特許出願第14/196,055号に対する優先権を主張する。
または「Gustav Mahler」などの他のドイツ語のユーザの発音をASR装置が予期してもよい。ASR装置はまたユーザの発音パターンに基づき、重みを特定のユーザのために、様々な言語に割り当ててもよい。たとえばASR装置は、外来語の発音の際にユーザが好む発音(たとえば、1つの言語または言語の組み合わせ)により大きな重みを割り当ててもよい。同様に特定のユーザが好む言語または好む経路のグラフ上の表現が、より高いスコアまたは重みを割り当てられてもよい。より高いスコアの割り当てにより、グラフのこれらの経路はユーザによる外国語の予想発音を表しやすくなる。したがって予想発音は、予想発音のグラフ、予想発音のN−bestリスト、または予想発音の他のいくつかの構成に関連してもよい。
口頭での発話を処理するためのコンピュータ実装された方法であって、
曲名の綴りに少なくとも部分的に基づいて、前記曲名の少なくとも1つの元言語を判断するステップと、
前記少なくとも1つの元言語及びユーザが発話した言語に少なくとも部分的に基づいて前記曲名の複数の潜在的な発音を判断するステップであって、前記複数の潜在的な発音のそれぞれがスコアに関連する、前記判断するステップと、
前記複数の潜在的な発音のそれぞれと前記曲名との間の関連を保存するステップと、
曲の再生の要求を含む口頭での発話を受信するステップと、
前記複数の潜在的な発音の1つのスコアに少なくとも部分的に基づく、前記口頭での発話の部分を前記複数の潜在的な発音の1つと照合するステップと、
前記複数の潜在的な発音の1つに少なくとも部分的に基づく前記曲を識別するステップと、
計算装置上で前記曲を再生をさせるステップと、
を含む、前記方法。
前記複数の潜在的な発音を判断するステップがさらに、少なくとも1つの元言語が前記曲名と共通である語のユーザの発音履歴に少なくとも部分的に基づく、請求項1に記載の方法。
第1の元言語の前記曲名の1つの部分及び第2の元言語の前記曲名の第2の部分との関連付けにより、少なくとも1つの潜在的な発音を判断するステップをさらに含む、請求項1に記載の方法。
前記曲名の前記少なくとも1つの元言語を判断するステップが、前記計算装置によって再生可能な他の曲の元言語に少なくとも部分的に基づく、請求項1に記載の方法。
計算システムであって、
少なくとも1つの処理装置と、
アクションの組を実行するための、前記少なくとも1つの処理装置によって実行されるよう動作可能な命令を含むメモリ装置であって、前記命令は、少なくとも1つのプロセッサが、
潜在的な元言語がテキスト識別子に少なくとも部分的に基づくような、テキスト識別子の前記潜在的な元言語を判断し、
潜在的な発音が前記潜在的な元言語及び潜在的な口頭での言語に少なくとも部分的に基づくような、前記テキスト識別子の前記潜在的な発音を判断し、
前記潜在的な発音と前記テキスト識別子との間の関連を保存するよう構成する、前記メモリ装置と、
を含む、前記計算システム。
前記命令は前記少なくとも1つの処理装置が、
前記テキスト識別子のための前記第2の潜在的な元言語を判断し、前記第2の潜在的な元言語が前記テキスト識別子に少なくとも部分的に基づき、
前記テキスト識別子の第2の潜在的な発音を判断し、前記第2の潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的に基づき、
前記第2の潜在的な発音との前記テキスト識別子間の関連を保存するようにさらに構成する、条項5に記載の計算システム。
前記潜在的な元言語、第2の潜在的な元言語、潜在的な発音及び第2の潜在的な発音が、それぞれのスコアにそれぞれ関連する、条項6に記載の計算システム。
前記少なくとも1つの処理装置が前記テキスト識別子の第2の潜在的な元言語を判断するようさらに構成され、
前記潜在的な元言語が前記テキスト識別子の第1の部分に関連し、
前記第2の潜在的な元言語が前記テキスト識別子の第2の部分に関連し、
前記潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的にさらに基づく、
条項5に記載の計算システム。
前記少なくとも1つの処理装置が、ユーザの発音履歴に少なくとも部分的にさらに基づいて前記潜在的な発音を判断するようさらに構成される、条項5に記載の計算システム。
ユーザの前記発音履歴が前記ユーザが発話した言語を含む、条項9に記載の計算システム。
前記少なくとも1つの処理装置が、前記テキスト識別子に関連する第2のテキスト識別子の元言語に少なくとも部分的にさらに基づいて前記潜在的な元言語を判断するようさらに構成される、条項5に記載の計算システム。
前記命令は少なくとも1つのプロセッサが、
発話を含む音声データを受信し、
前記発話における前記潜在的な発音を識別し、
前記保存された関連に基づいて前記テキスト識別子を識別し、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部を検索するよう
さらに構成する、条項5に記載の計算システム。
前記計算装置によってアクセスされるアーティスト、アルバム、バンド、映画、書籍、曲及び/または食品の名称を前記テキスト識別子が含む、条項5に記載の計算システム。
前記潜在的な口頭での言語が前記システムの装置の位置に関連する言語を含む、条項5に記載の計算システム。
前記少なくとも1つの処理装置が有限状態トランスデューサ(FST)モデル、最大エントロピーモデル、文字レベル言語モデル及び/または条件付き確率場モデルの少なくとも1つを利用して、前記テキスト識別子の前記潜在的な発音を判断するようさらに構成される、条項5に記載の計算システム。
テキスト識別子のための潜在的な元言語を判断するためのプログラムコードであって、前記潜在的な元言語がテキスト識別子に少なくとも部分的に基づく前記プログラムコードと、
前記テキスト識別子の潜在的な発音を判断するためのプログラムコードであって、前記潜在的な発音が前記潜在的な元言語及び潜在的な口頭での言語に少なくとも部分的に基づく前記プログラムコードと、
前記潜在的な発音と前記テキスト識別子との間の関連を保存するためのプログラムコードと、
を含む、計算装置を制御するための処理装置実行可能命令を保存する非一時的コンピュータ読み取り可能記憶媒体。
前記テキスト識別子のための第2の潜在的な元言語を判断するためのプログラムコードであって、前記第2の潜在的な元言語が前記テキスト識別子に少なくとも部分的に基づく前記プログラムコードと、
前記テキスト識別子の第2の潜在的な発音を判断するためのプログラムコードであって、前記第2の潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的に基づく前記プログラムコードと、
前記第2の潜在的な発音と前記テキスト識別子との間の関連を保存するためのプログラムコードと、
をさらに含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
前記潜在的な元言語、第2の潜在的な元言語、潜在的な発音及び第2の潜在的な発音がそれぞれのスコアにそれぞれ関連する、条項17に記載の非一時的コンピュータ読み取り可能記憶媒体。
前記テキスト識別子の第2の潜在的な元言語を判断するためのプログラムコードをさらに含む、非一時的コンピュータ読み取り可能記憶媒体であって、
前記潜在的な元言語が前記テキスト識別子の第1の部分に関連し、
前記第2の潜在的な元言語が前記テキスト識別子の第2の部分に関連し、
前記潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的にさらに基づく、
条項16に記載の前記非一時的コンピュータ読み取り可能記憶媒体。
ユーザの発音履歴に少なくとも部分的にさらに基づき前記潜在的な発音を判断するためのプログラムコードをさらに含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
ユーザの前記発音履歴が前記ユーザが発話した言語を含む、条項20に記載の非一時的コンピュータ読み取り可能記憶媒体。
前記テキスト識別子に関連する第2のテキスト識別子の元言語に少なくとも部分的にさらに基づき、前記潜在的な元言語を判断するためのプログラムコードをさらに含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
発話を含む音声データを受信するためのプログラムコードと、
前記発話における前記潜在的な発音を識別するためのプログラムコードと、
前記保存された関連に基づき前記テキスト識別子を識別するためのプログラムコードと、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部分を検索するためのプログラムコードと、
をさらに含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
前記計算装置によってアクセスされる前記テキスト識別子がアーティスト、アルバム、バンド、映画、書籍、曲及び/または食品の名称を含む、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
前記潜在的な口頭での言語が前記システムの装置の位置に関連する、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
前記テキスト識別子の前記潜在的な発音を判断するための前記プログラムコードが、有限状態トランスデューサ(FST)モデル、最大エントロピーモデル、文字レベル言語モデル及び/または条件付き確率場モデルに少なくとも部分的に基づく、条項16に記載の非一時的コンピュータ読み取り可能記憶媒体。
Claims (14)
- 口頭での発話を処理するためのコンピュータ実装された方法であって、
コンテンツアイテムの綴りに少なくとも部分的に基づいて、前記コンテンツアイテムの少なくとも1つの元言語を判断するステップと、
前記少なくとも1つの元言語及びユーザが発話した言語に少なくとも部分的に基づいて前記コンテンツアイテムの潜在的な発音を判断するステップであって、前記潜在的な発音がスコアに関連する、前記判断するステップと、
前記潜在的な発音と前記コンテンツアイテムとの間の関連を保存するステップと、
コンテンツの出力の要求を含む口頭での発話を受信するステップと、
前記スコアに少なくとも部分的に基づいて、前記口頭での発話の第1の部分を前記潜在的な発音の第1の部分と照合するステップと、
前記スコアに少なくとも部分的に基づいて、前記口頭での発話の第2の部分を前記潜在的な発音の第2の部分と照合するステップと、
前記潜在的な発音に少なくとも部分的に基づいて、前記コンテンツアイテムを識別するステップと、
計算装置によって前記コンテンツアイテムを出力させるステップと、
を含む、前記方法。 - 前記潜在的な発音を判断するステップがさらに、少なくとも1つの元言語が前記コンテンツアイテムと共通である語のユーザの発音履歴に少なくとも部分的に基づく、請求項1に記載の方法。
- 第1の元言語の前記コンテンツアイテムの1つの部分及び第2の元言語の前記コンテンツアイテムの第2の部分との関連付けにより、少なくとも1つの潜在的な発音を判断するステップをさらに含む、請求項1に記載の方法。
- 前記コンテンツアイテムの前記少なくとも1つの元言語を判断するステップが、前記計算装置によって出力可能な他のコンテンツアイテムの元言語に少なくとも部分的に基づく、請求項1に記載の方法。
- 計算システムであって、
少なくとも1つの処理装置と、
アクションの組を実行するための、前記少なくとも1つの処理装置によって実行されるよう動作可能な命令を含むメモリ装置であって、前記命令は、前記少なくとも1つの処理装置が、
第1の潜在的な元言語がテキスト識別子の第1の部分に関連するような、前記テキスト識別子について前記第1の潜在的な元言語を判断し、
第2の潜在的な元言語が前記テキスト識別子の第2の部分に関連するような、前記テキスト識別子について前記第2の潜在的な元言語を判断し、
第1の潜在的な発音が前記第1の潜在的な元言語及び前記第2の潜在的な元言語に少なくとも部分的に基づくような、前記テキスト識別子の前記第1の潜在的な発音を判断し、
前記第1の潜在的な発音と前記テキスト識別子との間の関連を保存する
よう構成する、前記メモリ装置と、
を含む、前記計算システム。 - 前記命令は、前記少なくとも1つの処理装置が、
前記テキスト識別子の第2の潜在的な発音を判断し、前記第2の潜在的な発音が前記第2の潜在的な元言語に少なくとも部分的に基づき、
前記第2の潜在的な発音と前記テキスト識別子間との関連を保存する
ようさらに構成する、
請求項5に記載の計算システム。 - 前記第1の潜在的な元言語、第2の潜在的な元言語、第1の潜在的な発音及び第2の潜在的な発音が、それぞれのスコアに関連する、請求項6に記載の計算システム。
- 前記少なくとも1つの処理装置が、ユーザの発音履歴に少なくとも部分的にさらに基づいて前記第1の潜在的な発音を判断するようさらに構成される、請求項5に記載の計算システム。
- ユーザの前記発音履歴が前記ユーザが発話した言語を含む、請求項8に記載の計算システム。
- 前記少なくとも1つの処理装置が前記テキスト識別子に関連する第2のテキスト識別子の元言語に少なくとも部分的にさらに基づいて前記第1の潜在的な元言語を判断するようさらに構成される、請求項5に記載の計算システム。
- 前記命令は、前記少なくとも1つの処理装置が、
発話を含む音声データを受信し、
前記発話における前記第1の潜在的な発音を識別し、
前記保存された関連に基づいて前記テキスト識別子を識別し、
前記テキスト識別子に関連するコンテンツアイテムの少なくとも一部を検索する
よう、さらに構成する、請求項5に記載の計算システム。 - 計算装置によってアクセスされるアーティスト、アルバム、バンド、映画、書籍、曲及び/または食品の名称を前記テキスト識別子が含む、請求項5の計算システム。
- 前記第2の潜在的な元言語が前記システムの装置の位置に関連する言語を含む、請求項5に記載の計算システム。
- 前記少なくとも1つの処理装置が有限状態トランスデューサ(FST)モデル、最大エントロピーモデル、文字レベル言語モデル及び/または条件付き確率場モデルの少なくとも1つを利用して、前記テキスト識別子の前記第1の潜在的な発音を判断するようさらに構成される、請求項5に記載の計算システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/196,055 US10339920B2 (en) | 2014-03-04 | 2014-03-04 | Predicting pronunciation in speech recognition |
US14/196,055 | 2014-03-04 | ||
PCT/US2015/017927 WO2015134309A1 (en) | 2014-03-04 | 2015-02-27 | Predicting pronunciation in speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017513047A JP2017513047A (ja) | 2017-05-25 |
JP6550068B2 true JP6550068B2 (ja) | 2019-07-24 |
Family
ID=54017968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016555771A Active JP6550068B2 (ja) | 2014-03-04 | 2015-02-27 | 音声認識における発音予測 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10339920B2 (ja) |
EP (1) | EP3114679B1 (ja) |
JP (1) | JP6550068B2 (ja) |
CN (1) | CN106463113B (ja) |
WO (1) | WO2015134309A1 (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8181205B2 (en) | 2002-09-24 | 2012-05-15 | Russ Samuel H | PVR channel and PVR IPG information |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US9324321B2 (en) | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
US9520127B2 (en) | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US20150325236A1 (en) * | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Context specific language model scale factors |
US9430667B2 (en) | 2014-05-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Managed wireless distribution network |
US9384335B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content delivery prioritization in managed wireless distribution networks |
US9384334B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content discovery in managed wireless distribution networks |
US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
US10037202B2 (en) | 2014-06-03 | 2018-07-31 | Microsoft Technology Licensing, Llc | Techniques to isolating a portion of an online computing service |
US9367490B2 (en) | 2014-06-13 | 2016-06-14 | Microsoft Technology Licensing, Llc | Reversible connector for accessory devices |
CN105531758B (zh) * | 2014-07-17 | 2019-10-01 | 微软技术许可有限责任公司 | 使用外国单词语法的语音识别 |
CA2957800A1 (en) * | 2014-09-07 | 2016-03-10 | Selecta Biosciences, Inc. | Methods and compositions for attenuating anti-viral transfer vector immune responses |
US10366689B2 (en) * | 2014-10-29 | 2019-07-30 | Kyocera Corporation | Communication robot |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
US10127904B2 (en) * | 2015-05-26 | 2018-11-13 | Google Llc | Learning pronunciations from acoustic sequences |
US9734821B2 (en) * | 2015-06-30 | 2017-08-15 | International Business Machines Corporation | Testing words in a pronunciation lexicon |
US10262654B2 (en) * | 2015-09-24 | 2019-04-16 | Microsoft Technology Licensing, Llc | Detecting actionable items in a conversation among participants |
US20170337923A1 (en) * | 2016-05-19 | 2017-11-23 | Julia Komissarchik | System and methods for creating robust voice-based user interface |
US10825445B2 (en) * | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
US10909978B2 (en) * | 2017-06-28 | 2021-02-02 | Amazon Technologies, Inc. | Secure utterance storage |
KR102490752B1 (ko) * | 2017-08-03 | 2023-01-20 | 링고챔프 인포메이션 테크놀로지 (상하이) 컴퍼니, 리미티드 | 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정 |
KR102356889B1 (ko) * | 2017-08-16 | 2022-01-28 | 삼성전자 주식회사 | 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치 |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US10747817B2 (en) * | 2017-09-29 | 2020-08-18 | Rovi Guides, Inc. | Recommending language models for search queries based on user profile |
US10769210B2 (en) | 2017-09-29 | 2020-09-08 | Rovi Guides, Inc. | Recommending results in multiple languages for search queries based on user profile |
EP3813062B1 (en) * | 2017-09-29 | 2023-11-22 | Rovi Product Corporation | Recommending results in multiple languages for search queries based on user profile |
CN111508489B (zh) * | 2017-12-19 | 2022-10-18 | 深圳市欧瑞博科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
US10943580B2 (en) * | 2018-05-11 | 2021-03-09 | International Business Machines Corporation | Phonological clustering |
US10860648B1 (en) * | 2018-09-12 | 2020-12-08 | Amazon Technologies, Inc. | Audio locale mismatch detection |
US11537821B2 (en) | 2019-04-10 | 2022-12-27 | International Business Machines Corporation | Evaluating text classification anomalies predicted by a text classification model |
US11068656B2 (en) * | 2019-04-10 | 2021-07-20 | International Business Machines Corporation | Displaying text classification anomalies predicted by a text classification model |
US11501764B2 (en) * | 2019-05-10 | 2022-11-15 | Spotify Ab | Apparatus for media entity pronunciation using deep learning |
CN112579734A (zh) * | 2019-09-30 | 2021-03-30 | 北京声智科技有限公司 | 一种发音预测方法及电子设备 |
US11341961B2 (en) * | 2019-12-02 | 2022-05-24 | National Cheng Kung University | Multi-lingual speech recognition and theme-semanteme analysis method and device |
TWI752437B (zh) * | 2020-03-13 | 2022-01-11 | 宇康生科股份有限公司 | 基於至少雙音素的語音輸入操作方法及電腦程式產品 |
US20220115003A1 (en) * | 2020-10-13 | 2022-04-14 | Rev.com, Inc. | Systems and methods for aligning a reference sequence of symbols with hypothesis requiring reduced processing and memory |
US11967319B2 (en) * | 2020-12-22 | 2024-04-23 | Direct Cursus Technology L.L.C | Method and electronic device for processing a spoken utterance |
US11676572B2 (en) * | 2021-03-03 | 2023-06-13 | Google Llc | Instantaneous learning in text-to-speech during dialog |
US11699430B2 (en) * | 2021-04-30 | 2023-07-11 | International Business Machines Corporation | Using speech to text data in training text to speech models |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0634042B1 (en) * | 1992-03-06 | 2001-07-11 | Dragon Systems Inc. | Speech recognition system for languages with compound words |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
US6032111A (en) | 1997-06-23 | 2000-02-29 | At&T Corp. | Method and apparatus for compiling context-dependent rewrite rules and input strings |
US8855998B2 (en) * | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
US6085160A (en) | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
CA2407849A1 (en) * | 2000-05-01 | 2001-11-08 | Netoncoure, Inc. | Large group interactions |
US7392193B2 (en) | 2000-06-16 | 2008-06-24 | Microlife Corporation | Speech recognition capability for a personal digital assistant |
JP2002108858A (ja) * | 2000-09-20 | 2002-04-12 | Internatl Business Mach Corp <Ibm> | 機械翻訳方法、機械翻訳装置および記録媒体 |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
WO2004047077A1 (en) * | 2002-11-15 | 2004-06-03 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
US8285537B2 (en) * | 2003-01-31 | 2012-10-09 | Comverse, Inc. | Recognition of proper nouns using native-language pronunciation |
DE60316912T2 (de) | 2003-04-29 | 2008-07-31 | Sony Deutschland Gmbh | Verfahren zur Spracherkennung |
US7502731B2 (en) * | 2003-08-11 | 2009-03-10 | Sony Corporation | System and method for performing speech recognition by utilizing a multi-language dictionary |
EP1693830B1 (en) * | 2005-02-21 | 2017-12-20 | Harman Becker Automotive Systems GmbH | Voice-controlled data system |
EP1693828B1 (en) * | 2005-02-21 | 2008-01-23 | Harman Becker Automotive Systems GmbH | Multilingual speech recognition |
US20070245305A1 (en) * | 2005-10-28 | 2007-10-18 | Anderson Jonathan B | Learning content mentoring system, electronic program, and method of use |
US7840409B2 (en) | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8996994B2 (en) * | 2008-01-16 | 2015-03-31 | Microsoft Technology Licensing, Llc | Multi-lingual word hyphenation using inductive machine learning on training data |
JP2009175630A (ja) | 2008-01-28 | 2009-08-06 | Sharp Corp | 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
US20090326945A1 (en) * | 2008-06-26 | 2009-12-31 | Nokia Corporation | Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system |
US20100082328A1 (en) | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
TWI420433B (zh) * | 2009-02-27 | 2013-12-21 | Ind Tech Res Inst | 語音互動系統與方法 |
US8190420B2 (en) * | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
US8688435B2 (en) * | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
KR101231438B1 (ko) * | 2011-05-25 | 2013-02-07 | 엔에이치엔(주) | 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법 |
EP2724261A4 (en) * | 2011-06-24 | 2015-07-29 | Google Inc | DETECTION OF INITIAL LANGUAGES FOR SEARCH QUESTIONS |
US9275633B2 (en) | 2012-01-09 | 2016-03-01 | Microsoft Technology Licensing, Llc | Crowd-sourcing pronunciation corrections in text-to-speech engines |
US9129591B2 (en) | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US20130238704A1 (en) * | 2012-03-12 | 2013-09-12 | Unisys Corporation | Dynamic controls for a web-based conference collaboration tool |
US9076347B2 (en) * | 2013-03-14 | 2015-07-07 | Better Accent, LLC | System and methods for improving language pronunciation |
-
2014
- 2014-03-04 US US14/196,055 patent/US10339920B2/en active Active
-
2015
- 2015-02-27 EP EP15757998.8A patent/EP3114679B1/en active Active
- 2015-02-27 CN CN201580011488.0A patent/CN106463113B/zh active Active
- 2015-02-27 WO PCT/US2015/017927 patent/WO2015134309A1/en active Application Filing
- 2015-02-27 JP JP2016555771A patent/JP6550068B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US10339920B2 (en) | 2019-07-02 |
CN106463113B (zh) | 2020-01-07 |
US20150255069A1 (en) | 2015-09-10 |
EP3114679A1 (en) | 2017-01-11 |
JP2017513047A (ja) | 2017-05-25 |
CN106463113A (zh) | 2017-02-22 |
EP3114679B1 (en) | 2021-12-29 |
WO2015134309A1 (en) | 2015-09-11 |
EP3114679A4 (en) | 2017-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6550068B2 (ja) | 音声認識における発音予測 | |
US11496582B2 (en) | Generation of automated message responses | |
US20210027785A1 (en) | Conversational recovery for voice user interface | |
US9934777B1 (en) | Customized speech processing language models | |
US20230317074A1 (en) | Contextual voice user interface | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US9443527B1 (en) | Speech recognition capability generation and control | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
US20210312914A1 (en) | Speech recognition using dialog history | |
US11093110B1 (en) | Messaging feedback mechanism | |
US20130090921A1 (en) | Pronunciation learning from user correction | |
EP1557822A1 (en) | Automatic speech recognition adaptation using user corrections | |
US11837225B1 (en) | Multi-portion spoken command framework | |
US20100312560A1 (en) | System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring | |
US10224030B1 (en) | Dynamic gazetteers for personalized entity recognition | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
US11715472B2 (en) | Speech-processing system | |
Ons et al. | Fast vocabulary acquisition in an NMF-based self-learning vocal user interface | |
JP7098587B2 (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
CN117882131A (zh) | 多个唤醒词检测 | |
US11564194B1 (en) | Device communication | |
US11176930B1 (en) | Storing audio commands for time-delayed execution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170816 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180830 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6550068 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |