JP2018532165A - 個別化されたエンティティ発音の学習 - Google Patents
個別化されたエンティティ発音の学習 Download PDFInfo
- Publication number
- JP2018532165A JP2018532165A JP2018522544A JP2018522544A JP2018532165A JP 2018532165 A JP2018532165 A JP 2018532165A JP 2018522544 A JP2018522544 A JP 2018522544A JP 2018522544 A JP2018522544 A JP 2018522544A JP 2018532165 A JP2018532165 A JP 2018532165A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- pronunciation
- entity name
- transliteration
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000004044 response Effects 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 abstract description 11
- 230000005236 sound signal Effects 0.000 description 72
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 241000656145 Thyrsites atun Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
Description
他の特徴および利点は、本明細書および図面および特許請求の範囲から明らかになるであろう。
110 発話
114 オーディオ信号
116 翻音
118 フィードバック情報
120 モバイルデバイス
122 ユーザインターフェース
124 プロンプト
125 マイクロフォン
126 スピーカ
130 サーバ
132 プロセッサ
134 メモリ
140 自動会話認識器
150、152、154 個別化された発音辞書
Claims (20)
- コマンドおよびエンティティ名を含む発話に対応するオーディオデータを受け取るステップと、
前記エンティティ名に関連付けられた前記オーディオデータの一部についての初期の翻音を、自動会話認識器によって生成するステップと、
前記エンティティ名に関連付けられるとともに前記初期の翻音と異なる前記発話の前記一部についての正された翻音を受け取るステップと、
前記エンティティ名に関連付けられるとともに前記初期の翻音と異なる前記発話の前記一部についての前記正された翻音を受け取ることに応答して、前記エンティティ名に関連付けられた前記オーディオデータの前記一部に関連付けられた発声発音を取得するステップと、
前記エンティティ名に前記発声発音を関連付けるように、発音辞書を更新するステップと、
前記エンティティ名を含む後続の発話を受け取るステップと、
前記更新された発音辞書に少なくとも部分的に基づいて、前記後続の発話を翻音するステップと、
を含む方法。 - 前記エンティティ名に関連付けられるとともに前記初期の翻音と異なる前記発話の前記一部についての正された翻音を受け取るステップは、
1つまたは複数のエンティティ名の表示からエンティティの選択を示すデータを受け取るステップと、
キーパッドを介して入力された、エンティティ名を示す1つまたは複数の文字を示すデータを受け取るステップと、
を含む、請求項1に記載の方法。 - 発音辞書を更新するステップは、
前記エンティティ名に関連付けられた発音辞書エントリを特定するステップと、
前記初期の翻音の発声発音に対応するエントリの一部を削除するステップと、
前記エンティティ名に関連付けられた発音辞書エントリに、前記取得された発声発音に関連付けられた前記発声発音を格納するステップと、
をさらに含む、請求項1または2に記載の方法。 - 前記受け取られたオーディオデータの少なくとも一部にタイムスタンプを関連付けるステップと、
前記発話の正しい翻音が特定されるとともに、前記受け取られた発話に関連付けられたコマンドが完了するまで、前記受け取られたオーディオデータの1つまたは複数の部分をキャッシュするステップと、
をさらに含む、請求項1〜3のいずれか一項に記載の方法。 - 前記エンティティ名に関連付けられた前記オーディオデータの前記一部に関連付けられた発声発音を取得するステップは、
前記受け取られたオーディオデータの少なくとも一部に関連付けられた前記タイムスタンプに基づいて、最も最近に受け取られたオーディオデータの一部を取得するステップと、
音響モデルを使用して取得された音素のセットに基づいて、前記最も最近に受け取られたオーディオデータの前記取得された一部の発声発音を生成するステップと、
を含む、請求項4に記載の方法。 - 前記取得された発声発音を含むように発音辞書を更新することに応答して、前記発声発音に関連付けられたグローバルカウンタを増分するステップをさらに含む、請求項1〜5のいずれか一項に記載の方法。
- 前記発声発音に関連付けられた前記グローバルカウンタが所定のしきい値を超えることを判定するステップと、
前記発声発音に関連付けられた前記グローバルカウンタが所定のしきい値を超えることを判定することに応答して、正しい翻音に関連付けられた前記発声発音を含むように、前記エンティティ名に関連付けられたグローバル発音辞書の発音辞書エントリを更新するステップと、
をさらに含む、請求項6に記載の方法。 - 1つまたは複数のコンピュータと、
前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに動作を実行させるように動作可能な命令を格納する1つまたは複数のストレージデバイスとを具備し、前記動作は、
コマンドおよびエンティティ名を含む発話に対応するオーディオデータを受け取るステップと、
前記エンティティ名に関連付けられた前記オーディオデータの一部についての初期の翻音を、自動会話認識器によって生成するステップと、
前記エンティティ名に関連付けられるとともに前記初期の翻音と異なる前記発話の前記一部についての正された翻音を受け取るステップと、
前記エンティティ名に関連付けられるとともに前記初期の翻音と異なる前記発話の前記一部についての前記正された翻音を受け取ることに応答して、前記エンティティ名に関連付けられた前記オーディオデータの前記一部に関連付けられた発声発音を取得するステップと、
前記エンティティ名に前記発声発音を関連付けるように、発音辞書を更新するステップと、
前記エンティティ名を含む後続の発話を受け取るステップと、
前記更新された発音辞書に少なくとも部分的に基づいて、前記後続の発話を翻音するステップと、
を含む、システム。 - 前記エンティティ名に関連付けられるとともに前記初期の翻音と異なる前記発話の前記一部についての正された翻音を受け取るステップは、
1つまたは複数のエンティティ名の表示からエンティティの選択を示すデータを受け取るステップと、
キーパッドを介して入力された、エンティティ名を示す1つまたは複数の文字を示すデータを受け取るステップと、
を含む、請求項8に記載のシステム。 - 発音辞書を更新するステップは、
前記エンティティ名に関連付けられた発音辞書エントリを特定するステップと、
前記初期の翻音の発声発音に対応するエントリの一部を削除するステップと、
前記エンティティ名に関連付けられた記発音辞書エントリに、前記取得された発声発音に関連付けられた前記発声発音を格納するステップと、
をさらに含む、請求項8または9に記載のシステム。 - 前記動作は、
前記受け取られたオーディオデータの少なくとも一部にタイムスタンプを関連付けるステップと、
前記発話の正しい翻音が特定されるとともに、前記受け取られた発話に関連付けられたコマンドが完了するまで、前記受け取られたオーディオデータの1つまたは複数の部分をキャッシュするステップと、
をさらに含む、請求項8〜10のいずれか一項に記載のシステム。 - 前記エンティティ名に関連付けられた前記オーディオデータの前記一部に関連付けられた発声発音を取得するステップは、
前記受け取られたオーディオデータの少なくとも一部に関連付けられたタイムスタンプに基づいて、最も最近に受け取られたオーディオデータの一部を取得するステップと、
音響モデルを使用して取得された音素のセットに基づいて、前記最も最近に受け取られたオーディオデータの前記取得された一部の発声発音を生成するステップと、
を含む、請求項8〜11のいずれか一項に記載のシステム。 - 前記動作は、
前記取得された発声発音を含むように発音辞書を更新することに応答して、前記発声発音に関連付けられたグローバルカウンタを増分するステップをさらに含む、請求項8〜12のいずれか一項に記載のシステム。 - 前記動作は、
前記発声発音に関連付けられた前記グローバルカウンタが所定のしきい値を超えることを判定するステップと、
前記発声発音に関連付けられた前記グローバルカウンタが所定のしきい値を超えることを判定することに応答して、正しい翻音に関連付けられた前記発声発音を含むように、前記エンティティ名に関連付けられたグローバル発音辞書の発音辞書エントリを更新するステップと、
をさらに含む、請求項13に記載のシステム。 - 1つまたは複数のコンピュータによって実行可能な命令を含むソフトウェアを格納する非一時的コンピュータ可読媒体であって、前記命令の実行時に、前記1つまたは複数のコンピュータに動作を実行させ、前記動作は、
コマンドおよびエンティティ名を含む発話に対応するオーディオデータを受け取るステップと、
前記エンティティ名に関連付けられた前記オーディオデータの一部についての初期の翻音を、自動会話認識器によって生成するステップと、
前記エンティティ名に関連付けられるとともに前記初期の翻音と異なる前記発話の前記一部についての正された翻音を受け取るステップと、
前記エンティティ名に関連付けられるとともに前記初期の翻音と異なる前記発話の前記一部についての前記正された翻音を受け取ることに応答して、前記エンティティ名に関連付けられた前記オーディオデータの前記一部に関連付けられた発声発音を取得するステップと、
前記エンティティ名に前記発声発音を関連付けるように、発音辞書を更新するステップと、
前記エンティティ名を含む後続の発話を受け取るステップと、
前記更新された発音辞書に少なくとも部分的に基づいて、前記後続の発話を翻音するステップと、
を含む、非一時的コンピュータ可読媒体。 - 発音辞書を更新するステップは、
前記エンティティ名に関連付けられた発音辞書エントリを特定するステップと、
前記初期の翻音の発声発音に対応するエントリの一部を削除するステップと、
前記エンティティ名に関連付けられた前記発音辞書エントリに、前記取得された発声発音に関連付けられた前記発声発音を格納するステップと、
をさらに含む、請求項15に記載の非一時的コンピュータ可読媒体。 - 前記動作は、
前記受け取られたオーディオデータの少なくとも一部にタイムスタンプを関連付けるステップと、
前記発話の正しい翻音が特定されるとともに、前記受け取られた発話に関連付けられたコマンドが完了するまで、前記受け取られたオーディオデータの1つまたは複数の部分をキャッシュするステップと、
をさらに含む、請求項15に記載の非一時的コンピュータ可読媒体。 - 前記エンティティ名に関連付けられた前記オーディオデータの前記一部に関連付けられた発声発音を取得するステップは、
前記受け取られたオーディオデータの少なくとも一部に関連付けられたタイムスタンプに基づいて、最も最近に受け取られたオーディオデータの一部を取得するステップと、
音響モデルを使用して取得された音素のセットに基づいて、前記最も最近に受け取られたオーディオデータの前記取得された一部の発声発音を生成するステップと、
を含む、請求項15に記載の非一時的コンピュータ可読媒体。 - 前記動作は、
前記取得された発声発音を含むように発音辞書を更新することに応答して、前記発声発音に関連付けられたグローバルカウンタを増分するステップをさらに含む、請求項15に記載の非一時的コンピュータ可読媒体。 - 前記動作は、
前記発声発音に関連付けられたグローバルカウンタが所定のしきい値を超えることを判定するステップと、
前記発声発音に関連付けられた前記グローバルカウンタが所定のしきい値を超えることを判定することに応答して、正しい翻音に関連付けられた前記発声発音を含むように、前記エンティティ名に関連付けられたグローバル発音辞書の発音辞書エントリを更新するステップと、
をさらに含む、請求項15に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/014,213 US10152965B2 (en) | 2016-02-03 | 2016-02-03 | Learning personalized entity pronunciations |
US15/014,213 | 2016-02-03 | ||
PCT/US2016/063316 WO2017136028A1 (en) | 2016-02-03 | 2016-11-22 | Learning personalized entity pronunciations |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018532165A true JP2018532165A (ja) | 2018-11-01 |
JP6588637B2 JP6588637B2 (ja) | 2019-10-09 |
Family
ID=57518006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018522544A Active JP6588637B2 (ja) | 2016-02-03 | 2016-11-22 | 個別化されたエンティティ発音の学習 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10152965B2 (ja) |
EP (1) | EP3365890B1 (ja) |
JP (1) | JP6588637B2 (ja) |
KR (1) | KR102100389B1 (ja) |
CN (1) | CN107039038B (ja) |
DE (2) | DE202016008260U1 (ja) |
WO (1) | WO2017136028A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9741337B1 (en) * | 2017-04-03 | 2017-08-22 | Green Key Technologies Llc | Adaptive self-trained computer engines with associated databases and methods of use thereof |
US10449440B2 (en) | 2017-06-30 | 2019-10-22 | Electronic Arts Inc. | Interactive voice-controlled companion application for a video game |
US20190073994A1 (en) * | 2017-09-05 | 2019-03-07 | Microsoft Technology Licensing, Llc | Self-correcting computer based name entity pronunciations for speech recognition and synthesis |
US10621317B1 (en) | 2017-09-14 | 2020-04-14 | Electronic Arts Inc. | Audio-based device authentication system |
US10546580B2 (en) * | 2017-12-05 | 2020-01-28 | Toyota Motor Engineering & Manufacuturing North America, Inc. | Systems and methods for determining correct pronunciation of dictated words |
US10629192B1 (en) * | 2018-01-09 | 2020-04-21 | Electronic Arts Inc. | Intelligent personalized speech recognition |
US10636423B2 (en) * | 2018-02-21 | 2020-04-28 | Motorola Solutions, Inc. | System and method for managing speech recognition |
US11182565B2 (en) | 2018-02-23 | 2021-11-23 | Samsung Electronics Co., Ltd. | Method to learn personalized intents |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11010436B1 (en) | 2018-04-20 | 2021-05-18 | Facebook, Inc. | Engaging users by personalized composing-content recommendation |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US11314940B2 (en) | 2018-05-22 | 2022-04-26 | Samsung Electronics Co., Ltd. | Cross domain personalized vocabulary learning in intelligent assistants |
US11437025B2 (en) * | 2018-10-04 | 2022-09-06 | Google Llc | Cross-lingual speech recognition |
US10930274B2 (en) | 2018-11-30 | 2021-02-23 | International Business Machines Corporation | Personalized pronunciation hints based on user speech |
US10926173B2 (en) | 2019-06-10 | 2021-02-23 | Electronic Arts Inc. | Custom voice control of video game character |
US20220274617A1 (en) * | 2019-07-10 | 2022-09-01 | Lg Electronics Inc. | Vehicle control method and intelligent computing device for controlling vehicle |
CN113362828B (zh) * | 2020-03-04 | 2022-07-05 | 阿波罗智联(北京)科技有限公司 | 用于识别语音的方法和装置 |
US12080289B2 (en) | 2020-12-22 | 2024-09-03 | Samsung Electronics Co., Ltd. | Electronic apparatus, system comprising electronic apparatus and server and controlling method thereof |
US11699430B2 (en) * | 2021-04-30 | 2023-07-11 | International Business Machines Corporation | Using speech to text data in training text to speech models |
US12028176B2 (en) | 2021-06-25 | 2024-07-02 | Microsoft Technology Licensing, Llc | Machine-learning-model based name pronunciation |
WO2023149644A1 (ko) * | 2022-02-03 | 2023-08-10 | 삼성전자주식회사 | 전자 장치 및 사용자 언어 모델 생성 방법 |
KR102568930B1 (ko) * | 2022-10-27 | 2023-08-22 | 주식회사 액션파워 | Stt 결과에 기초하여 새로운 음성을 생성하는 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06175688A (ja) * | 1992-12-08 | 1994-06-24 | Toshiba Corp | 音声認識装置 |
JPH10254870A (ja) * | 1997-03-06 | 1998-09-25 | Toshiba Corp | 共有辞書管理方法および共有辞書管理システム |
JP2002221979A (ja) * | 2001-01-24 | 2002-08-09 | Matsushita Electric Ind Co Ltd | 音声合成装置、言語辞書メンテナンス方法および言語辞書メンテナンス装置 |
JP2014048506A (ja) * | 2012-08-31 | 2014-03-17 | National Institute Of Information & Communication Technology | 単語登録装置及びそのためのコンピュータプログラム |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5029200A (en) * | 1989-05-02 | 1991-07-02 | At&T Bell Laboratories | Voice message system using synthetic speech |
TW274135B (ja) * | 1994-09-14 | 1996-04-11 | Hitachi Seisakusyo Kk | |
US7283964B1 (en) * | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US8065155B1 (en) * | 1999-06-10 | 2011-11-22 | Gazdzinski Robert F | Adaptive advertising apparatus and methods |
JP2001013985A (ja) * | 1999-07-01 | 2001-01-19 | Meidensha Corp | 音声認識システムの辞書管理方式 |
US6738738B2 (en) * | 2000-12-23 | 2004-05-18 | Tellme Networks, Inc. | Automated transformation from American English to British English |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US6985865B1 (en) * | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US8577681B2 (en) * | 2003-09-11 | 2013-11-05 | Nuance Communications, Inc. | Pronunciation discovery for spoken words |
US7280963B1 (en) * | 2003-09-12 | 2007-10-09 | Nuance Communications, Inc. | Method for learning linguistically valid word pronunciations from acoustic data |
US7266495B1 (en) * | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
US7299181B2 (en) * | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
US8255223B2 (en) * | 2004-12-03 | 2012-08-28 | Microsoft Corporation | User authentication by combining speaker verification and reverse turing test |
WO2007094684A2 (en) * | 2006-02-17 | 2007-08-23 | Lumex As | Method and system for verification of uncertainly recognized words in an ocr system |
US7756708B2 (en) * | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
GB2457855B (en) * | 2006-11-30 | 2011-01-12 | Nat Inst Of Advanced Ind Scien | Speech recognition system and speech recognition system program |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
JP2009237285A (ja) * | 2008-03-27 | 2009-10-15 | Toshiba Corp | 人物名付与装置および方法 |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US20120253817A1 (en) * | 2011-04-04 | 2012-10-04 | Mitel Networks Corporation | Mobile speech attendant access |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US8798995B1 (en) * | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
CN102779508B (zh) * | 2012-03-31 | 2016-11-09 | 科大讯飞股份有限公司 | 语音库生成设备及其方法、语音合成系统及其方法 |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
US9741339B2 (en) * | 2013-06-28 | 2017-08-22 | Google Inc. | Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores |
US10885918B2 (en) * | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US9489943B2 (en) * | 2013-10-16 | 2016-11-08 | Interactive Intelligence Group, Inc. | System and method for learning alternate pronunciations for speech recognition |
US9263032B2 (en) * | 2013-10-24 | 2016-02-16 | Honeywell International Inc. | Voice-responsive building management system |
US9589562B2 (en) * | 2014-02-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Pronunciation learning through correction logs |
US9773499B2 (en) * | 2014-06-18 | 2017-09-26 | Google Inc. | Entity name recognition based on entity type |
CN104538031B (zh) * | 2014-12-15 | 2017-09-01 | 北京云知声信息技术有限公司 | 智能语音服务开发云平台及方法 |
US10102852B2 (en) * | 2015-04-14 | 2018-10-16 | Google Llc | Personalized speech synthesis for acknowledging voice actions |
CN105185377B (zh) * | 2015-09-24 | 2019-07-09 | 百度在线网络技术(北京)有限公司 | 一种基于语音的文件生成方法及装置 |
-
2016
- 2016-02-03 US US15/014,213 patent/US10152965B2/en active Active
- 2016-11-22 WO PCT/US2016/063316 patent/WO2017136028A1/en active Application Filing
- 2016-11-22 EP EP16808879.7A patent/EP3365890B1/en active Active
- 2016-11-22 KR KR1020187013090A patent/KR102100389B1/ko active IP Right Grant
- 2016-11-22 JP JP2018522544A patent/JP6588637B2/ja active Active
- 2016-12-28 DE DE202016008260.5U patent/DE202016008260U1/de active Active
- 2016-12-28 DE DE102016125812.1A patent/DE102016125812A1/de not_active Withdrawn
- 2016-12-29 CN CN201611243235.9A patent/CN107039038B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06175688A (ja) * | 1992-12-08 | 1994-06-24 | Toshiba Corp | 音声認識装置 |
JPH10254870A (ja) * | 1997-03-06 | 1998-09-25 | Toshiba Corp | 共有辞書管理方法および共有辞書管理システム |
JP2002221979A (ja) * | 2001-01-24 | 2002-08-09 | Matsushita Electric Ind Co Ltd | 音声合成装置、言語辞書メンテナンス方法および言語辞書メンテナンス装置 |
JP2014048506A (ja) * | 2012-08-31 | 2014-03-17 | National Institute Of Information & Communication Technology | 単語登録装置及びそのためのコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR102100389B1 (ko) | 2020-05-15 |
DE202016008260U1 (de) | 2017-06-30 |
CN107039038A (zh) | 2017-08-11 |
CN107039038B (zh) | 2020-06-19 |
WO2017136028A1 (en) | 2017-08-10 |
EP3365890A1 (en) | 2018-08-29 |
EP3365890B1 (en) | 2020-02-26 |
DE102016125812A1 (de) | 2017-08-03 |
US10152965B2 (en) | 2018-12-11 |
KR20180064504A (ko) | 2018-06-14 |
JP6588637B2 (ja) | 2019-10-09 |
US20170221475A1 (en) | 2017-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6588637B2 (ja) | 個別化されたエンティティ発音の学習 | |
US11727219B2 (en) | System and method for inferring user intent from speech inputs | |
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
KR101418163B1 (ko) | 컨텍스트 정보를 이용한 음성 인식 복구 | |
US9966060B2 (en) | System and method for user-specified pronunciation of words for speech synthesis and recognition | |
CN106796788B (zh) | 基于用户反馈来改善自动语音识别 | |
US10860289B2 (en) | Flexible voice-based information retrieval system for virtual assistant | |
US11501764B2 (en) | Apparatus for media entity pronunciation using deep learning | |
US10586528B2 (en) | Domain-specific speech recognizers in a digital medium environment | |
JP6625772B2 (ja) | 検索方法及びそれを用いた電子機器 | |
US20190073994A1 (en) | Self-correcting computer based name entity pronunciations for speech recognition and synthesis | |
JP2018063271A (ja) | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 | |
JP2015052745A (ja) | 情報処理装置、制御方法、及びプログラム | |
JP2018063272A (ja) | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 | |
Rupitz et al. | Development of an Amazon Alexa App for a University Online Search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190819 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190912 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6588637 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |