JP6821814B2 - 自動化された発話発音帰属化 - Google Patents
自動化された発話発音帰属化 Download PDFInfo
- Publication number
- JP6821814B2 JP6821814B2 JP2019535755A JP2019535755A JP6821814B2 JP 6821814 B2 JP6821814 B2 JP 6821814B2 JP 2019535755 A JP2019535755 A JP 2019535755A JP 2019535755 A JP2019535755 A JP 2019535755A JP 6821814 B2 JP6821814 B2 JP 6821814B2
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- pronunciation
- user
- user profile
- shared device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 description 40
- 238000004590 computer program Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 230000003993 interaction Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 229930188970 Justin Natural products 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/54—Presence management, e.g. monitoring or registration for receipt of user log-on information, or the connection status of the users
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Description
102 ユーザ
104 言葉
106 言葉
110 ユーザデバイス
120 コンピューティングデバイス、共用デバイス
122 JUH-stin
124 Juss-TEEN
130 返答
200 システム
210 音声入力
220 共用デバイス
230 マイクロホン
240 ユーザプロファイルデータベース
250 候補ユーザプロファイルリスト
260 近接性検出器
270 ソーシャルコネクティビティデータベース
280 スピーカ
290 オーディオ出力
300 発話発音帰属化プロセス、プロセス
400 コンピュータデバイス、コンピューティングデバイス
402 プロセッサ、構成要素
404 メモリ、構成要素
406 記憶デバイス、構成要素
408 高速インターフェイス、構成要素、高速コントローラ
410 高速拡張ポート、構成要素
412 低速インターフェイス、構成要素、低速コントローラ
414 低速バス、低速拡張ポート
416 ディスプレイ
420 標準的なサーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピュータデバイス、コンピューティングデバイス、デバイス、GPS(全地球測位システム)受信機モジュール
452 プロセッサ、構成要素、拡張インターフェイス
454 ディスプレイ、構成要素、拡張メモリ
456 ディスプレイインターフェイス
458 制御インターフェイス
460 オーディオコーデック
462 外部インターフェイス
464 メモリ、構成要素
466 通信インターフェイス、構成要素
468 トランシーバ、構成要素、無線周波数トランシーバ
480 携帯電話
482 スマートフォン
Claims (13)
- 共用デバイスと関連付けられている候補ユーザプロファイルを決定するステップと、
前記候補ユーザプロファイルから、前記共用デバイスと関連付けられていると決定される前記候補ユーザプロファイルのうちの少なくとも1つの候補ユーザプロファイルと関連付けられる候補発音属性を識別するステップと、
前記共用デバイスにおいて、話される言葉を受信するステップと、
前記話される言葉に対応する、受信されるオーディオデータに基づいて、受信される発音属性を決定するステップと、
前記受信される発音属性を、前記候補発音属性のうちの少なくとも1つの候補発音属性と比較するステップと、
前記受信される発音属性と、前記候補発音属性のうちの少なくとも1つの候補発音属性との前記比較の結果に基づいて、前記候補発音属性から特定の発音属性を選択するステップと、
前記話される言葉へのオーディオ応答を提供するステップであって、前記オーディオ応答は、前記候補発音属性から選択される前記特定の発音を含む、ステップと
を含み、
前記共用デバイスと関連付けられている前記候補ユーザプロファイルを決定するステップは、
複数のユーザプロファイルの各々と前記共用デバイスとの間の関係性を決定するステップと、
各々のユーザプロファイルに対して、前記関係性が、前記ユーザプロファイルと前記共用デバイスとの間の関連付けを示すかどうかを決定するステップと、
前記共用デバイスとの前記関連付けを示す前記関係性を有する各々のユーザプロファイルに対して、前記ユーザプロファイルを、前記共用デバイスと関連付けられる前記候補ユーザプロファイルのうちの1つの候補ユーザプロファイルであると識別するステップと
を含む、コンピュータ実装方法。 - 発話認識プロセスを実行して、前記話される言葉に対応する、前記受信されるオーディオデータに基づいて、前記受信される発音属性を決定するステップを含む、請求項1に記載のコンピュータ実装方法。
- 前記複数のユーザプロファイルの各々に対して、前記関係性は、前記ユーザプロファイルが前記共用デバイスに対してログインされたかどうか、または、前記ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスが前記共用デバイスと通信したかどうかの記録を含む、請求項1または2に記載のコンピュータ実装方法。
- 前記複数のユーザプロファイルの各々に対して、前記関係性は、前記共用デバイスに対する、前記ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスの地理的近接性を含む、請求項1または2に記載のコンピュータ実装方法。
- 前記候補ユーザプロファイルのうちの各々のユーザプロファイルは、特定の発音を表す識別子と関連付けられる1つまたは複数の発音属性を含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
- 1つまたは複数のコンピュータと、命令を記憶した1つまたは複数の記憶デバイスとを備えるシステムであって、前記命令は、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、
共用デバイスと関連付けられている候補ユーザプロファイルを決定することと、
前記候補ユーザプロファイルから、前記共用デバイスと関連付けられていると決定される前記候補ユーザプロファイルのうちの少なくとも1つの候補ユーザプロファイルと関連付けられる候補発音属性を識別することと、
前記共用デバイスにおいて、話される言葉を受信することと、
前記話される言葉に対応する、受信されるオーディオデータに基づいて、受信される発音属性を決定することと、
前記受信される発音属性を、前記候補発音属性のうちの少なくとも1つの候補発音属性と比較することと、
前記受信される発音属性と、前記候補発音属性のうちの少なくとも1つの候補発音属性との前記比較の結果に基づいて、前記候補発音属性から特定の発音属性を選択することと、
前記話される言葉へのオーディオ応答を提供することであって、前記オーディオ応答は、前記候補発音属性から選択される前記特定の発音を含む、提供することと
を含む動作を実行させるように動作可能であり、
前記共用デバイスと関連付けられている前記候補ユーザプロファイルを決定することは、
複数のユーザプロファイルの各々と前記共用デバイスとの間の関係性を決定することと、
各々のユーザプロファイルに対して、前記関係性が、前記ユーザプロファイルと前記共用デバイスとの間の関連付けを示すかどうかを決定することと、
前記共用デバイスとの前記関連付けを示す前記関係性を有する各々のユーザプロファイルに対して、前記ユーザプロファイルを、前記共用デバイスと関連付けられる前記候補ユーザプロファイルのうちの1つの候補ユーザプロファイルであると識別することと
を含む、システム。 - 前記複数のユーザプロファイルの各々に対して、前記関係性は、前記ユーザプロファイルが前記共用デバイスに対してログインされたかどうか、または、前記ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスが前記共用デバイスと通信したかどうかの記録を含む、請求項6に記載のシステム。
- 前記複数のユーザプロファイルの各々に対して、前記関係性は、前記共用デバイスに対する、前記ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスの地理的近接性を含む、請求項6に記載のシステム。
- 前記候補ユーザプロファイルのうちの各々のユーザプロファイルは、特定の発音を表す識別子と関連付けられる1つまたは複数の発音属性を含む、請求項6から8のいずれか一項に記載のシステム。
- 1つまたは複数のコンピュータにより実行可能な命令を記憶したコンピュータ可読記憶デバイスであって、前記命令は、実行されると、前記1つまたは複数のコンピュータに、
共用デバイスと関連付けられている候補ユーザプロファイルを決定することと、
前記候補ユーザプロファイルから、前記共用デバイスと関連付けられていると決定される前記候補ユーザプロファイルのうちの少なくとも1つの候補ユーザプロファイルと関連付けられる候補発音属性を識別することと、
前記共用デバイスにおいて、話される言葉を受信することと、
前記話される言葉に対応する、受信されるオーディオデータに基づいて、受信される発音属性を決定することと、
前記受信される発音属性を、前記候補発音属性のうちの少なくとも1つの候補発音属性と比較することと、
前記受信される発音属性と、前記候補発音属性のうちの少なくとも1つの候補発音属性との前記比較の結果に基づいて、前記候補発音属性から特定の発音属性を選択することと、
前記話される言葉へのオーディオ応答を提供することであって、前記オーディオ応答は、前記候補発音属性から選択される前記特定の発音を含む、提供することと
を含む動作を実行させ、
前記共用デバイスと関連付けられている前記候補ユーザプロファイルを決定することは、
複数のユーザプロファイルの各々と前記共用デバイスとの間の関係性を決定することと、
各々のユーザプロファイルに対して、前記関係性が、前記ユーザプロファイルと前記共用デバイスとの間の関連付けを示すかどうかを決定することと、
前記共用デバイスとの前記関連付けを示す前記関係性を有する各々のユーザプロファイルに対して、前記ユーザプロファイルを、前記共用デバイスと関連付けられる前記候補ユーザプロファイルのうちの1つの候補ユーザプロファイルであると識別することと
を含む、コンピュータ可読記憶デバイス。 - 前記複数のユーザプロファイルの各々に対して、前記関係性は、前記ユーザプロファイルが前記共用デバイスに対してログインされたかどうか、または、前記ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスが前記共用デバイスと通信したかどうかの記録を含む、請求項10に記載のコンピュータ可読記憶デバイス。
- 前記複数のユーザプロファイルの各々に対して、前記関係性は、前記共用デバイスに対する、前記ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスの地理的近接性を含む、請求項10に記載のコンピュータ可読記憶デバイス。
- 前記候補ユーザプロファイルのうちの各々のユーザプロファイルは、特定の発音を表す識別子と関連付けられる1つまたは複数の発音属性を含む、請求項10から12のいずれか一項に記載のコンピュータ可読記憶デバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/394,104 US10013971B1 (en) | 2016-12-29 | 2016-12-29 | Automated speech pronunciation attribution |
US15/394,104 | 2016-12-29 | ||
PCT/US2017/042788 WO2018125289A1 (en) | 2016-12-29 | 2017-07-19 | Automated speech pronunciation attribution |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021000457A Division JP7163424B2 (ja) | 2016-12-29 | 2021-01-05 | 自動化された発話発音帰属化 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020503561A JP2020503561A (ja) | 2020-01-30 |
JP6821814B2 true JP6821814B2 (ja) | 2021-01-27 |
Family
ID=59485451
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535755A Active JP6821814B2 (ja) | 2016-12-29 | 2017-07-19 | 自動化された発話発音帰属化 |
JP2021000457A Active JP7163424B2 (ja) | 2016-12-29 | 2021-01-05 | 自動化された発話発音帰属化 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021000457A Active JP7163424B2 (ja) | 2016-12-29 | 2021-01-05 | 自動化された発話発音帰属化 |
Country Status (8)
Country | Link |
---|---|
US (3) | US10013971B1 (ja) |
EP (1) | EP3485486B1 (ja) |
JP (2) | JP6821814B2 (ja) |
KR (2) | KR102493292B1 (ja) |
CN (2) | CN108257608B (ja) |
DE (2) | DE102017121913A1 (ja) |
GB (1) | GB2558353A (ja) |
WO (1) | WO2018125289A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10013971B1 (en) * | 2016-12-29 | 2018-07-03 | Google Llc | Automated speech pronunciation attribution |
US11632345B1 (en) * | 2017-03-31 | 2023-04-18 | Amazon Technologies, Inc. | Message management for communal account |
US20190073994A1 (en) * | 2017-09-05 | 2019-03-07 | Microsoft Technology Licensing, Llc | Self-correcting computer based name entity pronunciations for speech recognition and synthesis |
US10930274B2 (en) | 2018-11-30 | 2021-02-23 | International Business Machines Corporation | Personalized pronunciation hints based on user speech |
WO2020213767A1 (ko) * | 2019-04-19 | 2020-10-22 | 엘지전자 주식회사 | 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체 |
US11263400B2 (en) * | 2019-07-05 | 2022-03-01 | Google Llc | Identifying entity attribute relations |
KR20210089295A (ko) * | 2020-01-07 | 2021-07-16 | 엘지전자 주식회사 | 인공지능 기반의 정보 처리 방법 |
CN111554300B (zh) * | 2020-06-30 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、存储介质及设备 |
US11615795B2 (en) | 2020-08-03 | 2023-03-28 | HCL America Inc. | Method and system for providing secured access to services rendered by a digital voice assistant |
US12028176B2 (en) * | 2021-06-25 | 2024-07-02 | Microsoft Technology Licensing, Llc | Machine-learning-model based name pronunciation |
US12020683B2 (en) * | 2021-10-28 | 2024-06-25 | Microsoft Technology Licensing, Llc | Real-time name mispronunciation detection |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5029200A (en) | 1989-05-02 | 1991-07-02 | At&T Bell Laboratories | Voice message system using synthetic speech |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
TW274135B (ja) | 1994-09-14 | 1996-04-11 | Hitachi Seisakusyo Kk | |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US7283964B1 (en) | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US8065155B1 (en) | 1999-06-10 | 2011-11-22 | Gazdzinski Robert F | Adaptive advertising apparatus and methods |
JP3542026B2 (ja) | 2000-05-02 | 2004-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 |
US6738738B2 (en) | 2000-12-23 | 2004-05-18 | Tellme Networks, Inc. | Automated transformation from American English to British English |
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
US7043431B2 (en) | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US6985865B1 (en) | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7027832B2 (en) * | 2001-11-28 | 2006-04-11 | Qualcomm Incorporated | Providing custom audio profile in wireless device |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
US8577681B2 (en) | 2003-09-11 | 2013-11-05 | Nuance Communications, Inc. | Pronunciation discovery for spoken words |
US7266495B1 (en) | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
ATE426526T1 (de) * | 2003-10-21 | 2009-04-15 | Johnson Controls Tech Co | System und verfahren zur auswahl eines benutzersprachprofils fur eine vorrichtung in einem fahrzeug |
US7299181B2 (en) | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
US8255223B2 (en) | 2004-12-03 | 2012-08-28 | Microsoft Corporation | User authentication by combining speaker verification and reverse turing test |
US8315484B2 (en) | 2006-02-17 | 2012-11-20 | Lumex As | Method and system for verification of uncertainly recognized words in an OCR system |
US8015014B2 (en) | 2006-06-16 | 2011-09-06 | Storz Endoskop Produktions Gmbh | Speech recognition system with user profiles management component |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
WO2008069139A1 (ja) | 2006-11-30 | 2008-06-12 | National Institute Of Advanced Industrial Science And Technology | 音声認識システム及び音声認識システム用プログラム |
US20080153465A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8032383B1 (en) * | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
CN101441869A (zh) * | 2007-11-21 | 2009-05-27 | 联想(北京)有限公司 | 语音识别终端用户身份的方法及终端 |
CN101266600A (zh) * | 2008-05-07 | 2008-09-17 | 陈光火 | 多媒体多语言互动同步翻译方法 |
US8510103B2 (en) | 2009-10-15 | 2013-08-13 | Paul Angott | System and method for voice recognition |
US8827712B2 (en) * | 2010-04-07 | 2014-09-09 | Max Value Solutions Intl., LLC | Method and system for name pronunciation guide services |
CN102682763B (zh) | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US20120253817A1 (en) | 2011-04-04 | 2012-10-04 | Mitel Networks Corporation | Mobile speech attendant access |
US9009041B2 (en) | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US20130110511A1 (en) | 2011-10-31 | 2013-05-02 | Telcordia Technologies, Inc. | System, Method and Program for Customized Voice Communication |
US8719202B1 (en) * | 2011-11-22 | 2014-05-06 | Intellectual Ventures Fund 79 Llc | Methods, devices, and mediums associated with monitoring and managing exercise fitness |
CN104854537B (zh) * | 2013-01-04 | 2018-08-10 | 英特尔公司 | 与计算设备的多距离、多模态自然用户交互 |
US9460088B1 (en) | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
US9298811B2 (en) * | 2013-07-15 | 2016-03-29 | International Business Machines Corporation | Automated confirmation and disambiguation modules in voice applications |
CN103442290A (zh) * | 2013-08-15 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 基于电视终端用户及语音的信息提供方法及系统 |
US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US9489943B2 (en) | 2013-10-16 | 2016-11-08 | Interactive Intelligence Group, Inc. | System and method for learning alternate pronunciations for speech recognition |
US9263032B2 (en) | 2013-10-24 | 2016-02-16 | Honeywell International Inc. | Voice-responsive building management system |
US9589562B2 (en) | 2014-02-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Pronunciation learning through correction logs |
US9711141B2 (en) * | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10102852B2 (en) | 2015-04-14 | 2018-10-16 | Google Llc | Personalized speech synthesis for acknowledging voice actions |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10832684B2 (en) | 2016-08-31 | 2020-11-10 | Microsoft Technology Licensing, Llc | Personalization of experiences with digital assistants in communal settings through voice and query processing |
US10013971B1 (en) * | 2016-12-29 | 2018-07-03 | Google Llc | Automated speech pronunciation attribution |
-
2016
- 2016-12-29 US US15/394,104 patent/US10013971B1/en active Active
-
2017
- 2017-07-19 WO PCT/US2017/042788 patent/WO2018125289A1/en unknown
- 2017-07-19 JP JP2019535755A patent/JP6821814B2/ja active Active
- 2017-07-19 KR KR1020217021018A patent/KR102493292B1/ko active IP Right Grant
- 2017-07-19 EP EP17745942.7A patent/EP3485486B1/en active Active
- 2017-07-19 KR KR1020197021660A patent/KR102276282B1/ko active IP Right Grant
- 2017-09-21 DE DE102017121913.7A patent/DE102017121913A1/de active Pending
- 2017-09-21 DE DE202017105741.0U patent/DE202017105741U1/de active Active
- 2017-09-29 GB GB1715809.8A patent/GB2558353A/en not_active Withdrawn
- 2017-09-30 CN CN201710915606.1A patent/CN108257608B/zh active Active
- 2017-09-30 CN CN201910505084.7A patent/CN110349591B/zh active Active
-
2018
- 2018-06-01 US US15/995,380 patent/US10559296B2/en active Active
-
2019
- 2019-12-20 US US16/722,942 patent/US11081099B2/en active Active
-
2021
- 2021-01-05 JP JP2021000457A patent/JP7163424B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
DE202017105741U1 (de) | 2018-04-03 |
DE102017121913A1 (de) | 2018-07-05 |
US20200243063A1 (en) | 2020-07-30 |
JP2021060620A (ja) | 2021-04-15 |
KR102493292B1 (ko) | 2023-01-30 |
EP3485486B1 (en) | 2019-11-13 |
GB2558353A (en) | 2018-07-11 |
KR20190100309A (ko) | 2019-08-28 |
US20180286382A1 (en) | 2018-10-04 |
EP3485486A1 (en) | 2019-05-22 |
JP2020503561A (ja) | 2020-01-30 |
GB201715809D0 (en) | 2017-11-15 |
WO2018125289A1 (en) | 2018-07-05 |
US10559296B2 (en) | 2020-02-11 |
CN108257608A (zh) | 2018-07-06 |
KR20210088743A (ko) | 2021-07-14 |
US20180190262A1 (en) | 2018-07-05 |
CN108257608B (zh) | 2019-06-28 |
US11081099B2 (en) | 2021-08-03 |
CN110349591B (zh) | 2021-02-26 |
KR102276282B1 (ko) | 2021-07-12 |
CN110349591A (zh) | 2019-10-18 |
US10013971B1 (en) | 2018-07-03 |
JP7163424B2 (ja) | 2022-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6821814B2 (ja) | 自動化された発話発音帰属化 | |
US11430442B2 (en) | Contextual hotwords | |
JP6474762B2 (ja) | 発話者の検証のための動的な閾値 | |
JP6630765B2 (ja) | 個別化されたホットワード検出モデル | |
KR102201937B1 (ko) | 후속 음성 쿼리 예측 | |
US20180039477A1 (en) | Component libraries for voice interaction services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20190802 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190802 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6821814 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |