JP7163424B2 - 自動化された発話発音帰属化 - Google Patents
自動化された発話発音帰属化 Download PDFInfo
- Publication number
- JP7163424B2 JP7163424B2 JP2021000457A JP2021000457A JP7163424B2 JP 7163424 B2 JP7163424 B2 JP 7163424B2 JP 2021000457 A JP2021000457 A JP 2021000457A JP 2021000457 A JP2021000457 A JP 2021000457A JP 7163424 B2 JP7163424 B2 JP 7163424B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- determining
- candidate
- user profile
- user profiles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 32
- 230000009471 action Effects 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 18
- 230000002730 additional effect Effects 0.000 claims 8
- 230000015654 memory Effects 0.000 description 41
- 238000004590 computer program Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 16
- 230000003993 interaction Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 229930188970 Justin Natural products 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/54—Presence management, e.g. monitoring or registration for receipt of user log-on information, or the connection status of the users
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Description
102 ユーザ
104 言葉
106 言葉
110 ユーザデバイス
120 コンピューティングデバイス、共用デバイス
122 JUH-stin
124 Juss-TEEN
130 返答
200 システム
210 音声入力
220 共用デバイス
230 マイクロホン
240 ユーザプロファイルデータベース
250 候補ユーザプロファイルリスト
260 近接性検出器
270 ソーシャルコネクティビティデータベース
280 スピーカ
290 オーディオ出力
300 発話発音帰属化プロセス、プロセス
400 コンピュータデバイス、コンピューティングデバイス
402 プロセッサ、構成要素
404 メモリ、構成要素
406 記憶デバイス、構成要素
408 高速インターフェイス、構成要素、高速コントローラ
410 高速拡張ポート、構成要素
412 低速インターフェイス、構成要素、低速コントローラ
414 低速バス、低速拡張ポート
416 ディスプレイ
420 標準的なサーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピュータデバイス、コンピューティングデバイス、デバイス、GPS(全地球測位システム)受信機モジュール
452 プロセッサ、構成要素、拡張インターフェイス
454 ディスプレイ、構成要素、拡張メモリ
456 ディスプレイインターフェイス
458 制御インターフェイス
460 オーディオコーデック
462 外部インターフェイス
464 メモリ、構成要素
466 通信インターフェイス、構成要素
468 トランシーバ、構成要素、無線周波数トランシーバ
480 携帯電話
482 スマートフォン
Claims (14)
共用デジタルアシスタントデバイスにおいて、ユーザの話される言葉を受信するステップと、
前記話される言葉が、複数の候補ユーザプロファイルとマッチングすると決定するステップと、
前記話される言葉が、前記共用デジタルアシスタントデバイスのアシスタントによって実行されるべきアクションに関連付けられたコマンドに対応すると決定するステップと、
前記アシスタントによって実行されるべき前記アクションが、特有のユーザプロファイルに帰属化されるべきであると決定するステップと、
前記アクションが前記特有のユーザプロファイルに帰属化されるべきであるとの前記決定に基づいて、前記候補ユーザプロファイルのうちの特定のユーザプロファイルを選択するステップであって、
前記特定のユーザプロファイルの前記選択が、
前記共用デジタルアシスタントデバイスのユーザインターフェースにおいて、識別する情報に関わる質問を提供するステップと、
前記共用デジタルアシスタントデバイスにおいて、前記質問に応答するユーザ入力を受信するステップと、
前記質問に応答する前記ユーザ入力と、前記複数の候補ユーザプロファイルのうちの少なくとも1つについての対応する識別する情報とを比較するステップと、
前記比較に基づいて、前記複数の候補ユーザプロファイルのうちの特定のユーザプロファイルを、前記特有のユーザプロファイルとして、識別するステップと
を含む、ステップと、
前記特定のユーザプロファイルの前記識別に続いて、
前記アクションを前記特定のユーザプロファイルに帰属化させるステップと、
前記ユーザの前記話される言葉に対応する前記コマンドに関連付けられた前記アクションを実行するステップと、
前記共用デジタルアシスタントデバイスの前記ユーザインターフェースにおいて、前記コマンド、前記アクション、または前記帰属化に関わるオーディオ出力を提供するステップと
を含む、方法。
前記話される言葉の1つまたは複数の発音属性を決定するステップと、
前記話される言葉の前記1つまたは複数の発音属性と、複数のユーザプロファイルに関連付けられた対応する発音属性と比較するステップと、
前記比較に基づいて、前記複数のユーザプロファイルの前記複数の候補ユーザプロファイルを識別するステップと
を含む、請求項2に記載の方法。
前記追加の話される言葉が、前記共用デジタルアシスタントデバイスの前記アシスタントによって実行されるべき追加のアクションに関連付けられた追加のコマンドに対応すると決定するステップと、
前記追加の話される言葉が、複数の候補ユーザプロファイルにマッチングすると決定するステップと、
前記追加の話される言葉が、前記複数の候補ユーザプロファイルにマッチングするとの前記決定に続いて、
前記アシスタントによって実行されるべき前記追加のアクションが、データベースにおいて、特有のユーザプロファイルに帰属化されることを必要としないと決定するステップと、
前記追加のアクションが、前記特有のユーザプロファイルに帰属化されることを必要としないとの前記決定に基づいて、
前記共用デジタルアシスタントデバイスの前記ユーザインターフェースにおいて、前記追加のアクションまたは前記追加のコマンドに関わる追加のオーディオ出力を提供するステップと
をさらに含む、請求項1に記載の方法。
共用デジタルアシスタントデバイスにおいて、ユーザの話される言葉を受信することと、
前記話される言葉が、複数の候補ユーザプロファイルとマッチングすると決定することと、
前記話される言葉が、前記共用デジタルアシスタントデバイスのアシスタントによって実行されるべきアクションに関連付けられたコマンドに対応すると決定することと、
前記アシスタントによって実行されるべき前記アクションが、特有のユーザプロファイルに帰属化されるべきであると決定することと、
前記アクションが前記特有のユーザプロファイルに帰属化されるべきであるとの前記決定に基づいて、前記候補ユーザプロファイルのうちの特定のユーザプロファイルを選択することであって、
前記特定のユーザプロファイルの前記選択が、
前記共用デジタルアシスタントデバイスのユーザインターフェースにおいて、識別する情報に関わる質問を提供することと、
前記共用デジタルアシスタントデバイスにおいて、前記質問に応答するユーザ入力を受信することと、
前記質問に応答する前記ユーザ入力と、前記複数の候補ユーザプロファイルのうちの少なくとも1つについての対応する識別する情報とを比較することと、
前記比較に基づいて、前記複数の候補ユーザプロファイルのうちの特定のユーザプロファイルを、前記特有のユーザプロファイルとして、識別することと
を含む、選択することと、
前記特定のユーザプロファイルの前記識別に続いて、
前記アクションを前記特定のユーザプロファイルに帰属化させることと、
前記ユーザの前記話される言葉に対応する前記コマンドに関連付けられた前記アクションを実行することと、
前記共用デジタルアシスタントデバイスの前記ユーザインターフェースにおいて、前記コマンド、前記アクション、または前記帰属化に関わるオーディオ出力を提供することと
を含む動作を実行させるように動作可能である、システム。
前記話される言葉の1つまたは複数の発音属性を決定することと、
前記話される言葉の前記1つまたは複数の発音属性と、複数のユーザプロファイルに関連付けられた対応する発音属性と比較することと、
前記比較に基づいて、前記複数のユーザプロファイルの前記複数の候補ユーザプロファイルを識別することと
を含む、請求項9に記載のシステム。
前記共用デジタルアシスタントデバイスにおいて、ユーザの追加の話される言葉を受信することと、
前記追加の話される言葉が、前記共用デジタルアシスタントデバイスの前記アシスタントによって実行されるべき追加のアクションに関連付けられた追加のコマンドに対応すると決定することと、
前記追加の話される言葉が、複数の候補ユーザプロファイルにマッチングすると決定することと、
前記追加の話される言葉が、前記複数の候補ユーザプロファイルにマッチングするとの前記決定に続いて、
前記アシスタントによって実行されるべき前記追加のアクションが、データベースにおいて、特有のユーザプロファイルに帰属化されることを必要としないと決定することと、
前記追加のアクションが、前記特有のユーザプロファイルに帰属化されることを必要としないとの前記決定に基づいて、
前記共用デジタルアシスタントデバイスの前記ユーザインターフェースにおいて、前記追加のアクションまたは前記追加のコマンドに関わる追加のオーディオ出力を提供することと
を含む動作を実行させるように動作可能である命令をさらに含む、請求項8に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/394,104 | 2016-12-29 | ||
US15/394,104 US10013971B1 (en) | 2016-12-29 | 2016-12-29 | Automated speech pronunciation attribution |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535755A Division JP6821814B2 (ja) | 2016-12-29 | 2017-07-19 | 自動化された発話発音帰属化 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021060620A JP2021060620A (ja) | 2021-04-15 |
JP7163424B2 true JP7163424B2 (ja) | 2022-10-31 |
Family
ID=59485451
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535755A Active JP6821814B2 (ja) | 2016-12-29 | 2017-07-19 | 自動化された発話発音帰属化 |
JP2021000457A Active JP7163424B2 (ja) | 2016-12-29 | 2021-01-05 | 自動化された発話発音帰属化 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535755A Active JP6821814B2 (ja) | 2016-12-29 | 2017-07-19 | 自動化された発話発音帰属化 |
Country Status (8)
Country | Link |
---|---|
US (3) | US10013971B1 (ja) |
EP (1) | EP3485486B1 (ja) |
JP (2) | JP6821814B2 (ja) |
KR (2) | KR102276282B1 (ja) |
CN (2) | CN108257608B (ja) |
DE (2) | DE102017121913A1 (ja) |
GB (1) | GB2558353A (ja) |
WO (1) | WO2018125289A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10013971B1 (en) * | 2016-12-29 | 2018-07-03 | Google Llc | Automated speech pronunciation attribution |
US11632345B1 (en) * | 2017-03-31 | 2023-04-18 | Amazon Technologies, Inc. | Message management for communal account |
US20190073994A1 (en) * | 2017-09-05 | 2019-03-07 | Microsoft Technology Licensing, Llc | Self-correcting computer based name entity pronunciations for speech recognition and synthesis |
US10930274B2 (en) | 2018-11-30 | 2021-02-23 | International Business Machines Corporation | Personalized pronunciation hints based on user speech |
WO2020213767A1 (ko) * | 2019-04-19 | 2020-10-22 | 엘지전자 주식회사 | 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체 |
US11263400B2 (en) * | 2019-07-05 | 2022-03-01 | Google Llc | Identifying entity attribute relations |
KR20210089295A (ko) * | 2020-01-07 | 2021-07-16 | 엘지전자 주식회사 | 인공지능 기반의 정보 처리 방법 |
CN111554300B (zh) * | 2020-06-30 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、存储介质及设备 |
US11615795B2 (en) | 2020-08-03 | 2023-03-28 | HCL America Inc. | Method and system for providing secured access to services rendered by a digital voice assistant |
US20220417047A1 (en) * | 2021-06-25 | 2022-12-29 | Microsoft Technology Licensing, Llc | Machine-learning-model based name pronunciation |
US20230138820A1 (en) * | 2021-10-28 | 2023-05-04 | Microsoft Technology Licensing, Llc | Real-time name mispronunciation detection |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334301A (ja) | 2006-06-16 | 2007-12-27 | Storz Endoskop Produktions Gmbh | ユーザプロファイル管理コンポーネントを備えた音声認識システム |
JP2016122183A (ja) | 2014-12-09 | 2016-07-07 | アップル インコーポレイテッド | 音声合成における同綴異音異義語の曖昧さの解消 |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5029200A (en) | 1989-05-02 | 1991-07-02 | At&T Bell Laboratories | Voice message system using synthetic speech |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
TW274135B (ja) | 1994-09-14 | 1996-04-11 | Hitachi Seisakusyo Kk | |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US7283964B1 (en) | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US8065155B1 (en) | 1999-06-10 | 2011-11-22 | Gazdzinski Robert F | Adaptive advertising apparatus and methods |
JP3542026B2 (ja) | 2000-05-02 | 2004-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 |
US6738738B2 (en) | 2000-12-23 | 2004-05-18 | Tellme Networks, Inc. | Automated transformation from American English to British English |
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
US7043431B2 (en) | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US6985865B1 (en) | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7027832B2 (en) * | 2001-11-28 | 2006-04-11 | Qualcomm Incorporated | Providing custom audio profile in wireless device |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7593849B2 (en) * | 2003-01-28 | 2009-09-22 | Avaya, Inc. | Normalization of speech accent |
WO2005027093A1 (en) | 2003-09-11 | 2005-03-24 | Voice Signal Technologies, Inc. | Generation of an alternative pronunciation |
US7266495B1 (en) | 2003-09-12 | 2007-09-04 | Nuance Communications, Inc. | Method and system for learning linguistically valid word pronunciations from acoustic data |
ATE426526T1 (de) * | 2003-10-21 | 2009-04-15 | Johnson Controls Tech Co | System und verfahren zur auswahl eines benutzersprachprofils fur eine vorrichtung in einem fahrzeug |
US7299181B2 (en) | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
US8255223B2 (en) | 2004-12-03 | 2012-08-28 | Microsoft Corporation | User authentication by combining speaker verification and reverse turing test |
CN101443787B (zh) | 2006-02-17 | 2012-07-18 | 徕美股份公司 | 用于ocr系统中的不确定识别单词的验证的方法和系统 |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
GB2457855B (en) | 2006-11-30 | 2011-01-12 | Nat Inst Of Advanced Ind Scien | Speech recognition system and speech recognition system program |
US20080153465A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8032383B1 (en) * | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
CN101441869A (zh) * | 2007-11-21 | 2009-05-27 | 联想(北京)有限公司 | 语音识别终端用户身份的方法及终端 |
CN101266600A (zh) * | 2008-05-07 | 2008-09-17 | 陈光火 | 多媒体多语言互动同步翻译方法 |
US8510103B2 (en) | 2009-10-15 | 2013-08-13 | Paul Angott | System and method for voice recognition |
CA2795812A1 (en) * | 2010-04-07 | 2011-10-13 | Max Value Solutions INTL, LLC | Method and system for name pronunciation guide services |
CN102682763B (zh) | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US20120253817A1 (en) | 2011-04-04 | 2012-10-04 | Mitel Networks Corporation | Mobile speech attendant access |
US9009041B2 (en) | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US20130110511A1 (en) | 2011-10-31 | 2013-05-02 | Telcordia Technologies, Inc. | System, Method and Program for Customized Voice Communication |
US8719202B1 (en) * | 2011-11-22 | 2014-05-06 | Intellectual Ventures Fund 79 Llc | Methods, devices, and mediums associated with monitoring and managing exercise fitness |
CN104854537B (zh) * | 2013-01-04 | 2018-08-10 | 英特尔公司 | 与计算设备的多距离、多模态自然用户交互 |
US9460088B1 (en) | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
US9298811B2 (en) * | 2013-07-15 | 2016-03-29 | International Business Machines Corporation | Automated confirmation and disambiguation modules in voice applications |
CN103442290A (zh) * | 2013-08-15 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 基于电视终端用户及语音的信息提供方法及系统 |
US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US9489943B2 (en) | 2013-10-16 | 2016-11-08 | Interactive Intelligence Group, Inc. | System and method for learning alternate pronunciations for speech recognition |
US9263032B2 (en) | 2013-10-24 | 2016-02-16 | Honeywell International Inc. | Voice-responsive building management system |
US9589562B2 (en) | 2014-02-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Pronunciation learning through correction logs |
US10102852B2 (en) | 2015-04-14 | 2018-10-16 | Google Llc | Personalized speech synthesis for acknowledging voice actions |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10832684B2 (en) | 2016-08-31 | 2020-11-10 | Microsoft Technology Licensing, Llc | Personalization of experiences with digital assistants in communal settings through voice and query processing |
US10013971B1 (en) * | 2016-12-29 | 2018-07-03 | Google Llc | Automated speech pronunciation attribution |
-
2016
- 2016-12-29 US US15/394,104 patent/US10013971B1/en active Active
-
2017
- 2017-07-19 KR KR1020197021660A patent/KR102276282B1/ko active IP Right Grant
- 2017-07-19 EP EP17745942.7A patent/EP3485486B1/en active Active
- 2017-07-19 WO PCT/US2017/042788 patent/WO2018125289A1/en unknown
- 2017-07-19 KR KR1020217021018A patent/KR102493292B1/ko active IP Right Grant
- 2017-07-19 JP JP2019535755A patent/JP6821814B2/ja active Active
- 2017-09-21 DE DE102017121913.7A patent/DE102017121913A1/de active Pending
- 2017-09-21 DE DE202017105741.0U patent/DE202017105741U1/de active Active
- 2017-09-29 GB GB1715809.8A patent/GB2558353A/en not_active Withdrawn
- 2017-09-30 CN CN201710915606.1A patent/CN108257608B/zh active Active
- 2017-09-30 CN CN201910505084.7A patent/CN110349591B/zh active Active
-
2018
- 2018-06-01 US US15/995,380 patent/US10559296B2/en active Active
-
2019
- 2019-12-20 US US16/722,942 patent/US11081099B2/en active Active
-
2021
- 2021-01-05 JP JP2021000457A patent/JP7163424B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334301A (ja) | 2006-06-16 | 2007-12-27 | Storz Endoskop Produktions Gmbh | ユーザプロファイル管理コンポーネントを備えた音声認識システム |
JP2016122183A (ja) | 2014-12-09 | 2016-07-07 | アップル インコーポレイテッド | 音声合成における同綴異音異義語の曖昧さの解消 |
Also Published As
Publication number | Publication date |
---|---|
JP6821814B2 (ja) | 2021-01-27 |
GB2558353A (en) | 2018-07-11 |
US10559296B2 (en) | 2020-02-11 |
KR20210088743A (ko) | 2021-07-14 |
US10013971B1 (en) | 2018-07-03 |
US20180286382A1 (en) | 2018-10-04 |
CN110349591B (zh) | 2021-02-26 |
CN108257608B (zh) | 2019-06-28 |
JP2020503561A (ja) | 2020-01-30 |
US20200243063A1 (en) | 2020-07-30 |
DE202017105741U1 (de) | 2018-04-03 |
CN110349591A (zh) | 2019-10-18 |
US20180190262A1 (en) | 2018-07-05 |
EP3485486B1 (en) | 2019-11-13 |
KR102276282B1 (ko) | 2021-07-12 |
JP2021060620A (ja) | 2021-04-15 |
WO2018125289A1 (en) | 2018-07-05 |
US11081099B2 (en) | 2021-08-03 |
GB201715809D0 (en) | 2017-11-15 |
EP3485486A1 (en) | 2019-05-22 |
CN108257608A (zh) | 2018-07-06 |
DE102017121913A1 (de) | 2018-07-05 |
KR102493292B1 (ko) | 2023-01-30 |
KR20190100309A (ko) | 2019-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7163424B2 (ja) | 自動化された発話発音帰属化 | |
US10438593B2 (en) | Individualized hotword detection models | |
US11430442B2 (en) | Contextual hotwords | |
JP6474762B2 (ja) | 発話者の検証のための動的な閾値 | |
KR102201937B1 (ko) | 후속 음성 쿼리 예측 | |
JP6509903B2 (ja) | コロケーション情報を使用した話者照合 | |
US9576578B1 (en) | Contextual improvement of voice query recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210203 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7163424 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |