JP7136868B2 - 話者ダイアライゼーション - Google Patents
話者ダイアライゼーション Download PDFInfo
- Publication number
- JP7136868B2 JP7136868B2 JP2020190851A JP2020190851A JP7136868B2 JP 7136868 B2 JP7136868 B2 JP 7136868B2 JP 2020190851 A JP2020190851 A JP 2020190851A JP 2020190851 A JP2020190851 A JP 2020190851A JP 7136868 B2 JP7136868 B2 JP 7136868B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- speaker
- spoken
- user
- user device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 11
- 239000000872 buffer Substances 0.000 description 10
- 238000013518 transcription Methods 0.000 description 10
- 230000035897 transcription Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 230000000981 bystander Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
105 息子
110 母
115 コンピューティングデバイス
120 コンピューティングデバイス
125 娘
130 発話
135 発話
140 発話
145 オーディオ
150 無音
155 発話
160 オーディオ
165 ネットワーク
170 オーディオデータ
172 ホットワード
175 オーディオデータ
180 オーディオデータ
182 オーディオデータ
185 オーディオデータ
200 システム
202 オーディオサブシステム
204 マイクロフォン
206 アナログデジタル変換器
208 バッファ
210 ホットワーダ
212 オーディオデータ
214 ホットワードモデル
216 コマンド識別器
218 ダイアライゼーションモジュール
220 ホットワード
222 音声認識器
224 コマンド
226 タイミングデータ
228 オーディオデータの部分
230 オーディオデータの部分
232 オーディオデータの部分
234 ダイアライゼーションモデル
236 オーディオデータ
238 オーディオエディタ
240 アプリケーション設定
242 ユーザ設定
244 オーディオデータ
246 オーディオ部分
248 オーディオ部分
250 オーディオ部分
252 ユーザインターフェイスジェネレータ
400 コンピューティングデバイス
402 プロセッサ
404 メモリ
406 ストレージデバイス
408 高速インターフェイス
410 高速拡張ポート
412 低速インターフェイス
414 低速拡張ポート
416 ディスプレイ
420 サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピューティングデバイス
452 プロセッサ
454 ディスプレイ
456 ディスプレイインターフェイス
458 制御インターフェイス
460 オーディオコーデック
462 外部インターフェイス
464 メモリ
466 通信インターフェイス
468 トランシーバ
470 GPS受信機モジュール
472 拡張インターフェイス
474 拡張メモリ
480 携帯電話
482 スマートフォン
Claims (18)
- データ処理ハードウェアにおいて、ユーザデバイスのユーザによって話されていないオーディオデータを抑制するための選択肢の選択を示すユーザ入力表示を受信するステップであって、前記選択肢が、前記ユーザデバイスのスクリーンに表示されるグラフィカルユーザインターフェイス内で提示される、ステップと、
前記データ処理ハードウェアにおいて、複数の話者からの音声を含む発話に対応するオーディオデータを受信するステップと、
前記データ処理ハードウェアにより、前記ユーザデバイスのフォアグラウンドで実行されているアプリケーションを識別するステップと、
前記データ処理ハードウェアにより、話者識別モデルを用いて前記発話に対応する前記オーディオデータを処理して、
前記オーディオデータの第1の部分が前記ユーザデバイスの前記ユーザを含む第1の話者によって話されたこと、および
前記オーディオデータの第2の部分が異なる第2の話者により話されたこと
を決定するステップと、
前記ユーザデバイスの前記ユーザによって話されていないオーディオデータを抑制するための前記選択肢の選択を示す前記ユーザ入力表示に基づき、前記データ処理ハードウェアによって、前記異なる第2の話者により話された前記オーディオデータの前記第2の部分を抑制するために前記発話に対応する前記オーディオデータを更新するステップであって、前記オーディオデータの前記更新が、前記ユーザデバイスの前記フォアグラウンドで実行されている前記アプリケーションにさらに基づく、ステップと、
前記データ処理ハードウェアによって前記更新されたオーディオデータを受信デバイスに送信するステップと
を含む、方法。 - 前記ユーザデバイスが、前記複数の話者からの前記音声を含む前記発話に対応する前記オーディオデータを取り込む、請求項1に記載の方法。
- 前記データ処理ハードウェアが、ネットワークを介して前記ユーザデバイスおよび前記受信デバイスと通信するサーバに存在する、請求項1に記載の方法。
- 前記更新されたオーディオデータが、前記オーディオデータの前記第2の部分を抑制する前の前記オーディオデータのタイミングを保持する、請求項1に記載の方法。
- 前記発話に対応する前記オーディオデータを処理して、前記オーディオデータの前記第1の部分が前記第1の話者によって話されたことを決定することが、
前記第1の話者が所定のホットワードを話したと決定することと、
前記第1の話者が前記所定のホットワードを話したとの決定に基づき、前記オーディオデータの前記第1の部分を話した前記第1の話者として、前記ユーザデバイスの前記ユーザを識別することと
を含む、請求項1に記載の方法。 - 前記第1の話者によって話された前記オーディオデータの前記第1の部分が所定のホットワードを含まない、請求項1に記載の方法。
- 前記ユーザデバイスがスマートスピーカを含む、請求項1に記載の方法。
- 前記発話に対応する前記オーディオデータを処理することで、前記オーディオデータの第3の部分が、前記ユーザデバイスの前記ユーザを含む前記第1の話者によって話されたとさらに決定し、
前記発話に対応する前記オーディオデータを更新することが、前記異なる第2の話者によって話された前記オーディオデータの前記第2の部分を抑制するとともに前記第1の話者によって話された前記オーディオデータの前記第1および第3の部分を含めるように、前記オーディオデータを更新することを含む、請求項1に記載の方法。 - 前記第1の話者によって話された前記オーディオデータの前記第1の部分が、前記異なる第2の話者によって話された前記オーディオデータの前記第2の部分に先行し、
前記異なる第2の話者によって話された前記オーディオデータの前記第2の部分が、前記第1の話者によって話された前記オーディオデータの前記第3の部分に先行する、請求項8に記載の方法。 - システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアと
を備え、前記メモリハードウェアは、前記データ処理ハードウェアにおいて実行されたときに、前記データ処理ハードウェアに複数の動作を実行させる命令を記録し、前記複数の動作が、
ユーザデバイスのユーザによって話されていないオーディオデータを抑制するための選択肢の選択を示すユーザ入力表示を受信する動作であって、前記選択肢が、前記ユーザデバイスのスクリーンに表示されるグラフィカルユーザインターフェイス内で提示される、動作と、
複数の話者からの音声を含む発話に対応するオーディオデータを受信する動作と、
前記ユーザデバイスのフォアグラウンドで実行されているアプリケーションを識別する動作と、 話者識別モデルを用いて前記発話に対応する前記オーディオデータを処理し、
前記オーディオデータの第1の部分が前記ユーザデバイスの前記ユーザを含む第1の話者によって話されたこと、および
前記オーディオデータの第2の部分が異なる第2の話者により話されたこと
を決定する動作と、
前記ユーザデバイスの前記ユーザによって話されていないオーディオデータを抑制するための前記選択肢の選択を示す前記ユーザ入力表示に基づき、前記異なる第2の話者により話された前記オーディオデータの前記第2の部分を抑制するために前記発話に対応する前記オーディオデータを更新する動作であって、
前記オーディオデータの前記更新が、前記ユーザデバイスの前記フォアグラウンドで実行されている前記アプリケーションにさらに基づく、動作と、
前記更新されたオーディオデータを受信デバイスに送信する動作と
を含む、システム。 - 前記ユーザデバイスが、前記複数の話者からの前記音声を含む前記発話に対応する前記オーディオデータを取り込む、請求項10に記載のシステム。
- 前記データ処理ハードウェアが、ネットワークを介して前記ユーザデバイスおよび前記受信デバイスと通信するサーバに存在する、請求項10に記載のシステム。
- 前記更新されたオーディオデータが、前記オーディオデータの前記第2の部分を抑制する前の前記オーディオデータのタイミングを保持する、請求項10に記載のシステム。
- 前記発話に対応する前記オーディオデータを処理して、前記オーディオデータの前記第1の部分が前記第1の話者によって話されたことを決定することが、
前記第1の話者が所定のホットワードを話したと決定することと、
前記第1の話者が前記所定のホットワードを話したとの決定に基づき、前記オーディオデータの前記第1の部分を話した前記第1の話者として、前記ユーザデバイスの前記ユーザを識別することと
を含む、請求項10に記載のシステム。 - 前記第1の話者によって話された前記オーディオデータの前記第1の部分が所定のホットワードを含まない、請求項10に記載のシステム。
- 前記ユーザデバイスがスマートスピーカを含む、請求項10に記載のシステム。
- 前記発話に対応する前記オーディオデータを処理することで、前記オーディオデータの第3の部分が、前記ユーザデバイスの前記ユーザを含む前記第1の話者によって話されたとさらに決定し、
前記発話に対応する前記オーディオデータを更新することが、前記異なる第2の話者によって話された前記オーディオデータの前記第2の部分を抑制するとともに前記第1の話者によって話された前記オーディオデータの前記第1および第3の部分を含めるように、前記オーディオデータを更新することを含む、請求項10に記載のシステム。 - 前記第1の話者によって話された前記オーディオデータの前記第1の部分が、前記異なる第2の話者によって話された前記オーディオデータの前記第2の部分に先行し、
前記異なる第2の話者によって話された前記オーディオデータの前記第2の部分が、前記第1の話者によって話された前記オーディオデータの前記第3の部分に先行する、請求項17に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/785,751 US10403288B2 (en) | 2017-10-17 | 2017-10-17 | Speaker diarization |
US15/785,751 | 2017-10-17 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019568013A Division JP6798046B2 (ja) | 2017-10-17 | 2018-08-29 | 話者ダイアライゼーション |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021043460A JP2021043460A (ja) | 2021-03-18 |
JP7136868B2 true JP7136868B2 (ja) | 2022-09-13 |
Family
ID=63638376
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019568013A Active JP6798046B2 (ja) | 2017-10-17 | 2018-08-29 | 話者ダイアライゼーション |
JP2020190851A Active JP7136868B2 (ja) | 2017-10-17 | 2020-11-17 | 話者ダイアライゼーション |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019568013A Active JP6798046B2 (ja) | 2017-10-17 | 2018-08-29 | 話者ダイアライゼーション |
Country Status (5)
Country | Link |
---|---|
US (4) | US10403288B2 (ja) |
EP (2) | EP3613038B1 (ja) |
JP (2) | JP6798046B2 (ja) |
KR (2) | KR102451034B1 (ja) |
WO (1) | WO2019078959A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447471B (zh) * | 2017-02-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
KR102460491B1 (ko) * | 2017-12-06 | 2022-10-31 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
JP6965846B2 (ja) * | 2018-08-17 | 2021-11-10 | 日本電信電話株式会社 | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム |
CN112312039A (zh) | 2019-07-15 | 2021-02-02 | 北京小米移动软件有限公司 | 音视频信息获取方法、装置、设备及存储介质 |
AU2020328468A1 (en) * | 2019-08-15 | 2022-03-31 | KWB Global Limited | Method and system of generating and transmitting a transcript of verbal communication |
US20220406299A1 (en) * | 2019-10-17 | 2022-12-22 | Hewlett-Packard Development Company, L.P. | Keyword detections based on events generated from audio signals |
US11651767B2 (en) | 2020-03-03 | 2023-05-16 | International Business Machines Corporation | Metric learning of speaker diarization |
US11443748B2 (en) * | 2020-03-03 | 2022-09-13 | International Business Machines Corporation | Metric learning of speaker diarization |
US11887589B1 (en) * | 2020-06-17 | 2024-01-30 | Amazon Technologies, Inc. | Voice-based interactions with a graphical user interface |
US11557278B2 (en) | 2020-12-10 | 2023-01-17 | Google Llc | Speaker dependent follow up actions and warm words |
US11620990B2 (en) * | 2020-12-11 | 2023-04-04 | Google Llc | Adapting automated speech recognition parameters based on hotword properties |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014097748A1 (ja) | 2012-12-18 | 2014-06-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
WO2017165038A1 (en) | 2016-03-21 | 2017-09-28 | Amazon Technologies, Inc. | Speaker verification method and system |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08316953A (ja) * | 1995-05-16 | 1996-11-29 | Toshiba Corp | 電子会議システム |
WO2007057879A1 (en) * | 2005-11-17 | 2007-05-24 | Shaul Simhi | Personalized voice activity detection |
US20090319269A1 (en) | 2008-06-24 | 2009-12-24 | Hagai Aronowitz | Method of Trainable Speaker Diarization |
US20100268534A1 (en) * | 2009-04-17 | 2010-10-21 | Microsoft Corporation | Transcription, archiving and threading of voice communications |
US8554562B2 (en) | 2009-11-15 | 2013-10-08 | Nuance Communications, Inc. | Method and system for speaker diarization |
CN106294796B (zh) * | 2010-02-18 | 2020-02-28 | 株式会社尼康 | 信息处理装置、便携式装置以及信息处理系统 |
US9336780B2 (en) * | 2011-06-20 | 2016-05-10 | Agnitio, S.L. | Identification of a local speaker |
US9113265B2 (en) | 2012-07-25 | 2015-08-18 | International Business Machines Corporation | Providing a confidence measure for speaker diarization |
US9368116B2 (en) | 2012-09-07 | 2016-06-14 | Verint Systems Ltd. | Speaker separation in diarization |
US10134400B2 (en) | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using acoustic labeling |
US9098467B1 (en) | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
WO2015008162A2 (en) * | 2013-07-15 | 2015-01-22 | Vocavu Solutions Ltd. | Systems and methods for textual content creation from sources of audio that contain speech |
US9460722B2 (en) | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
US9548047B2 (en) * | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9443516B2 (en) * | 2014-01-09 | 2016-09-13 | Honeywell International Inc. | Far-field speech recognition systems and methods |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
EP2911149B1 (en) * | 2014-02-19 | 2019-04-17 | Nokia Technologies OY | Determination of an operational directive based at least in part on a spatial audio property |
US20150310863A1 (en) | 2014-04-24 | 2015-10-29 | Nuance Communications, Inc. | Method and apparatus for speaker diarization |
US9666204B2 (en) * | 2014-04-30 | 2017-05-30 | Qualcomm Incorporated | Voice profile management and speech signal generation |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US10262655B2 (en) * | 2014-11-03 | 2019-04-16 | Microsoft Technology Licensing, Llc | Augmentation of key phrase user recognition |
US9875742B2 (en) | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
US10133538B2 (en) | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
US10171908B1 (en) * | 2015-07-27 | 2019-01-01 | Evernote Corporation | Recording meeting audio via multiple individual smartphones |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
US9584946B1 (en) | 2016-06-10 | 2017-02-28 | Philip Scott Lyren | Audio diarization system that segments audio input |
US10522160B2 (en) * | 2017-08-18 | 2019-12-31 | Intel Corporation | Methods and apparatus to identify a source of speech captured at a wearable electronic device |
US10490195B1 (en) * | 2017-09-26 | 2019-11-26 | Amazon Technologies, Inc. | Using system command utterances to generate a speaker profile |
-
2017
- 2017-10-17 US US15/785,751 patent/US10403288B2/en active Active
-
2018
- 2018-08-29 KR KR1020217033444A patent/KR102451034B1/ko active IP Right Grant
- 2018-08-29 KR KR1020197036225A patent/KR102316393B1/ko active IP Right Grant
- 2018-08-29 EP EP18773023.9A patent/EP3613038B1/en active Active
- 2018-08-29 WO PCT/US2018/048563 patent/WO2019078959A1/en unknown
- 2018-08-29 JP JP2019568013A patent/JP6798046B2/ja active Active
- 2018-08-29 EP EP21163576.8A patent/EP3855429A1/en active Pending
-
2019
- 2019-08-27 US US16/552,244 patent/US10978070B2/en active Active
-
2020
- 2020-11-17 JP JP2020190851A patent/JP7136868B2/ja active Active
-
2021
- 2021-04-05 US US17/222,939 patent/US11670287B2/en active Active
-
2023
- 2023-05-01 US US18/309,900 patent/US12051405B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014097748A1 (ja) | 2012-12-18 | 2014-06-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
WO2017165038A1 (en) | 2016-03-21 | 2017-09-28 | Amazon Technologies, Inc. | Speaker verification method and system |
Also Published As
Publication number | Publication date |
---|---|
JP2021043460A (ja) | 2021-03-18 |
JP6798046B2 (ja) | 2020-12-09 |
KR20200005617A (ko) | 2020-01-15 |
EP3855429A1 (en) | 2021-07-28 |
US20210295824A1 (en) | 2021-09-23 |
US20190115029A1 (en) | 2019-04-18 |
US12051405B2 (en) | 2024-07-30 |
KR102451034B1 (ko) | 2022-10-06 |
US10978070B2 (en) | 2021-04-13 |
EP3613038B1 (en) | 2021-04-14 |
KR20210128039A (ko) | 2021-10-25 |
US10403288B2 (en) | 2019-09-03 |
KR102316393B1 (ko) | 2021-10-22 |
EP3613038A1 (en) | 2020-02-26 |
US20200098374A1 (en) | 2020-03-26 |
US20230260507A1 (en) | 2023-08-17 |
JP2020527739A (ja) | 2020-09-10 |
WO2019078959A1 (en) | 2019-04-25 |
US11670287B2 (en) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7136868B2 (ja) | 話者ダイアライゼーション | |
US11848018B2 (en) | Utterance classifier | |
US10008207B2 (en) | Multi-stage hotword detection | |
US9805715B2 (en) | Method and system for recognizing speech commands using background and foreground acoustic models | |
US9401146B2 (en) | Identification of communication-related voice commands | |
CN107622768B (zh) | 音频截剪器 | |
JP7167357B2 (ja) | 自動通話システム | |
CN114385800A (zh) | 语音对话方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7136868 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |