JP6945695B2 - 発話分類器 - Google Patents
発話分類器 Download PDFInfo
- Publication number
- JP6945695B2 JP6945695B2 JP2020124302A JP2020124302A JP6945695B2 JP 6945695 B2 JP6945695 B2 JP 6945695B2 JP 2020124302 A JP2020124302 A JP 2020124302A JP 2020124302 A JP2020124302 A JP 2020124302A JP 6945695 B2 JP6945695 B2 JP 6945695B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- server
- spoken utterance
- assistant server
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 59
- 239000013598 vector Substances 0.000 claims description 51
- 238000013518 transcription Methods 0.000 claims description 50
- 230000035897 transcription Effects 0.000 claims description 50
- 238000013528 artificial neural network Methods 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 30
- 230000008569 process Effects 0.000 description 28
- 238000004891 communication Methods 0.000 description 20
- 230000009471 action Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000013001 matrix buffer Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
102 ユーザ
104 発話
106 質問
108 分類器サーバ
109 データ
110 クライアントデバイス
112 陳述
113 応答
114 ネットワーク
116 自動アシスタントサーバ
118 語句
120 テレビジョン
122 発話
201 マイクロフォン
202 音声認識器
204 音響特徴生成器
206 トランスクリプション表現生成器
208 連結モジュール
209 ニューラルネットワーク
210-A 分類器
210-B LSTM
211 シグマ
400 コンピューティングデバイス
402 プロセッサ
404 メモリ
406 記憶デバイス
410 高速拡張ポート
412 低速インターフェース
414 低速拡張ポート
416 ディスプレイ
420 標準サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピューティングデバイス
452 プロセッサ
454 ディスプレイ
464 メモリ
466 通信インターフェース
468 トランシーバ
470 GPS(全地球測位システム)受信機モジュール
472 拡張インターフェース
474 拡張メモリ
480 セルラー電話
482 スマートフォン
Claims (20)
- データ処理ハードウェアで、ユーザに関連付けられた自動アシスタントデバイスによって取得された話された発話を受け取るステップであって、
前記話された発話が複数のワードを含む、ステップと、
前記データ処理ハードウェアによって、複数の長短期記憶(LSTM)層のスタックを含むニューラルネットワークベースの発話分類器を使用して、前記話された発話の前記複数のワードの各ワードに対して、それぞれのテキスト表現を生成するステップであって、
前記ニューラルネットワークベースの発話分類器が、自動アシスタントサーバによって処理されることに向けられていない話された発話のネガティブトレーニング例に対してトレーニングされる、ステップと、
前記データ処理ハードウェアによって、前記話された発話の前記複数のワードの各ワードに対して生成された前記それぞれのテキスト表現を使用して、前記話された発話が、
自動アシスタントサーバに向けられているか、それとも
前記自動アシスタントサーバに向けられていないか
のうちの1つであると判定するステップと、
前記話された発話が前記自動アシスタントサーバに向けられているとき、前記データ処理ハードウェアによって、前記話された発話に対する応答を前記自動アシスタントサーバに生成させる命令を生成するステップと
を含む、方法。 - 前記それぞれのテキスト表現が、固定長のベクトルである、請求項1に記載の方法。
- 前記固定長のベクトルが、100単位ベクトルである、請求項2に記載の方法。
- 前記自動アシスタントサーバが、前記話された発話のトランスクリプションを処理することによって、前記話された発話に対する前記応答を生成する、請求項1に記載の方法。
- 前記話された発話が、前記自動アシスタントデバイスのマイクロフォンによって取得される、請求項1に記載の方法。
- 前記話された発話が、オーディオ波形を含む、請求項1に記載の方法。
- 前記話された発話が前記自動アシスタントサーバに向けられているとき、前記データ処理ハードウェアによって、前記自動アシスタントデバイスからの出力のため、前記話された発話に対する聴衆が前記自動アシスタントサーバに向けられているという指示を提供するステップをさらに含む、請求項1に記載の方法。
- 前記指示が、可聴トーンを含む、請求項7に記載の方法。
- 前記指示が、閃光を含む、請求項7に記載の方法。
- 前記話された発話が前記自動アシスタントサーバに向けられているとき、前記データ処理ハードウェアによって、前記話された発話に対する前記応答を前記自動アシスタントサーバに生成させる前記命令を生成せず、取得された前記話された発話を廃棄するステップをさらに含む、請求項1に記載の方法。
- データ処理ハードウェアと、
前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに、
データ処理ハードウェアで、ユーザに関連付けられた自動アシスタントデバイスによって取得された話された発話を受け取るステップであって、
前記話された発話が複数のワードを含む、ステップと、
複数の長短期記憶(LSTM)層のスタックを含むニューラルネットワークベースの発話分類器を使用して、前記話された発話の前記複数のワードの各ワードに対して、それぞれのテキスト表現を生成するステップであって、
前記ニューラルネットワークベースの発話分類器が、自動アシスタントサーバによって処理されることに向けられていない話された発話のネガティブトレーニング例に対してトレーニングされる、ステップと、
前記話された発話の前記複数のワードの各ワードに対して生成された前記それぞれのテキスト表現を使用して、前記話された発話が、
自動アシスタントサーバに向けられているか、それとも
前記自動アシスタントサーバに向けられていないか
のうちの1つであると判定するステップと、
前記話された発話が前記自動アシスタントサーバに向けられているとき、前記話された発話に対する応答を前記自動アシスタントサーバに生成させる命令を生成するステップと
を含む動作を実行させる命令を記憶したメモリハードウェアと
を備える、システム。 - 前記それぞれのテキスト表現が、固定長のベクトルである、請求項11に記載のシステム。
- 前記固定長のベクトルが、100単位ベクトルである、請求項12に記載のシステム。
- 前記自動アシスタントサーバが、前記話された発話のトランスクリプションを処理することによって、前記話された発話に対する前記応答を生成する、請求項11に記載のシステム。
- 前記話された発話が、前記自動アシスタントデバイスのマイクロフォンによって取得される、請求項11に記載のシステム。
- 前記話された発話が、オーディオ波形を含む、請求項11に記載のシステム。
- 前記動作が、
前記話された発話が前記自動アシスタントサーバに向けられているとき、前記自動アシスタントデバイスからの出力のため、前記話された発話に対する聴衆が前記自動アシスタントサーバに向けられているという指示を提供するステップをさらに含む、請求項11に記載のシステム。 - 前記指示が、可聴トーンを含む、請求項17に記載のシステム。
- 前記指示が、閃光を含む、請求項17に記載のシステム。
- 前記動作が、
前記話された発話が前記自動アシスタントサーバに向けられているとき、前記話された発話に対する前記応答を前記自動アシスタントサーバに生成させる前記命令を生成せず、取得された前記話された発話を廃棄するステップをさらに含む、請求項11に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/659,016 US10311872B2 (en) | 2017-07-25 | 2017-07-25 | Utterance classifier |
US15/659,016 | 2017-07-25 | ||
JP2020503953A JP6740504B1 (ja) | 2017-07-25 | 2018-04-09 | 発話分類器 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020503953A Division JP6740504B1 (ja) | 2017-07-25 | 2018-04-09 | 発話分類器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020173483A JP2020173483A (ja) | 2020-10-22 |
JP6945695B2 true JP6945695B2 (ja) | 2021-10-06 |
Family
ID=62067866
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020503953A Active JP6740504B1 (ja) | 2017-07-25 | 2018-04-09 | 発話分類器 |
JP2020124302A Active JP6945695B2 (ja) | 2017-07-25 | 2020-07-21 | 発話分類器 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020503953A Active JP6740504B1 (ja) | 2017-07-25 | 2018-04-09 | 発話分類器 |
Country Status (6)
Country | Link |
---|---|
US (5) | US10311872B2 (ja) |
EP (1) | EP3659028A1 (ja) |
JP (2) | JP6740504B1 (ja) |
KR (3) | KR102360924B1 (ja) |
CN (1) | CN110959159A (ja) |
WO (1) | WO2019022797A1 (ja) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180084392A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
EP3590113B1 (en) * | 2017-03-03 | 2024-05-29 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
US10311872B2 (en) | 2017-07-25 | 2019-06-04 | Google Llc | Utterance classifier |
US11461628B2 (en) * | 2017-11-03 | 2022-10-04 | Samsung Electronics Co., Ltd. | Method for optimizing neural networks |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11010179B2 (en) | 2018-04-20 | 2021-05-18 | Facebook, Inc. | Aggregating semantic information for improved understanding of users |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US10621990B2 (en) * | 2018-04-30 | 2020-04-14 | International Business Machines Corporation | Cognitive print speaker modeler |
JP2021144065A (ja) * | 2018-06-12 | 2021-09-24 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
CN110164446B (zh) * | 2018-06-28 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 语音信号识别方法和装置、计算机设备和电子设备 |
US11580145B1 (en) * | 2018-09-25 | 2023-02-14 | Amazon Technologies, Inc. | Query rephrasing using encoder neural network and decoder neural network |
GB2577570A (en) * | 2018-09-28 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Sound event detection |
KR102477072B1 (ko) * | 2018-11-21 | 2022-12-13 | 구글 엘엘씨 | 자동화된 어시스턴트를 통해 수행되도록 요청된 일련의 동작들의 실행 조정 |
US11423885B2 (en) * | 2019-02-20 | 2022-08-23 | Google Llc | Utilizing pre-event and post-event input streams to engage an automated assistant |
KR20210013607A (ko) * | 2019-02-27 | 2021-02-04 | 구글 엘엘씨 | 컴퓨팅 장치를 사용한 지속적인 대화 감지 |
US11676582B2 (en) | 2019-02-27 | 2023-06-13 | Google Llc | Detecting conversations with computing devices |
US10943598B2 (en) | 2019-03-18 | 2021-03-09 | Rovi Guides, Inc. | Method and apparatus for determining periods of excessive noise for receiving smart speaker voice commands |
US11355138B2 (en) * | 2019-08-27 | 2022-06-07 | Nec Corporation | Audio scene recognition using time series analysis |
CN112530419B (zh) * | 2019-09-19 | 2024-05-24 | 百度在线网络技术(北京)有限公司 | 语音识别控制方法、装置、电子设备和可读存储介质 |
CN112669831B (zh) * | 2019-09-29 | 2022-10-21 | 百度在线网络技术(北京)有限公司 | 语音识别控制方法、装置、电子设备和可读存储介质 |
CN112581969A (zh) * | 2019-09-29 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 语音控制方法、装置、电子设备和可读存储介质 |
CN112581945A (zh) * | 2019-09-29 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 语音控制方法、装置、电子设备和可读存储介质 |
EP4254169A3 (en) * | 2019-11-08 | 2023-12-13 | Google LLC | Using corrections, of automated assistant functions, for training of on-device machine learning models |
US11276392B2 (en) | 2019-12-12 | 2022-03-15 | Sorenson Ip Holdings, Llc | Communication of transcriptions |
US12086558B2 (en) | 2020-03-09 | 2024-09-10 | Warner Bros. Entertainment Inc. | Systems and methods for generating multi-language media content with automatic selection of matching voices |
US11430426B2 (en) | 2020-04-01 | 2022-08-30 | International Business Machines Corporation | Relevant document retrieval to assist agent in real time customer care conversations |
US20230154465A1 (en) * | 2020-04-15 | 2023-05-18 | University Of Pittsburgh-Of The Commonwealth System Of Higher Education | System and method for automated observation and analysis of instructional discourse |
CN115552517A (zh) * | 2020-05-15 | 2022-12-30 | 谷歌有限责任公司 | 自动化助理响应呈现的无热词抢占 |
US11521597B2 (en) * | 2020-09-03 | 2022-12-06 | Google Llc | Correcting speech misrecognition of spoken utterances |
KR102590540B1 (ko) * | 2020-11-30 | 2023-10-18 | 주식회사 마음에이아이 | 인공 신경망 학습 방법과 이를 이용한 발음 평가 방법 |
WO2022162767A1 (ja) * | 2021-01-27 | 2022-08-04 | 日本電信電話株式会社 | 誤り訂正装置、誤り訂正方法、プログラム |
US11705125B2 (en) * | 2021-03-26 | 2023-07-18 | International Business Machines Corporation | Dynamic voice input detection for conversation assistants |
US11861315B2 (en) | 2021-04-21 | 2024-01-02 | Meta Platforms, Inc. | Continuous learning for natural-language understanding models for assistant systems |
US12087280B2 (en) * | 2021-06-11 | 2024-09-10 | Harman International Industries, Incorporated | System and method for robust wakeword detection in presence of noise in new unseen environments without additional data |
WO2023056920A1 (en) * | 2021-10-05 | 2023-04-13 | Huawei Technologies Co., Ltd. | Multilayer perceptron neural network for speech processing |
US12027156B2 (en) * | 2021-10-06 | 2024-07-02 | Cypress Semiconductor Corporation | Noise robust representations for keyword spotting systems |
CN114970666B (zh) * | 2022-03-29 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种口语处理方法、装置、电子设备及存储介质 |
US11983329B1 (en) | 2022-12-05 | 2024-05-14 | Meta Platforms, Inc. | Detecting head gestures using inertial measurement unit signals |
WO2024176673A1 (ja) * | 2023-02-22 | 2024-08-29 | 国立大学法人大阪大学 | プログラム、情報処理方法、情報処理装置、及びロボット |
US12112001B1 (en) | 2023-03-14 | 2024-10-08 | Meta Platforms, Inc. | Preventing false activations based on don/doff detection for assistant systems |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6925432B2 (en) | 2000-10-11 | 2005-08-02 | Lucent Technologies Inc. | Method and apparatus using discriminative training in natural language call routing and document retrieval |
US6795808B1 (en) | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
KR100414064B1 (ko) * | 2001-04-12 | 2004-01-07 | 엘지전자 주식회사 | 음성인식에 의한 이동통신 단말기 제어시스템 및 방법 |
US20030167167A1 (en) | 2002-02-26 | 2003-09-04 | Li Gong | Intelligent personal assistants |
US7606714B2 (en) | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
WO2006069358A2 (en) | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking model |
WO2008134625A1 (en) | 2007-04-26 | 2008-11-06 | Ford Global Technologies, Llc | Emotive advisory system and method |
US20090006085A1 (en) | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Automated call classification and prioritization |
CN101546556B (zh) * | 2008-03-28 | 2011-03-23 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类系统 |
DE112014000709B4 (de) * | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9123340B2 (en) * | 2013-03-01 | 2015-09-01 | Google Inc. | Detecting the end of a user question |
US9489625B2 (en) * | 2013-05-10 | 2016-11-08 | Sri International | Rapid development of virtual personal assistant applications |
WO2015017796A2 (en) * | 2013-08-02 | 2015-02-05 | Digimarc Corporation | Learning systems and methods |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
KR101671308B1 (ko) | 2014-05-19 | 2016-11-01 | 주식회사 노나메기 | 캠핑용 난로 |
US9484022B2 (en) * | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US9715875B2 (en) * | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
US10476872B2 (en) * | 2015-02-20 | 2019-11-12 | Sri International | Joint speaker authentication and key phrase identification |
KR101760898B1 (ko) * | 2015-08-27 | 2017-07-24 | 허철균 | 상황 인지 기반 양방향 안내 시스템 및 그의 제어 방법 |
US20170092278A1 (en) | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
JP2017090611A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
US9628286B1 (en) * | 2016-02-23 | 2017-04-18 | Echostar Technologies L.L.C. | Television receiver and home automation system and methods to associate data with nearby people |
US9984682B1 (en) * | 2016-03-30 | 2018-05-29 | Educational Testing Service | Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items |
US10332513B1 (en) * | 2016-06-27 | 2019-06-25 | Amazon Technologies, Inc. | Voice enablement and disablement of speech processing functionality |
US10147423B2 (en) * | 2016-09-29 | 2018-12-04 | Intel IP Corporation | Context-aware query recognition for electronic devices |
JP6659514B2 (ja) * | 2016-10-12 | 2020-03-04 | 東芝映像ソリューション株式会社 | 電子機器及びその制御方法 |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
US10311872B2 (en) | 2017-07-25 | 2019-06-04 | Google Llc | Utterance classifier |
-
2017
- 2017-07-25 US US15/659,016 patent/US10311872B2/en active Active
-
2018
- 2018-04-09 WO PCT/US2018/026723 patent/WO2019022797A1/en unknown
- 2018-04-09 KR KR1020207002950A patent/KR102360924B1/ko active IP Right Grant
- 2018-04-09 CN CN201880049126.4A patent/CN110959159A/zh active Pending
- 2018-04-09 KR KR1020227042199A patent/KR102509464B1/ko active IP Right Grant
- 2018-04-09 JP JP2020503953A patent/JP6740504B1/ja active Active
- 2018-04-09 KR KR1020227003955A patent/KR102474941B1/ko active IP Right Grant
- 2018-04-09 EP EP18720903.6A patent/EP3659028A1/en active Pending
-
2019
- 2019-05-02 US US16/401,349 patent/US11545147B2/en active Active
-
2020
- 2020-07-21 US US16/935,112 patent/US11361768B2/en active Active
- 2020-07-21 JP JP2020124302A patent/JP6945695B2/ja active Active
-
2022
- 2022-05-31 US US17/804,657 patent/US11848018B2/en active Active
-
2023
- 2023-12-01 US US18/526,991 patent/US20240096326A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US11545147B2 (en) | 2023-01-03 |
JP2020173483A (ja) | 2020-10-22 |
CN110959159A (zh) | 2020-04-03 |
EP3659028A1 (en) | 2020-06-03 |
JP6740504B1 (ja) | 2020-08-12 |
US20190304459A1 (en) | 2019-10-03 |
US11361768B2 (en) | 2022-06-14 |
KR20220162891A (ko) | 2022-12-08 |
KR102474941B1 (ko) | 2022-12-06 |
US20240096326A1 (en) | 2024-03-21 |
US11848018B2 (en) | 2023-12-19 |
JP2020527758A (ja) | 2020-09-10 |
KR20220021037A (ko) | 2022-02-21 |
KR20200023456A (ko) | 2020-03-04 |
US20220293101A1 (en) | 2022-09-15 |
WO2019022797A1 (en) | 2019-01-31 |
KR102509464B1 (ko) | 2023-03-14 |
US20190035390A1 (en) | 2019-01-31 |
US10311872B2 (en) | 2019-06-04 |
US20200349946A1 (en) | 2020-11-05 |
KR102360924B1 (ko) | 2022-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6945695B2 (ja) | 発話分類器 | |
US11887590B2 (en) | Voice enablement and disablement of speech processing functionality | |
US11138974B2 (en) | Privacy mode based on speaker identifier | |
US10943606B2 (en) | Context-based detection of end-point of utterance | |
US11138977B1 (en) | Determining device groups | |
US10580404B2 (en) | Indicator for voice-based communications | |
US10365887B1 (en) | Generating commands based on location and wakeword | |
US10074369B2 (en) | Voice-based communications | |
US11862174B2 (en) | Voice command processing for locked devices | |
US9953632B2 (en) | Keyword model generation for detecting user-defined keyword | |
US11837225B1 (en) | Multi-portion spoken command framework | |
KR20230056741A (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
US11302329B1 (en) | Acoustic event detection | |
US11798559B2 (en) | Voice-controlled communication requests and responses | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
KR20190032557A (ko) | 음성 기반 통신 | |
US11735178B1 (en) | Speech-processing system | |
US12094463B1 (en) | Default assistant fallback in multi-assistant devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200819 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6945695 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |