JP6679898B2 - キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム - Google Patents
キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム Download PDFInfo
- Publication number
- JP6679898B2 JP6679898B2 JP2015228889A JP2015228889A JP6679898B2 JP 6679898 B2 JP6679898 B2 JP 6679898B2 JP 2015228889 A JP2015228889 A JP 2015228889A JP 2015228889 A JP2015228889 A JP 2015228889A JP 6679898 B2 JP6679898 B2 JP 6679898B2
- Authority
- JP
- Japan
- Prior art keywords
- output
- keyword
- probability
- feature vector
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 78
- 238000004590 computer program Methods 0.000 title claims description 9
- 239000013598 vector Substances 0.000 claims description 73
- 210000004205 output neuron Anatomy 0.000 claims description 72
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 22
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 11
- 238000000034 method Methods 0.000 description 51
- 238000012545 processing Methods 0.000 description 40
- 230000008569 process Effects 0.000 description 28
- 238000004891 communication Methods 0.000 description 19
- 230000001186 cumulative effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 230000007704 transition Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 11
- 238000007476 Maximum Likelihood Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部13が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路であってもよい。
以下、先ず、学習処理に関連する各部について説明する。
特徴量抽出部21は、デジタル化された音声信号(以下では、単に音声信号と呼ぶ)を所定長を持つフレームごとに分割し、フレームごとに、人の声の特徴を表す複数の特徴量を算出する。そして特徴量抽出部21は、フレームごとに、各特徴量を要素とする特徴ベクトルを生成し、その特徴ベクトルを出力する。なお、学習処理で使用される音声信号に含まれる各音素は既知であり、例えば、その音声信号は、検出対象となるキーワードに含まれるトライフォンなどを含む。本実施形態では、フレーム長は、例えば、32msecに設定される。この場合において、A/Dコンバータ12のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれる。
特徴量抽出部21は、既知の音素を含む音声信号からフレームごとに特徴ベクトルを算出する(ステップS101)。なお、音素HMMの状態ごとに、複数の学習用の音声信号が使用され、複数の特徴ベクトルが生成されることが好ましい。
次に、キーワード検出処理について説明する。
図10は、上記の何れかの実施形態またはその変形例によるキーワード検出装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
なお、端末110は、音声信号そのものをサーバ120へ送信してもよい。この場合には、サーバ120の処理部123が、上記の各実施形態または変形例によるキーワード検出装置の処理部の各機能を実現する。
11 インターフェース部
12 A/Dコンバータ
13 処理部
14 記憶部
21 特徴量抽出部
22 学習部
23 出力確率算出部
24 検出部
100 サーバクライアントシステム
110 端末
111 音声入力部
112 記憶部
113 通信部
114 制御部
120 サーバ
121 通信部
122 記憶部
123 処理部
130 通信ネットワーク
Claims (4)
- 音声信号を、所定の時間長を持つフレーム単位に分割し、フレームごとに、人の声の特徴を表す複数の特徴量を含む特徴ベクトルを算出する特徴量抽出部と、
前記フレームのそれぞれごとに、前記特徴ベクトルをディープニューラルネットワークに入力することで、隠れマルコフモデルの少なくとも一つの状態ごとに、所定のキーワードに含まれる音素の並びに応じた複数のトライフォンのそれぞれについての第1の出力確率と、複数のモノフォンのそれぞれについての第2の出力確率とを算出する出力確率算出部と、
前記第1の出力確率を前記隠れマルコフモデルに適用して前記音声信号において前記所定のキーワードが発声されている確からしさを表す第1の尤度を算出し、前記第2の出力確率を前記隠れマルコフモデルに適用して前記音声信号における最も確からしい音素系列についての第2の尤度を算出し、前記第1の尤度と前記第2の尤度とに基づいて前記キーワードを検出するか否かを判定する検出部と、
を有し、
前記ディープニューラルネットワークは、前記複数のトライフォンと前記複数のモノフォンとで共通し、前記特徴ベクトルが入力される入力層と、前記複数のトライフォンと前記複数のモノフォンとで共通する複数の隠れ層と、前記隠れマルコフモデルの前記少なくとも一つの状態ごとに、前記複数のトライフォンのそれぞれに対応する複数の第1の出力ニューロンと、前記複数のモノフォンのそれぞれに対応する複数の第2の出力ニューロンとを含む出力層とを有し、
前記出力確率算出部は、前記特徴ベクトルが前記ディープニューラルネットワークの前記入力層に入力されると、前記複数の第1の出力ニューロンのそれぞれの出力値に基づいて前記第1の出力確率を算出し、かつ、前記複数の第2の出力ニューロンのそれぞれの出力値に基づいて前記第2の出力確率を算出する
キーワード検出装置。 - 前記複数のトライフォンのうちの所定のトライフォンに対応するサンプルの音声信号から算出された前記特徴ベクトルを前記ディープニューラルネットワークに入力する場合に、前記複数の第1の出力ニューロンのうち、前記所定のトライフォンに対応する第1の出力ニューロンの出力値と、前記複数の第2の出力ニューロンのうち、前記複数のモノフォンのうちの前記所定のトライフォンの中心音素と同じモノフォンに対応する、第2の出力ニューロンの出力値とが他の出力ニューロンの出力値よりも高くなるよう指定して前記ディープニューラルネットワークを学習する学習部をさらに有する、請求項1に記載のキーワード検出装置。
- 音声信号を、所定の時間長を持つフレーム単位に分割し、フレームごとに、人の声の特徴を表す複数の特徴量を含む特徴ベクトルを算出し、
前記フレームのそれぞれごとに、前記特徴ベクトルを、所定のキーワードに含まれる音素の並びに応じた複数のトライフォンと複数のモノフォンとで共通し、前記特徴ベクトルが入力される入力層と、前記複数のトライフォンと前記複数のモノフォンとで共通する複数の隠れ層と、隠れマルコフモデルの少なくとも一つの状態ごとに、前記複数のトライフォンのそれぞれに対応する複数の第1の出力ニューロンと、前記複数のモノフォンのそれぞれに対応する複数の第2の出力ニューロンとを含む出力層とを有するディープニューラルネットワークの前記入力層に入力することで、前記隠れマルコフモデルの前記少なくとも一つの状態ごとに、前記複数の第1の出力ニューロンのそれぞれの出力値に基づいて前記複数のトライフォンのそれぞれについての第1の出力確率を算出するとともに、前記複数の第2の出力ニューロンのそれぞれの出力値に基づいて前記複数のモノフォンのそれぞれについての第2の出力確率を算出し、
前記第1の出力確率を前記隠れマルコフモデルに適用して前記音声信号において前記所定のキーワードが発声されている確からしさを表す第1の尤度を算出し、前記第2の出力確率を前記隠れマルコフモデルに適用して前記音声信号における最も確からしい音素系列についての第2の尤度を算出し、前記第1の尤度と前記第2の尤度とに基づいて前記キーワードを検出するか否かを判定する、
ことを含むキーワード検出方法。 - 音声信号を、所定の時間長を持つフレーム単位に分割し、フレームごとに、人の声の特徴を表す複数の特徴量を含む特徴ベクトルを算出し、
前記フレームのそれぞれごとに、前記特徴ベクトルを、所定のキーワードに含まれる音素の並びに応じた複数のトライフォンと複数のモノフォンとで共通し、前記特徴ベクトルが入力される入力層と、前記複数のトライフォンと前記複数のモノフォンとで共通する複数の隠れ層と、隠れマルコフモデルの少なくとも一つの状態ごとに、前記複数のトライフォンのそれぞれに対応する複数の第1の出力ニューロンと、前記複数のモノフォンのそれぞれに対応する複数の第2の出力ニューロンとを含む出力層とを有するディープニューラルネットワークの前記入力層に入力することで、前記隠れマルコフモデルの前記少なくとも一つの状態ごとに、前記複数の第1の出力ニューロンのそれぞれの出力値に基づいて前記複数のトライフォンのそれぞれについての第1の出力確率を算出するとともに、前記複数の第2の出力ニューロンのそれぞれの出力値に基づいて前記複数のモノフォンのそれぞれについての第2の出力確率を算出し、
前記第1の出力確率を前記隠れマルコフモデルに適用して前記音声信号において前記所定のキーワードが発声されている確からしさを表す第1の尤度を算出し、前記第2の出力確率を前記隠れマルコフモデルに適用して前記音声信号における最も確からしい音素系列についての第2の尤度を算出し、前記第1の尤度と前記第2の尤度とに基づいて前記キーワードを検出するか否かを判定する、
ことをコンピュータに実行させるためのキーワード検出用コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015228889A JP6679898B2 (ja) | 2015-11-24 | 2015-11-24 | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム |
US15/332,000 US10008197B2 (en) | 2015-11-24 | 2016-10-24 | Keyword detector and keyword detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015228889A JP6679898B2 (ja) | 2015-11-24 | 2015-11-24 | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017097162A JP2017097162A (ja) | 2017-06-01 |
JP6679898B2 true JP6679898B2 (ja) | 2020-04-15 |
Family
ID=58721784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015228889A Active JP6679898B2 (ja) | 2015-11-24 | 2015-11-24 | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10008197B2 (ja) |
JP (1) | JP6679898B2 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
KR102399535B1 (ko) * | 2017-03-23 | 2022-05-19 | 삼성전자주식회사 | 음성 인식을 위한 학습 방법 및 장치 |
CN109117945B (zh) * | 2017-06-22 | 2021-01-26 | 上海寒武纪信息科技有限公司 | 处理器及其处理方法、芯片、芯片封装结构及电子装置 |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
US10460722B1 (en) * | 2017-06-30 | 2019-10-29 | Amazon Technologies, Inc. | Acoustic trigger detection |
US10460729B1 (en) * | 2017-06-30 | 2019-10-29 | Amazon Technologies, Inc. | Binary target acoustic trigger detecton |
CN107680582B (zh) * | 2017-07-28 | 2021-03-26 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
JP6827911B2 (ja) * | 2017-11-22 | 2021-02-10 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム |
CN108615526B (zh) * | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
EP3811360A4 (en) | 2018-06-21 | 2021-11-24 | Magic Leap, Inc. | PORTABLE SYSTEM VOICE PROCESSING |
US11308939B1 (en) * | 2018-09-25 | 2022-04-19 | Amazon Technologies, Inc. | Wakeword detection using multi-word model |
JP6605774B1 (ja) * | 2019-03-01 | 2019-11-13 | 株式会社ネイン | 情報処理システム、情報処理装置、情報処理方法およびコンピュータプログラム |
WO2020180719A1 (en) | 2019-03-01 | 2020-09-10 | Magic Leap, Inc. | Determining input for speech processing engine |
CN110097193B (zh) * | 2019-04-28 | 2021-03-19 | 第四范式(北京)技术有限公司 | 训练模型的方法及系统和预测序列数据的方法及系统 |
US11158305B2 (en) * | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
US11222622B2 (en) | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
US11132992B2 (en) | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
CN110334244B (zh) * | 2019-07-11 | 2020-06-09 | 出门问问信息科技有限公司 | 一种数据处理的方法、装置及电子设备 |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
JP7191792B2 (ja) * | 2019-08-23 | 2022-12-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
CN110767223B (zh) * | 2019-09-30 | 2022-04-12 | 大象声科(深圳)科技有限公司 | 一种单声道鲁棒性的语音关键词实时检测方法 |
CN110827806B (zh) * | 2019-10-17 | 2022-01-28 | 清华大学深圳国际研究生院 | 一种语音关键词检测方法及系统 |
CN110992929A (zh) * | 2019-11-26 | 2020-04-10 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及系统 |
US20210225366A1 (en) * | 2020-01-16 | 2021-07-22 | British Cayman Islands Intelligo Technology Inc. | Speech recognition system with fine-grained decoding |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
CN111210830B (zh) * | 2020-04-20 | 2020-08-11 | 深圳市友杰智新科技有限公司 | 基于拼音的语音唤醒方法、装置和计算机设备 |
CN113744732A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 设备唤醒相关方法、装置及故事机 |
CN112634870B (zh) * | 2020-12-11 | 2023-05-30 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
KR102348101B1 (ko) * | 2021-03-24 | 2022-01-07 | 농협은행(주) | 서버 및 이의 대출 자동 연장 안내 방법 |
WO2024089554A1 (en) * | 2022-10-25 | 2024-05-02 | Samsung Electronics Co., Ltd. | System and method for keyword false alarm reduction |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5533042B2 (ja) * | 2010-03-04 | 2014-06-25 | 富士通株式会社 | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
JP5427140B2 (ja) | 2010-07-29 | 2014-02-26 | 日本電信電話株式会社 | 音声認識方法、音声認識装置及び音声認識プログラム |
US8972253B2 (en) * | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
US9842585B2 (en) * | 2013-03-11 | 2017-12-12 | Microsoft Technology Licensing, Llc | Multilingual deep neural network |
US9466292B1 (en) * | 2013-05-03 | 2016-10-11 | Google Inc. | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition |
US9728184B2 (en) * | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
EP3192012A4 (en) * | 2014-09-12 | 2018-01-17 | Microsoft Technology Licensing, LLC | Learning student dnn via output distribution |
US9792907B2 (en) * | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
-
2015
- 2015-11-24 JP JP2015228889A patent/JP6679898B2/ja active Active
-
2016
- 2016-10-24 US US15/332,000 patent/US10008197B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170148429A1 (en) | 2017-05-25 |
US10008197B2 (en) | 2018-06-26 |
JP2017097162A (ja) | 2017-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6679898B2 (ja) | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム | |
US11158305B2 (en) | Online verification of custom wake word | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
Ferrer et al. | Study of senone-based deep neural network approaches for spoken language recognition | |
US11798535B2 (en) | On-device custom wake word detection | |
JP6686154B2 (ja) | 発話認識方法及び装置 | |
US9240184B1 (en) | Frame-level combination of deep neural network and gaussian mixture models | |
Nasereddin et al. | Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation | |
KR20220130565A (ko) | 키워드 검출 방법 및 장치 | |
WO2022148176A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Becerra et al. | Speech recognition in a dialog system: From conventional to deep processing: A case study applied to Spanish | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
Picheny et al. | Trends and advances in speech recognition | |
EP2985760B1 (en) | Methods and apparatus for interpreting received speech data using speech recognition | |
Serafini et al. | An experimental review of speaker diarization methods with application to two-speaker conversational telephone speech recordings | |
Devi et al. | A novel approach for speech feature extraction by cubic-log compression in MFCC | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
Zhu et al. | Gaussian free cluster tree construction using deep neural network. | |
Barnard et al. | Real-world speech recognition with neural networks | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
Utomo et al. | Spoken word and speaker recognition using MFCC and multiple recurrent neural networks | |
JP2021026050A (ja) | 音声認識システム、情報処理装置、音声認識方法、プログラム | |
Nwe et al. | Myanmar language speech recognition with hybrid artificial neural network and hidden Markov model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200302 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6679898 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |