JP2018160234A - 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 - Google Patents
音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP2018160234A JP2018160234A JP2017245279A JP2017245279A JP2018160234A JP 2018160234 A JP2018160234 A JP 2018160234A JP 2017245279 A JP2017245279 A JP 2017245279A JP 2017245279 A JP2017245279 A JP 2017245279A JP 2018160234 A JP2018160234 A JP 2018160234A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- experience reproduction
- iteration
- sample
- experience
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000012549 training Methods 0.000 title claims abstract description 98
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000013528 artificial neural network Methods 0.000 claims abstract description 74
- 230000009467 reduction Effects 0.000 claims description 42
- 230000007423 decrease Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
【解決手段】 一実施形態に係る学習装置はニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断し、判断結果に基づいて、経験再現セット及びトレーニングセットのうち少なくとも1つから少なくとも1つのサンプルを選択し、選択されたサンプルに基づいてニューラルネットワークを学習させ得る。
【選択図】 図1
Description
Claims (33)
- ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断するステップと、
前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも1つから少なくとも1つのサンプルを選択するステップと、
前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるステップと、
を含む、学習方法。 - 前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数であるか否かを判断するステップを含む、請求項1に記載の学習方法。
- 前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数及び予め定義された第2数の合計よりも小さいか否かを判断するステップを含む、請求項1に記載の学習方法。
- 前記判断するステップは、前記現在反復の以前反復に対応するトレーニングエラーの減少が閾値以下であるか否かを判断するステップを含む、請求項1に記載の学習方法。
- 前記判断するステップは、前記現在反復がバッチ方式を用いるか否かを判断するステップを含む、請求項1に記載の学習方法。
- 前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットからいずれか1つのサンプルをランダムに選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
- 前記選択するステップは、
前記現在反復が前記経験再現反復によって実行される場合、前記トレーニングセットからいずれか1つの第1サンプルをランダムに選択するステップと、
前記ランダムに選択された第1サンプルと類似度の最も高い第2サンプルを前記経験再現セットから選択するステップと、
を含む、請求項1ないし5のうち何れか一項に記載の学習方法。 - 前記類似度は、音響サンプルのトライフォンの分布に基づいて定義される、請求項7に記載の学習方法。
- 前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットからいずれか1つのサンプルを選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
- 前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットからランダムに複数のサンプルを選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
- 前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セット及び前記トレーニングセットから予め定義された比率で複数のサンプルをランダムに選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
- 前記選択するステップは、
前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記トレーニングセットから複数の第1サンプルをランダムに選択するステップと、
前記経験再現セットから前記ランダムに選択された複数の第1サンプルと類似度の最も高い複数の第2サンプルを選択するステップと、
を含む、請求項1ないし5のうち何れか一項に記載の学習方法。 - 前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットから複数のサンプルを選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
- 前記学習結果及び前記選択されたサンプルに基づいて、前記経験再現セットを更新するか否かを判断するステップをさらに含む、請求項1ないし5のうち何れか一項に記載の学習方法。
- 前記経験再現セットを更新するか否かを判断するステップは、
前記経験再現セットに含まれたサンプルの分布で前記選択されたサンプルの少なくとも1つの確率と、
前記選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも1つの出力と、
前記現在反復に対応するトレーニングエラーの減少と、
前記現在反復の以前反復に対応するトレーニングエラーの減少と前記現在反復に対応するトレーニングエラーの減少との間の差と、
のうち少なくとも1つに基づいて前記選択されたサンプルの少なくとも1つの品質を算出するステップを含む、請求項14に記載の学習方法。 - 前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を前記経験再現セットに含まれた前記サンプルの品質と比較するステップをさらに含む、請求項15に記載の学習方法。
- 前記比較結果に基づいて、前記算出された品質より低い品質に対応する少なくとも1つのサンプルを前記選択されたサンプルに代替するステップをさらに含む、請求項16に記載の学習方法。
- 前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を閾値と比較するステップをさらに含む、請求項15に記載の学習方法。
- 前記比較結果に基づいて、前記選択されたサンプルを前記経験再現セットに追加するステップをさらに含む、請求項18に記載の学習方法。
- 前記品質が前記差に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は小さくなる、請求項18に記載の学習方法。
- 前記品質が前記出力に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は大きくなる、請求項18に記載の学習方法。
- 前記経験再現セットは、予め定義された環境で録音された音響サンプル及びトライフォンの分布が予め定義された基準に均等に分布した音響サンプルのうち少なくとも1つを含む、請求項1に記載の学習方法。
- ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも1つから選択された少なくとも1つのサンプルに基づいて前記ニューラルネットワークを学習させるステップと、
前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断するステップと、
前記判断結果に基づいて前記経験再現セットを更新するステップと、
を含む、学習方法。 - 前記判断するステップは、
前記経験再現セットに含まれたサンプルの分布で前記選択されたサンプルの少なくとも1つの確率と、
前記選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも1つの出力と、
前記現在反復に対応するトレーニングエラーの減少と、
前記現在反復の以前反復に対応するトレーニングエラーの減少と前記現在反復に対応するトレーニングエラーの減少との間の差と、
のうち少なくとも1つに基づいて前記選択されたサンプルの少なくとも1つの品質を算出するステップを含む、請求項23に記載の学習方法。 - 前記判断するステップは、前記算出された品質を前記経験再現セットに含まれた前記サンプルの品質と比較するステップをさらに含み、
前記更新するステップは、前記比較結果に基づいて前記算出された品質より低い品質に対応する少なくとも1つのサンプルを前記選択されたサンプルに代替するステップをさらに含む、請求項24に記載の学習方法。 - 前記判断するステップは、前記算出された品質を閾値と比較するステップをさらに含み、
前記更新するステップは、前記比較結果に基づいて前記選択されたサンプルを前記経験再現セットに追加するステップをさらに含む、請求項24に記載の学習方法。 - 前記品質が前記差に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は小さくなる、請求項26に記載の学習方法。
- 前記品質が前記出力に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は大きくなる、請求項26に記載の学習方法。
- 前記学習させるステップは、前記現在反復が前記経験再現セットを用いる経験再現反復によって実行されるか否かを判断するステップを含む、請求項23に記載の学習方法。
- 請求項1ないし請求項29のうちいずれか一項に記載の学習方法を学習装置のコンピュータに実行させるコンピュータプログラム。
- 請求項30に記載のコンピュータプログラムを保存する記憶媒体。
- ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断し、
前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも1つから少なくとも1つのサンプルを選択し、
前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるプロセッサを含む、学習装置。 - ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも1つから選択された少なくとも1つのサンプルに基づいて前記ニューラルネットワークを学習させ、
前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断し、
前記判断結果に基づいて前記経験再現セットを更新するプロセッサを含む、学習装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0036909 | 2017-03-23 | ||
KR1020170036909A KR102399535B1 (ko) | 2017-03-23 | 2017-03-23 | 음성 인식을 위한 학습 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018160234A true JP2018160234A (ja) | 2018-10-11 |
JP7055630B2 JP7055630B2 (ja) | 2022-04-18 |
Family
ID=60301805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017245279A Active JP7055630B2 (ja) | 2017-03-23 | 2017-12-21 | 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10540958B2 (ja) |
EP (1) | EP3379531A1 (ja) |
JP (1) | JP7055630B2 (ja) |
KR (1) | KR102399535B1 (ja) |
CN (1) | CN108630197B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305619B (zh) * | 2017-03-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音数据集训练方法和装置 |
EP3707703A1 (en) * | 2018-11-28 | 2020-09-16 | Google LLC. | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
CN110033089B (zh) * | 2019-04-17 | 2021-03-26 | 山东大学 | 基于分布式估计算法的手写体数字图像识别深度神经网络参数优化方法及系统 |
CN109979257B (zh) * | 2019-04-27 | 2021-01-08 | 深圳市数字星河科技有限公司 | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 |
US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
CN110556100B (zh) * | 2019-09-10 | 2021-09-17 | 思必驰科技股份有限公司 | 端到端语音识别模型的训练方法及系统 |
CN111291657B (zh) * | 2020-01-21 | 2022-09-16 | 同济大学 | 一种基于难例挖掘的人群计数模型训练方法及应用 |
CN111951789B (zh) * | 2020-08-14 | 2021-08-17 | 北京达佳互联信息技术有限公司 | 语音识别模型的训练、语音识别方法、装置、设备及介质 |
CN111933121B (zh) * | 2020-08-31 | 2024-03-12 | 广州市百果园信息技术有限公司 | 一种声学模型训练方法及装置 |
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
CN113344056B (zh) * | 2021-05-31 | 2022-11-22 | 北京邮电大学 | 一种人员移动性预测模型的训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0895939A (ja) * | 1994-09-28 | 1996-04-12 | Nippon Telegr & Teleph Corp <Ntt> | 時系列データの学習方法及び時系列データの学習装置 |
JPH10326265A (ja) * | 1997-05-23 | 1998-12-08 | Sony Corp | 学習方法および装置、並びに記録媒体 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7058617B1 (en) * | 1996-05-06 | 2006-06-06 | Pavilion Technologies, Inc. | Method and apparatus for training a system model with gain constraints |
EP1065601A1 (en) * | 1999-07-02 | 2001-01-03 | BRITISH TELECOMMUNICATIONS public limited company | Training process |
IES20020063A2 (en) * | 2001-01-31 | 2002-08-07 | Predictions Dynamics Ltd | Neutral network training |
US7194320B2 (en) * | 2003-06-05 | 2007-03-20 | Neuco, Inc. | Method for implementing indirect controller |
US7469209B2 (en) * | 2003-08-14 | 2008-12-23 | Dilithium Networks Pty Ltd. | Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications |
US7295700B2 (en) | 2003-10-24 | 2007-11-13 | Adobe Systems Incorporated | Object extraction based on color and visual texture |
US7245250B1 (en) * | 2005-08-16 | 2007-07-17 | Itt Manufacturing Enterprises, Inc. | Synthetic aperture radar image compression |
US8510242B2 (en) * | 2007-08-31 | 2013-08-13 | Saudi Arabian Oil Company | Artificial neural network models for determining relative permeability of hydrocarbon reservoirs |
CN101334998A (zh) * | 2008-08-07 | 2008-12-31 | 上海交通大学 | 基于异类模型区分性融合的汉语语音识别系统 |
KR101780760B1 (ko) | 2011-06-30 | 2017-10-10 | 구글 인코포레이티드 | 가변길이 문맥을 이용한 음성인식 |
US20130090926A1 (en) | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
HUE030528T2 (en) | 2012-03-15 | 2017-05-29 | Cortical Io Gmbh | Process, equipment and product for semantic processing of texts |
US9202464B1 (en) | 2012-10-18 | 2015-12-01 | Google Inc. | Curriculum learning for speech recognition |
US9508347B2 (en) * | 2013-07-10 | 2016-11-29 | Tencent Technology (Shenzhen) Company Limited | Method and device for parallel processing in model training |
US9679258B2 (en) * | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
US9730643B2 (en) * | 2013-10-17 | 2017-08-15 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
WO2015130928A1 (en) * | 2014-02-26 | 2015-09-03 | Nancy Packes, Inc. | Real estate evaluating platform methods, apparatuses, and media |
US10127927B2 (en) | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
EP3192012A4 (en) * | 2014-09-12 | 2018-01-17 | Microsoft Technology Licensing, LLC | Learning student dnn via output distribution |
CN105636197B (zh) * | 2014-11-06 | 2019-04-26 | 株式会社理光 | 距离估计方法和装置、以及节点定位方法和设备 |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
US10445641B2 (en) * | 2015-02-06 | 2019-10-15 | Deepmind Technologies Limited | Distributed training of reinforcement learning systems |
CA2984311A1 (en) * | 2015-05-05 | 2016-11-10 | Retailmenot, Inc. | Scalable complex event processing with probabilistic machine learning models to predict subsequent geolocations |
US9734436B2 (en) * | 2015-06-05 | 2017-08-15 | At&T Intellectual Property I, L.P. | Hash codes for images |
WO2017019555A1 (en) * | 2015-07-24 | 2017-02-02 | Google Inc. | Continuous control with deep reinforcement learning |
KR102140672B1 (ko) * | 2015-09-11 | 2020-08-03 | 구글 엘엘씨 | 트레이닝 증강 학습 신경 네트워크 |
US9792531B2 (en) * | 2015-09-16 | 2017-10-17 | Siemens Healthcare Gmbh | Intelligent multi-scale medical image landmark detection |
KR20170036909A (ko) | 2015-09-24 | 2017-04-04 | 푸시맨 주식회사 | 푸시 메시지 발송 장치 |
CN117910545A (zh) * | 2015-11-12 | 2024-04-19 | 渊慧科技有限公司 | 使用优先化经验存储器训练神经网络 |
JP6679898B2 (ja) * | 2015-11-24 | 2020-04-15 | 富士通株式会社 | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム |
US11042798B2 (en) * | 2016-02-04 | 2021-06-22 | Adobe Inc. | Regularized iterative collaborative feature learning from web and user behavior data |
CN109479110A (zh) * | 2016-03-08 | 2019-03-15 | 优确诺股份有限公司 | 动态创建个人化锻炼视频的系统和方法 |
CN105955921B (zh) * | 2016-04-18 | 2019-03-26 | 苏州大学 | 基于自动发现抽象动作的机器人分层强化学习初始化方法 |
JP2019518273A (ja) * | 2016-04-27 | 2019-06-27 | ニューララ インコーポレイテッド | 深層ニューラルネットワークベースのq学習の経験メモリをプルーニングする方法及び装置 |
US10204097B2 (en) * | 2016-08-16 | 2019-02-12 | Microsoft Technology Licensing, Llc | Efficient dialogue policy learning |
US10671908B2 (en) * | 2016-11-23 | 2020-06-02 | Microsoft Technology Licensing, Llc | Differential recurrent neural network |
-
2017
- 2017-03-23 KR KR1020170036909A patent/KR102399535B1/ko active IP Right Grant
- 2017-08-16 US US15/678,390 patent/US10540958B2/en active Active
- 2017-11-02 CN CN201711064668.2A patent/CN108630197B/zh active Active
- 2017-11-08 EP EP17200655.3A patent/EP3379531A1/en active Pending
- 2017-12-21 JP JP2017245279A patent/JP7055630B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0895939A (ja) * | 1994-09-28 | 1996-04-12 | Nippon Telegr & Teleph Corp <Ntt> | 時系列データの学習方法及び時系列データの学習装置 |
JPH10326265A (ja) * | 1997-05-23 | 1998-12-08 | Sony Corp | 学習方法および装置、並びに記録媒体 |
Non-Patent Citations (1)
Title |
---|
WEIXIN YANG, ET AL.: "DropSample: A new training method to enhance deep convolutional neural networks for large-scale unco", ARXIV [ONLINE], JPN6021048316, 2015, pages 1 - 18, ISSN: 0004655980 * |
Also Published As
Publication number | Publication date |
---|---|
EP3379531A1 (en) | 2018-09-26 |
US10540958B2 (en) | 2020-01-21 |
CN108630197B (zh) | 2023-10-31 |
US20180277098A1 (en) | 2018-09-27 |
KR20180107940A (ko) | 2018-10-04 |
JP7055630B2 (ja) | 2022-04-18 |
KR102399535B1 (ko) | 2022-05-19 |
CN108630197A (zh) | 2018-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7055630B2 (ja) | 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 | |
CN110546656B (zh) | 前馈生成式神经网络 | |
US20200320977A1 (en) | Speech recognition method and apparatus | |
CN110556100B (zh) | 端到端语音识别模型的训练方法及系统 | |
CN113544703B (zh) | 高效的离策略信用分配 | |
CN105679317B (zh) | 用于训练语言模型并识别语音的方法和设备 | |
US9984683B2 (en) | Automatic speech recognition using multi-dimensional models | |
JP4545456B2 (ja) | 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 | |
US11853893B2 (en) | Execution of a genetic algorithm having variable epoch size with selective execution of a training algorithm | |
US9202464B1 (en) | Curriculum learning for speech recognition | |
WO2016181951A1 (ja) | リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置 | |
WO2020226778A1 (en) | On-device custom wake word detection | |
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
CN109754789A (zh) | 语音音素的识别方法及装置 | |
JP2018159917A (ja) | 音響モデルをトレーニングする方法及び装置 | |
Sivasankaran et al. | Discriminative importance weighting of augmented training data for acoustic model training | |
Gao et al. | Distilling knowledge from ensembles of acoustic models for joint CTC-attention end-to-end speech recognition | |
GB2607133A (en) | Knowledge distillation using deep clustering | |
US8438029B1 (en) | Confidence tying for unsupervised synthetic speech adaptation | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP2020126141A (ja) | 音響モデル学習装置、音響モデル学習方法、プログラム | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
US11443748B2 (en) | Metric learning of speaker diarization | |
JP2019078857A (ja) | 音響モデルの学習方法及びコンピュータプログラム | |
JP7359028B2 (ja) | 学習装置、学習方法、および、学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7055630 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |