JP7170405B2 - ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法 - Google Patents
ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法 Download PDFInfo
- Publication number
- JP7170405B2 JP7170405B2 JP2018042978A JP2018042978A JP7170405B2 JP 7170405 B2 JP7170405 B2 JP 7170405B2 JP 2018042978 A JP2018042978 A JP 2018042978A JP 2018042978 A JP2018042978 A JP 2018042978A JP 7170405 B2 JP7170405 B2 JP 7170405B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- sub
- scaling factor
- length
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 280
- 238000012549 training Methods 0.000 title claims description 82
- 238000000034 method Methods 0.000 title claims description 75
- 230000005236 sound signal Effects 0.000 claims description 39
- 230000000306 recurrent effect Effects 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 210000000225 synapse Anatomy 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
Claims (27)
- プロセッサによる認識方法において、
メインニューラルネットワーク及びサブニューラルネットワークに音声信号を提供するステップと、
前記サブニューラルネットワークを用いて、前記提供された音声信号を解釈することにより、スケーリングファクターを取得するステップと、
前記スケーリングファクターに基づいて、音声認識を行うメインニューラルネットワークで考慮する未来コンテキストの長さを決定するステップと、
前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて前記音声信号の認識結果を取得するステップと、
を含む認識方法。 - 前記メインニューラルネットワークは、以前時間連結を含む第1レイヤ及び未来時間連結を含む第2レイヤを含む、請求項1に記載の認識方法。
- 前記未来コンテキストの長さを決定するステップは、
前記メインニューラルネットワークによる音声認識それぞれに対する未来コンテキストそれぞれの長さを決定し、
前記未来コンテキストそれぞれの長さは、前記サブニューラルネットワークによる音声信号の対応するコンテキスト解釈に基づいて動的に決定される、請求項1に記載の認識方法。 - 前記メインニューラルネットワーク及び前記サブニューラルネットワークに前記音声信号を提供するステップは、
前記音声信号に含まれた複数の音声フレーム又はウィンドウを前記メインニューラルネットワークに提供し、前記複数の音声フレーム又はウィンドウの一部を前記サブニューラルネットワークに提供し、
前記サブニューラルネットワークは、前記複数の音声フレーム又はウィンドウの一部を解釈することによって前記スケーリングファクターを生成し、
前記メインニューラルネットワークは、前記複数の音声フレーム又はウィンドウに基づいて音声信号を認識する、請求項1ないし3のうち何れか一項に記載の認識方法。 - 前記メインニューラルネットワーク及び前記サブニューラルネットワークに前記音声信号を提供するステップは、前記スケーリングファクターを取得するために、前記複数の音声フレーム又はウィンドウの全て又は一部のいずれか1つを前記サブニューラルネットワークに提供する、請求項4に記載の認識方法。
- 前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークを用いて、前記音声信号が認識されるとき前記メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示すスケーリングファクターを取得する、請求項1ないし5のうち何れか一項に記載の認識方法。
- 前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークによって解釈された前記音声信号に含まれたノイズ程度、及び前記音声信号に含まれたユーザ発音の正確度のうち少なくとも1つに基づいて決定されたスケーリングファクターを取得する、請求項6に記載の認識方法。
- 前記スケーリングファクターを取得するステップは、前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性に基づいて予め決定された閾値よりも大きい値を有する成分が多くなるよう前記スケーリングファクターを決定する、請求項6に記載の認識方法。
- 前記未来コンテキストの長さを決定するステップは、前記スケーリングファクターに基づいて前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性により前記未来コンテキストの長さを大きく決定し、前記サブニューラルネットワークによって相対的に高く解釈された音声信号の明確性により前記未来コンテキストの長さを小さく決定する、請求項1に記載の認識方法。
- 前記未来コンテキストの長さを決定するステップは、前記スケーリングファクターに含まれた成分の値と予め決定された閾値との間の比較によって前記未来コンテキストの長さを決定する、請求項1に記載の認識方法。
- 前記未来コンテキストの長さを決定するステップは、前記予め決定された閾値よりも大きい値を有する前記スケーリングファクターの成分のうち最も高い次元に基づいて前記未来コンテキストの長さを決定する、請求項10に記載の認識方法。
- 前記音声信号の認識結果を取得するステップは、
前記メインニューラルネットワークに含まれたルックアヘッド畳み込みレイヤの未来コンテキストの長さを前記決定された未来コンテキストの長さに調整するステップと、
前記調整されたルックアヘッド畳み込みレイヤを含むメインニューラルネットワークに前記音声信号を入力するステップと、
前記調整されたルックアヘッド畳み込みレイヤを含むメインニューラルネットワークから出力される音声信号の認識結果を取得するステップと、
を含む、請求項1ないし11のうち何れか一項に記載の認識方法。 - 前記ルックアヘッド畳み込みレイヤの未来コンテキストの長さを前記決定された未来コンテキストの長さに調整するステップは、前記決定された未来コンテキストの長さに基づいて、前記ルックアヘッド畳み込みレイヤに対するゼロ未来コンテキスト、一部の未来コンテキスト、全ての未来コンテキストのうちいずれか1つを選択する、請求項12に記載の認識方法。
- 前記未来コンテキストの長さを決定するステップは、前記音声信号の複数のウィンドウのうち最初のウィンドウで取得したスケーリングファクターに基づいて前記未来コンテキストの長さを決定し、
前記音声信号の認識結果を取得するステップは、前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて、前記音声信号に含まれた複数のウィンドウに対する認識結果を取得する、請求項1に記載の認識方法。 - 前記メインニューラルネットワークは、ルックアヘッド畳み込みレイヤを含む単方向リカレントニューラルネットワークである、請求項1ないし14のうち何れか一項に記載の認識方法。
- 前記メインニューラルネットワーク及び前記サブニューラルネットワークは、共にトレーニングされるニューラルネットワークである、請求項1ないし14のうち何れか一項に記載の認識方法。
- プロセッサによるトレーニング方法において、
トレーニング入力が入力されたサブニューラルネットワークからスケーリングファクターを取得するステップと、
前記スケーリングファクターに基づいてメインニューラルネットワークで考慮する未来コンテキストの長さを決定するステップと、
前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークに前記トレーニング入力が入力されることによって、前記メインニューラルネットワークで前記トレーニング入力にマッピングされたトレーニング出力が出力されるよう、前記メインニューラルネットワーク及び前記サブニューラルネットワークをトレーニングするステップと、
を含むトレーニング方法。 - 前記メインニューラルネットワーク及び前記サブニューラルネットワークをトレーニングするステップは、前記メインニューラルネットワークと前記サブニューラルネットワークを同時にトレーニングする、請求項17に記載のトレーニング方法。
- 請求項1ないし請求項18のいずれか一項に記載の方法をプロセッサに実行させる命令語を含むコンピュータプログラム。
- プロセッサと
少なくとも1つの命令語を含むメモリと
を有する認識装置であって、前記命令語が前記プロセッサにより実行されると、前記プロセッサは、
メインニューラルネットワーク及びサブニューラルネットワークに音声信号を提供し、
前記サブニューラルネットワークを用いて、前記提供された音声信号を解釈することによりスケーリングファクターを取得し、
音声認識を行うメインニューラルネットワークで考慮する未来コンテキストの長さを前記スケーリングファクターに基づいて決定し、前記決定された未来コンテキストの長さが適用された前記メインニューラルネットワークを用いて、前記音声信号の認識結果を取得する、認識装置。 - 前記少なくとも1つの命令語は、前記プロセッサによって音声認識が提供され、前記スケーリングファクターを取得し、前記未来コンテキストの長さを決定し、前記認識結果を取得することを、前記プロセッサに実行させる、請求項20記載の認識装置。
- 前記メモリは、前記メインニューラルネットワーク及び前記サブニューラルネットワークのトレーニングされたパラメータそれぞれを含み、
前記プロセッサは、前記メインニューラルネットワーク及び前記サブニューラルネットワークが実行される場合、前記トレーニングされたパラメータそれぞれを前記メインニューラルネットワーク及び前記サブニューラルネットワークに適用する、請求項20又は21に記載の認識装置。 - 前記プロセッサは、前記サブニューラルネットワークを用いて前記音声信号が認識される場合に、前記メインニューラルネットワークで考慮される未来コンテキストの時点ごとの重要度を示すスケーリングファクターを取得する、請求項20ないし22のうち何れか一項に記載の認識装置。
- 前記プロセッサは、前記サブニューラルネットワークによって解釈された前記音声信号に含まれたノイズ程度及び前記音声信号に含まれたユーザ発音の正確度のうち少なくとも1つに基づいて決定されたスケーリングファクターを取得する、請求項23記載の認識装置。
- 前記プロセッサは、前記サブニューラルネットワークによって相対的に低く解釈された音声信号の明確性に基づいて予め決定された閾値よりも大きい値を有する成分が多くなるように前記スケーリングファクターを決定する、請求項20ないし22のうち何れか一項に記載の認識装置。
- 前記プロセッサは、前記スケーリングファクターに含まれた成分の値と予め決定された閾値との間の比較によって前記未来コンテキストの長さを決定する、請求項20ないし25のうち何れか一項に記載の認識装置。
- 前記認識装置は、電子装置であり、オーディオをキャプチャーする音声受信機をさらに含み、前記プロセッサは、前記キャプチャーされたオーディオから前記音声信号を抽出し、
前記プロセッサは、前記認識結果に基づいて解釈された命令に基づいて前記認識装置の非音声認識機能を制御する、請求項21ないし26のうち何れか一項に記載の認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170103044A KR102410820B1 (ko) | 2017-08-14 | 2017-08-14 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
KR10-2017-0103044 | 2017-08-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019035936A JP2019035936A (ja) | 2019-03-07 |
JP7170405B2 true JP7170405B2 (ja) | 2022-11-14 |
Family
ID=61563289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018042978A Active JP7170405B2 (ja) | 2017-08-14 | 2018-03-09 | ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10504506B2 (ja) |
EP (1) | EP3444807B1 (ja) |
JP (1) | JP7170405B2 (ja) |
KR (1) | KR102410820B1 (ja) |
CN (1) | CN109410924B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11615300B1 (en) * | 2018-06-13 | 2023-03-28 | Xilinx, Inc. | System and method for implementing neural networks in integrated circuits |
KR102292800B1 (ko) | 2018-08-22 | 2021-08-25 | 한국전자통신연구원 | 신경망 융합 장치, 그것의 단위 신경망 융합 방법 및 정합 인터페이스 생성 방법 |
CN111341299B (zh) * | 2018-11-30 | 2021-10-15 | 阿里巴巴集团控股有限公司 | 一种语音处理方法及装置 |
US11631399B2 (en) * | 2019-04-16 | 2023-04-18 | Microsoft Technology Licensing, Llc | Layer trajectory long short-term memory with future context |
EP3948854B1 (en) * | 2019-04-16 | 2024-01-31 | Google LLC | Joint endpointing and automatic speech recognition |
CN110298240B (zh) * | 2019-05-21 | 2022-05-06 | 北京迈格威科技有限公司 | 一种汽车用户识别方法、装置、系统及存储介质 |
CN111383628B (zh) * | 2020-03-09 | 2023-08-25 | 第四范式(北京)技术有限公司 | 一种声学模型的训练方法、装置、电子设备及存储介质 |
CN111968628B (zh) * | 2020-08-22 | 2021-06-25 | 南京硅基智能科技有限公司 | 一种用于语音指令捕捉的信号精确度调节系统及方法 |
CN112259071A (zh) * | 2020-09-22 | 2021-01-22 | 北京百度网讯科技有限公司 | 语音处理系统、语音处理方法、电子设备和可读存储介质 |
CN112201249B (zh) * | 2020-09-29 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
CN112613601B (zh) * | 2020-12-24 | 2024-01-16 | 暨南大学 | 神经网络模型更新方法、设备及计算机存储介质 |
CN112885338B (zh) * | 2021-01-29 | 2024-05-14 | 深圳前海微众银行股份有限公司 | 语音识别方法、设备、计算机可读存储介质及程序产品 |
CN114067800B (zh) * | 2021-04-28 | 2023-07-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置和电子设备 |
CN114141317A (zh) * | 2021-12-07 | 2022-03-04 | 北京百度网讯科技有限公司 | 化合物性质预测模型训练方法、装置、设备以及存储介质 |
CN117275499B (zh) * | 2023-11-17 | 2024-02-02 | 深圳波洛斯科技有限公司 | 自适应神经网络的降噪方法及相关装置 |
CN117727306A (zh) * | 2023-12-21 | 2024-03-19 | 青岛润恒益科技有限公司 | 一种基于原生声纹特征的拾音翻译方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017117045A (ja) | 2015-12-22 | 2017-06-29 | 日本電信電話株式会社 | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム |
JP2018513398A (ja) | 2015-11-25 | 2018-05-24 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 配置されたエンドツーエンド音声認識 |
US20180336887A1 (en) | 2017-05-22 | 2018-11-22 | Samsung Electronics Co., Ltd. | User adaptive speech recognition method and apparatus |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7164117B2 (en) * | 1992-05-05 | 2007-01-16 | Automotive Technologies International, Inc. | Vehicular restraint system control system and method using multiple optical imagers |
US8189825B2 (en) * | 1994-05-09 | 2012-05-29 | Breed David S | Sound management techniques for vehicles |
JPH08227410A (ja) * | 1994-12-22 | 1996-09-03 | Just Syst Corp | ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置 |
US7313467B2 (en) * | 2000-09-08 | 2007-12-25 | Automotive Technologies International Inc. | System and method for in-vehicle communications |
US7738678B2 (en) * | 1995-06-07 | 2010-06-15 | Automotive Technologies International, Inc. | Light modulation techniques for imaging objects in or around a vehicle |
US6381569B1 (en) * | 1998-02-04 | 2002-04-30 | Qualcomm Incorporated | Noise-compensated speech recognition templates |
EP2221805B1 (en) * | 2009-02-20 | 2014-06-25 | Nuance Communications, Inc. | Method for automated training of a plurality of artificial neural networks |
US9002765B1 (en) * | 2010-11-11 | 2015-04-07 | Muralidhar Ravuri | Stable parallel loop systems |
US9373085B1 (en) * | 2012-05-15 | 2016-06-21 | Vicarious Fpc, Inc. | System and method for a recursive cortical network |
CN102800316B (zh) * | 2012-08-30 | 2014-04-30 | 重庆大学 | 基于神经网络的声纹识别系统的最优码本设计方法 |
US9263036B1 (en) | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
US9406017B2 (en) | 2012-12-24 | 2016-08-02 | Google Inc. | System and method for addressing overfitting in a neural network |
GB2513105A (en) * | 2013-03-15 | 2014-10-22 | Deepmind Technologies Ltd | Signal processing systems |
US20150269481A1 (en) | 2014-03-24 | 2015-09-24 | Qualcomm Incorporated | Differential encoding in neural networks |
US10275705B2 (en) * | 2014-08-08 | 2019-04-30 | Vicarious Fpc, Inc. | Systems and methods for generating data explanations for neural networks and related systems |
US9630318B2 (en) * | 2014-10-02 | 2017-04-25 | Brain Corporation | Feature detection apparatus and methods for training of robotic navigation |
US10540957B2 (en) | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
KR102305584B1 (ko) | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
WO2016197046A1 (en) * | 2015-06-05 | 2016-12-08 | Google Inc. | Spatial transformer modules |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
US9607616B2 (en) * | 2015-08-17 | 2017-03-28 | Mitsubishi Electric Research Laboratories, Inc. | Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
US10147442B1 (en) * | 2015-09-29 | 2018-12-04 | Amazon Technologies, Inc. | Robust neural network acoustic model with side task prediction of reference signals |
KR102423302B1 (ko) * | 2015-10-06 | 2022-07-19 | 삼성전자주식회사 | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 |
US10733979B2 (en) | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
WO2017083695A1 (en) * | 2015-11-12 | 2017-05-18 | Google Inc. | Generating target sequences from input sequences using partial conditioning |
US9928435B2 (en) * | 2015-12-30 | 2018-03-27 | Samsung Electronics Co., Ltd | System and method for providing an on-chip context aware contact list |
US11263514B2 (en) * | 2016-01-13 | 2022-03-01 | Google Llc | Processing and generating sets using recurrent neural networks |
KR102501838B1 (ko) * | 2016-02-01 | 2023-02-23 | 삼성전자주식회사 | 심전도 신호를 이용한 인증 장치 및 방법 |
ES2874629T3 (es) * | 2016-03-07 | 2021-11-05 | Fraunhofer Ges Forschung | Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes |
US10460747B2 (en) * | 2016-05-10 | 2019-10-29 | Google Llc | Frequency based audio analysis using neural networks |
US10431206B2 (en) * | 2016-08-22 | 2019-10-01 | Google Llc | Multi-accent speech recognition |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3497629B1 (en) * | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Generating audio using neural networks |
US10685285B2 (en) * | 2016-11-23 | 2020-06-16 | Microsoft Technology Licensing, Llc | Mirror deep neural networks that regularize to linear networks |
US11133011B2 (en) * | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
-
2017
- 2017-08-14 KR KR1020170103044A patent/KR102410820B1/ko active IP Right Grant
- 2017-12-07 US US15/834,416 patent/US10504506B2/en active Active
-
2018
- 2018-03-05 EP EP18159948.1A patent/EP3444807B1/en active Active
- 2018-03-09 JP JP2018042978A patent/JP7170405B2/ja active Active
- 2018-04-03 CN CN201810289127.8A patent/CN109410924B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018513398A (ja) | 2015-11-25 | 2018-05-24 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 配置されたエンドツーエンド音声認識 |
JP2017117045A (ja) | 2015-12-22 | 2017-06-29 | 日本電信電話株式会社 | 言語確率算出方法、言語確率算出装置および言語確率算出プログラム |
US20180336887A1 (en) | 2017-05-22 | 2018-11-22 | Samsung Electronics Co., Ltd. | User adaptive speech recognition method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
EP3444807B1 (en) | 2020-05-13 |
EP3444807A1 (en) | 2019-02-20 |
KR102410820B1 (ko) | 2022-06-20 |
KR20190018278A (ko) | 2019-02-22 |
US10504506B2 (en) | 2019-12-10 |
CN109410924A (zh) | 2019-03-01 |
CN109410924B (zh) | 2023-09-08 |
JP2019035936A (ja) | 2019-03-07 |
US20190051291A1 (en) | 2019-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7170405B2 (ja) | ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法 | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US10957309B2 (en) | Neural network method and apparatus | |
JP6758811B2 (ja) | 言語モデル学習方法及び装置、音声認識方法及び装置 | |
JP7109302B2 (ja) | 文章生成モデルのアップデート方法及び文章生成装置 | |
KR102305584B1 (ko) | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 | |
US11100296B2 (en) | Method and apparatus with natural language generation | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
US10529319B2 (en) | User adaptive speech recognition method and apparatus | |
US10580432B2 (en) | Speech recognition using connectionist temporal classification | |
CN108885870A (zh) | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 | |
US11776269B2 (en) | Action classification in video clips using attention-based neural networks | |
Hou et al. | Gaussian Prediction Based Attention for Online End-to-End Speech Recognition. | |
US10825445B2 (en) | Method and apparatus for training acoustic model | |
JP2020086436A (ja) | 人工神経網における復号化方法、音声認識装置及び音声認識システム | |
US11694677B2 (en) | Decoding method and apparatus in artificial neural network for speech recognition | |
KR20220130565A (ko) | 키워드 검출 방법 및 장치 | |
US20230096805A1 (en) | Contrastive Siamese Network for Semi-supervised Speech Recognition | |
JP2020027609A (ja) | 応答推論方法及び装置 | |
KR20210042696A (ko) | 모델 학습 방법 및 장치 | |
EP4030352A1 (en) | Task-specific text generation based on multimodal inputs | |
US11775617B1 (en) | Class-agnostic object detection | |
KR20200120595A (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
US20240104311A1 (en) | Hybrid language translation on mobile devices | |
KR102382191B1 (ko) | 음성 감정 인식 및 합성의 반복 학습 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7170405 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |