JP2020067658A - 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 - Google Patents
音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 Download PDFInfo
- Publication number
- JP2020067658A JP2020067658A JP2019182034A JP2019182034A JP2020067658A JP 2020067658 A JP2020067658 A JP 2020067658A JP 2019182034 A JP2019182034 A JP 2019182034A JP 2019182034 A JP2019182034 A JP 2019182034A JP 2020067658 A JP2020067658 A JP 2020067658A
- Authority
- JP
- Japan
- Prior art keywords
- dialect
- individual
- parameters
- speech recognition
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title abstract description 75
- 238000013145 classification model Methods 0.000 claims description 50
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 14
- 230000004913 activation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
前記方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、前記パラメータ生成モデルによって生成される前記方言パラメータとして、又は個別方言パラメータとして、個別スケール行列を前記方言音声認識モデルの隠れレイヤの個別出力に適用するステップを含み得る。
前記個別バッチパラメータを前記個別入力に適用することは、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記個別バッチパラメータを適用することを含み得る。
910:入出力インタフェース
920:プロセッサ
930:メモリ
Claims (48)
- プロセッサで実現される、音声を認識する方法において、
音声信号を取得するステップと、
前記音声信号の認識を行うステップと、
を含み、
前記認識を行うステップは、
前記音声信号に対してパラメータ生成モデルを用いて、方言入力データから方言パラメータを生成するステップと、
方言音声認識モデルを生成するためにトレーニングされた音声認識モデルに前記方言パラメータを適用するステップと、
前記音声信号に対して前記方言音声認識モデルを施行することによって、前記音声信号から音声認識の結果を生成するステップと、
を含む音声を認識する方法。 - 前記方言パラメータを適用するステップは、前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれのうち少なくとも個別部分に、前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するステップを含む、請求項1に記載の音声を認識する方法。
- 前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、1つ以上の階層的に以前レイヤノード及び/又は個別加重された接続により1つ以上の臨時的に以前ノードに接続される少なくともノードを含み、
前記方言パラメータ又は個別方言パラメータを適用するステップは、
接続加重(connection weight)を挿入するステップと、
前記個別加重された接続の全てより少ない前記1つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更するステップと、
を含む、請求項2に記載の音声を認識する方法。 - 前記方言パラメータ又は前記個別方言パラメータは、1つ以上の個別スケール行列をさらに含み、
前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に、前記方言音声認識モデルの1つ以上の隠れレイヤの個別出力に前記1つ以上の個別スケール行列を適用するステップを含む、請求項3に記載の音声を認識する方法。 - 前記方言パラメータ又は前記個別方言パラメータは1つ以上の個別バッチパラメータをさらに含み、
前記1つ以上の個別バッチパラメータのそれぞれは、第1バッチパラメータ及び第2バッチパラメータを含み、
前記方言パラメータ又は前記個別方言パラメータを適用するステップは、
前記方言音声認識モデルの施行の間、1つ以上の隠れレイヤのそれぞれに対して前記第1バッチパラメータを個別入力に乗算し、前記第2バッチパラメータを加算し、前記1つ以上の隠れレイヤに個別的に前記適用された1つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記1つ以上の個別バッチパラメータを適用するステップを含む、請求項4に記載の音声を認識する方法。 - 前記個別入力は、正規化された個別入力であり、
前記個別バッチパラメータは、個別バッチ正規化パラメータである、請求項5に記載の音声を認識する方法。 - 前記方言パラメータ又は前記個別方言パラメータは、1つ以上の個別バッチパラメータを含み、
前記1つ以上の個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、
前記方言パラメータ又は前記個別方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間に1つ以上の隠れレイヤに対して第1バッチパラメータを個別入力に乗算し、第2バッチパラメータを加算して前記1つ以上の隠れレイヤに個別的に前記適用された1つ以上の個別バッチパラメータの個別結果をフォワーディングすることによって、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記1つ以上の個別バッチパラメータを適用するステップを含む、請求項3に記載の音声を認識する方法。 - 前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは個別バッチ正規化パラメータである、請求項7に記載の音声を認識する方法。
- 前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時的に以前ノードに接続される少なくともいずれか1つのノードを含み、
前記方言パラメータを適用するステップは、前記方言音声認識モデルの施行の間、前記パラメータ生成モデルによって生成される前記方言パラメータとして、又は個別方言パラメータとして、個別スケール行列を前記方言音声認識モデルの隠れレイヤの個別出力に適用するステップを含む、請求項1に記載の音声を認識する方法。 - 前記方言パラメータは個別バッチパラメータを含み、
前記方言パラメータを適用するステップは、前記方言音声認識モデルを施行する間、前記方言音声認識モデルの1つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用するステップを含み、
入力は、前記方言音声認識モデルの入力演算から又は前記方言音声認識モデルの以前の1つ以上の中間演算からの入力である、請求項1に記載の音声を認識する方法。 - 前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークモデルであり、
前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、
前記個別入力に前記個別バッチパラメータを適用するステップは、前記方言音声認識モデルを施行する間に前記方言音声認識モデルの1つ以上の隠れレイヤの個別入力に前記個別バッチパラメータを適用するステップを含む、請求項10に記載の音声を認識する方法。 - 前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、
前記方言音声認識モデルの前記1つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用するステップは、
前記1つ以上の隠れレイヤに対して、個別入力に第1バッチパラメータを乗算し、前記第2バッチパラメータを加算するステップと、
前記1つ以上の隠れレイヤに個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップと、
を含む、請求項11に記載の音声を認識する方法。 - 前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータである、請求項12に記載の音声を認識する方法。
- 前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、
1つ以上の中間演算それぞれに対して、前記方言音声認識モデルの1つ以上の中間演算に対する前記個別入力に前記個別バッチパラメータを適用するステップは、
個別入力に前記第1バッチパラメータを乗算し、前記第2バッチパラメータを加算するステップと、
前記方言音声認識モデルの前記1つ以上の中間演算に個別的に前記適用された個別バッチパラメータの個別結果をフォワーディングするステップと、
を含む、請求項10に記載の音声を認識する方法。 - 前記個別入力は正規化された個別入力であり、前記個別バッチパラメータはバッチ正規化パラメータである、請求項14に記載の音声を認識する方法。
- 前記方言パラメータを生成するステップは、
ユーザから受信されるユーザ操作に応答して、前記ユーザ操作が指示する方言情報を前記方言入力データとして決定するステップと、
前記パラメータ生成モデルに基づいて、前記決定された方言入力データから前記方言パラメータを生成するステップと、
を含む、請求項1に記載の音声を認識する方法。 - 前記方言パラメータを生成するステップは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出するステップを含む、請求項1に記載の音声を認識する方法。
- 前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から前記音声信号が属する方言に関する確率データを前記方言入力データとして算出するステップを含む、請求項17に記載の音声を認識する方法。
- 前記方言入力データを算出するステップは、前記方言分類モデルを用いて前記音声信号から方言情報を算出しながら、前記方言分類モデルの少なくともいずれか1つのレイヤの出力を前記方言入力データとして決定するステップを含む、請求項17に記載の音声を認識する方法。
- 前記方言パラメータを生成するステップは、前記方言音声認識モデルの少なくともいずれか1つの施行されたレイヤの出力から前記方言入力データを算出するステップを含む、請求項1に記載の音声を認識する方法。
- 前記方言入力データは前記音声信号である、請求項1に記載の音声を認識する方法。
- 前記パラメータ生成モデルは、前記方言パラメータを生成するために前記パラメータ生成モデルを用いる場合、方言の1つ以上の施行されたレイヤのそれぞれの少なくとも個別部分から出力された特徴データを考慮する、請求項1に記載の音声を認識する方法。
- 前記方言パラメータを生成するステップは、前記パラメータ生成モデルによる1つ以上のレイヤの個別先行レイヤから出力された個別データの考慮に基づいて、前記方言音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するステップを含む、請求項1に記載の音声を認識する方法。
- 前記方言パラメータを生成するステップは、前記方言入力データとして、前記音声信号に対して方言グループのうちいずれか1つの方言グループを指示するデータを取得するステップを含む、請求項1に記載の音声を認識する方法。
- 前記方言パラメータを生成するステップは、新しい方言入力データが他のユーザに対して生成されるまで、後続して取得された音声信号の認識における使用に対して、以前に適用されて生成された方言パラメータを用いて以前の音声認識モデルによって以前の音声認識に対して以前に生成された方言パラメータを保持するステップを含む、請求項1に記載の音声を認識する方法。
- 前記方言パラメータを生成するステップは、現在ユーザの方言グループと以前ユーザの方言グループとが異なるという決定に応答して、前記現在ユーザに対して新しい方言入力データを前記方言入力データとして取得するステップを含む、請求項1に記載の音声を認識する方法。
- 前記方言音声認識モデルを施行するステップは、前記音声信号の認識の結果を音素単位として算出するステップを含む、請求項1に記載の音声を認識する方法。
- 前記音声信号及び前記音声信号に対応する方言入力データに基づいて、前記パラメータ生成モデルを再トレーニングするステップをさらに含む、請求項1に記載の音声を認識する方法。
- 前記音声信号に対応する前記方言入力データ及び前記生成された方言パラメータをメモリに格納するステップと、
後続音声の実行された認識で、前記方言入力データが前記格納された方言データにマッチングするものと決定されたとき、前記後続音声に対する前記方言パラメータの生成をパス(pass)し、前記後続音声に対する前記方言音声認識モデルを施行することによって、前記格納された方言入力データに前記後続音声に対する方言分類モデルによって生成された方言データがマッチングするかの決定に基づいて、前記後続音声に対する前記方言パラメータを生成することを選択的に施行するステップと、
前記後続音声に対する音声認識の結果を生成する前記方言音声認識モデルを施行するステップと、
を含む、請求項1に記載の音声を認識する方法。 - ユーザの言語を識別し、前記識別された言語に対応するトレーニングされた音声認識モデルを、メモリに格納された複数の個別の他の言語トレーニングされた音声認識モデルの中から選択するステップをさらに含み、
前記方言パラメータを適用するステップは、前記方言音声認識モデルを生成するために前記選択されたトレーニングされた音声認識モデルに前記方言パラメータを適用するステップを含む、請求項1に記載の音声を認識する方法。 - 前記方言パラメータを生成するステップは、前記音声信号を取得するごとに、前記方言パラメータを動的に生成するステップを含む、請求項1に記載の音声を認識する方法。
- 前記音声認識の結果を生成するステップは、
前記音声信号を正規化することによって正規化されたデータを取得するステップと、
前記音声認識の結果を生成するために前記正規化されたデータに対する前記方言音声認識モデルを施行するステップと、
を含む、請求項1に記載の音声を認識する方法。 - 請求項1乃至請求項32のいずれか一項に記載の方法を実行するための命令語を含む1つ以上のコンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体。
- 音声を認識する装置において、
パラメータ生成モデル、トレーニングされた音声認識モデル、及び命令を格納した1つ以上のメモリと、
取得された音声信号に対する方言パラメータを、前記パラメータ生成モデルを用いて方言入力データから生成し、方言音声認識モデルを生成するために前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用し、前記音声信号に対する音声認識の結果を生成する前記方言音声認識モデルの音声認識の結果を前記音声信号に対する施行を介して生成するプロセッサと、
を含む音声を認識する装置。 - 前記プロセッサは、前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれの少なくとも個別部分に、前記パラメータ生成モデルを用いて生成された前記方言パラメータ又は個別方言パラメータを適用するように構成される、請求項34に記載の音声を認識する装置。
- 前記トレーニングされた音声認識モデルは、少なくとも前記1つ以上のレイヤを有するニューラルネットワークモデルであり、前記1つ以上のレイヤのそれぞれは、個別加重された連結に沿って1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、
前記方言パラメータ又は前記個別方言パラメータを適用することは、接続加重を挿入すること、又は、
前記個別加重された接続の全てよりも少ない、前記1つ以上のレイヤのそれぞれで個別接続加重値を設定、代替、又は、変更すること、
を含む、請求項35に記載の音声を認識する装置。 - 前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続された少なくともいずれか1つのノードを含み、
前記方言パラメータを適用することは、前記方言音声認識モデルの施行の間に前記方言音声認識モデルの1つ以上の隠れレイヤの個別出力に、前記パラメータ生成モデルによって生成された前記方言パラメータとして、又は個別方言パラメータとして個別スケール行列を適用することを含む、請求項34に記載の音声を認識する装置。 - 前記方言パラメータは個別バッチパラメータを含み、
前記方言パラメータを適用することは、前記方言音声認識モデルの1つ以上の中間演算に対する個別入力に前記個別バッチパラメータを適用することを含み、
入力は、前記方言音声認識モデルの入力演算又は前記方言音声認識モデルの以前の1つ以上の中間演算からの演算である、請求項34に記載の音声を認識する装置。 - 前記トレーニングされた音声認識モデルは、少なくとも前記1つ以上のレイヤを有するニューラルネットワークであり、前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続される少なくともいずれか1つのノードを含み、
前記個別バッチパラメータを前記個別入力に適用することは、前記方言音声認識モデルの1つ以上の隠れレイヤに対する個別入力に前記個別バッチパラメータを適用することを含む、請求項38に記載の音声を認識する装置。 - 前記個別バッチパラメータは、第1バッチパラメータ及び第2バッチパラメータを含み、
前記方言音声認識モデルの前記1つ以上の隠れレイヤに対する前記個別入力に前記個別バッチパラメータを適用することは、前記1つ以上の隠れレイヤのそれぞれに対して、個別入力に前記第1バッチパラメータを乗算し、前記第2バッチパラメータを加算し、前記1つ以上の隠れレイヤに前記適用された個別バッチパラメータの個別結果を個別的にフォワーディングすることを含む、請求項39に記載の音声を認識する装置。 - 前記個別入力は正規化された個別入力であり、前記個別バッチパラメータは、バッチ正規化パラメータである、請求項40に記載の音声を認識する装置。
- 前記プロセッサは、ユーザから受信されるユーザ操作が指示する方言情報を前記方言入力データとして決定し、前記パラメータ生成モデルに基づいて前記決定された方言入力データから前記方言パラメータを生成する、請求項34に記載の音声を認識する装置。
- 前記プロセッサは、方言分類モデルを用いて前記音声信号から前記方言入力データを算出する、請求項34に記載の音声を認識する装置。
- 前記方言入力データは前記音声信号である、請求項34に記載の音声を認識する装置。
- 前記トレーニングされた音声認識モデルに前記生成された方言パラメータを適用することと、前記音声認識の結果を生成することは、前記プロセッサによって同時に行われ、
前記プロセッサは、前記方言音声認識モデルの1つ以上のレイヤの個別先行レイヤから出力される個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成される、請求項34に記載の音声を認識する装置。 - 前記生成された方言パラメータを前記トレーニングされた音声認識モデルに適用することと、前記音声認識の結果の生成は、前記プロセッサによって同時に行われ、
前記プロセッサは、前記方言音声認識モデルの1つ以上のレイヤの個別先行レイヤから出力された個別データの、前記パラメータ生成モデルによる考慮に基づいて前記トレーニングされた音声認識モデルの1つ以上のレイヤのそれぞれに対する方言パラメータを生成するように構成される、請求項34に記載の音声を認識する装置。 - マイクロホンをさらに含み、
前記プロセッサは、前記音声信号を取得するために前記音声信号をキャプチャーするマイクロホンを制御するようにさらに構成される、請求項34に記載の音声を認識する装置。 - 音声認識装置において、
パラメータ生成モデル、方言分類モデル、トレーニングされた音声認識モデル、及び命令を格納した1つ以上のメモリを含み、
前記トレーニングされた音声認識モデルは、少なくとも1つ以上のレイヤを有するニューラルネットワークであり、
前記1つ以上のレイヤのそれぞれは、個別加重された接続により1つ以上の階層的に以前レイヤノード及び/又は1つ以上の臨時に以前ノードに接続される少なくともいずれか1つのノードを含む、音声認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0125070 | 2018-10-19 | ||
KR1020180125070A KR20200044388A (ko) | 2018-10-19 | 2018-10-19 | 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020067658A true JP2020067658A (ja) | 2020-04-30 |
JP7171532B2 JP7171532B2 (ja) | 2022-11-15 |
Family
ID=67742193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019182034A Active JP7171532B2 (ja) | 2018-10-19 | 2019-10-02 | 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11282501B2 (ja) |
EP (1) | EP3640934B1 (ja) |
JP (1) | JP7171532B2 (ja) |
KR (1) | KR20200044388A (ja) |
CN (1) | CN111081230A (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190136578A (ko) * | 2018-05-31 | 2019-12-10 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
JP7242903B2 (ja) * | 2019-05-14 | 2023-03-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置 |
US11605379B2 (en) * | 2019-07-11 | 2023-03-14 | Lg Electronics Inc. | Artificial intelligence server |
KR20210010133A (ko) * | 2019-07-19 | 2021-01-27 | 삼성전자주식회사 | 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들 |
US11341961B2 (en) * | 2019-12-02 | 2022-05-24 | National Cheng Kung University | Multi-lingual speech recognition and theme-semanteme analysis method and device |
KR20210074636A (ko) * | 2019-12-12 | 2021-06-22 | 엘지전자 주식회사 | 음향모델 생성방법 |
US20210224649A1 (en) * | 2020-01-17 | 2021-07-22 | Syntiant | Systems and Methods for Neural Network Training via Local Target Signal Augmentation |
CN112908296A (zh) * | 2021-02-18 | 2021-06-04 | 上海工程技术大学 | 一种方言识别方法 |
KR102350890B1 (ko) * | 2021-08-23 | 2022-01-12 | 전남대학교산학협력단 | 휴대용 청력검사장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2010125736A1 (ja) * | 2009-04-30 | 2012-10-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびプログラム |
WO2017034536A1 (en) * | 2015-08-24 | 2017-03-02 | Ford Global Technologies, Llc | Dynamic acoustic model for vehicle |
CN106952648A (zh) * | 2017-02-17 | 2017-07-14 | 北京光年无限科技有限公司 | 一种用于机器人的输出方法以及机器人 |
JP2019525214A (ja) * | 2016-06-30 | 2019-09-05 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 音声認識 |
JP2019527852A (ja) * | 2016-07-22 | 2019-10-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識処理方法及び装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4322372A1 (de) | 1993-07-06 | 1995-01-12 | Sel Alcatel Ag | Verfahren und Vorrichtung zur Spracherkennung |
US6424935B1 (en) * | 2000-07-31 | 2002-07-23 | Micron Technology, Inc. | Two-way speech recognition and dialect system |
US7340398B2 (en) | 2003-08-21 | 2008-03-04 | Hewlett-Packard Development Company, L.P. | Selective sampling for sound signal classification |
JP4466665B2 (ja) | 2007-03-13 | 2010-05-26 | 日本電気株式会社 | 議事録作成方法、その装置及びそのプログラム |
JP5056732B2 (ja) | 2008-11-28 | 2012-10-24 | パナソニック株式会社 | スクリーン印刷装置およびスクリーン印刷方法 |
US8073693B2 (en) | 2008-12-04 | 2011-12-06 | At&T Intellectual Property I, L.P. | System and method for pronunciation modeling |
US20120109649A1 (en) | 2010-11-01 | 2012-05-03 | General Motors Llc | Speech dialect classification for automatic speech recognition |
US9966064B2 (en) * | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
KR20140066640A (ko) | 2012-11-23 | 2014-06-02 | 삼성전자주식회사 | 다국어 음향 모델 구축 장치 및 이의 다국어 음향 모델 구축 방법, 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체 |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
US9589564B2 (en) * | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9653093B1 (en) | 2014-08-19 | 2017-05-16 | Amazon Technologies, Inc. | Generative modeling of speech using neural networks |
KR101624926B1 (ko) | 2014-12-17 | 2016-05-27 | 서울대학교산학협력단 | 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 |
US9477652B2 (en) * | 2015-02-13 | 2016-10-25 | Facebook, Inc. | Machine learning dialect identification |
CN107851434A (zh) * | 2015-05-26 | 2018-03-27 | 鲁汶大学 | 使用自适应增量学习方法的语音识别系统和方法 |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
KR20170034227A (ko) | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 |
KR102069699B1 (ko) | 2016-01-18 | 2020-01-23 | 한국전자통신연구원 | 음성인식 장치 및 방법 |
US11132998B2 (en) | 2017-03-24 | 2021-09-28 | Mitsubishi Electric Corporation | Voice recognition device and voice recognition method |
KR20190136578A (ko) | 2018-05-31 | 2019-12-10 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
-
2018
- 2018-10-19 KR KR1020180125070A patent/KR20200044388A/ko not_active Application Discontinuation
-
2019
- 2019-08-23 EP EP19193254.0A patent/EP3640934B1/en active Active
- 2019-10-02 JP JP2019182034A patent/JP7171532B2/ja active Active
- 2019-10-09 CN CN201910953821.XA patent/CN111081230A/zh active Pending
- 2019-10-18 US US16/656,700 patent/US11282501B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2010125736A1 (ja) * | 2009-04-30 | 2012-10-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびプログラム |
WO2017034536A1 (en) * | 2015-08-24 | 2017-03-02 | Ford Global Technologies, Llc | Dynamic acoustic model for vehicle |
JP2019525214A (ja) * | 2016-06-30 | 2019-09-05 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 音声認識 |
JP2019527852A (ja) * | 2016-07-22 | 2019-10-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識処理方法及び装置 |
CN106952648A (zh) * | 2017-02-17 | 2017-07-14 | 北京光年无限科技有限公司 | 一种用于机器人的输出方法以及机器人 |
Also Published As
Publication number | Publication date |
---|---|
KR20200044388A (ko) | 2020-04-29 |
EP3640934B1 (en) | 2021-12-29 |
JP7171532B2 (ja) | 2022-11-15 |
US11282501B2 (en) | 2022-03-22 |
EP3640934A1 (en) | 2020-04-22 |
CN111081230A (zh) | 2020-04-28 |
US20200126534A1 (en) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7171532B2 (ja) | 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 | |
KR102369416B1 (ko) | 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템 | |
US11189277B2 (en) | Dynamic gazetteers for personalized entity recognition | |
KR20210009596A (ko) | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 | |
US11081104B1 (en) | Contextual natural language processing | |
CN110136692A (zh) | 语音合成方法、装置、设备及存储介质 | |
US11574637B1 (en) | Spoken language understanding models | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
US11398219B2 (en) | Speech synthesizer using artificial intelligence and method of operating the same | |
KR20050098839A (ko) | 네트워크 환경에서 음성 처리를 위한 중간 처리기 | |
US11417313B2 (en) | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium | |
KR102637339B1 (ko) | 음성 인식 모델을 개인화하는 방법 및 장치 | |
US11532301B1 (en) | Natural language processing | |
CN113314119A (zh) | 语音识别智能家居控制方法及装置 | |
US11756538B1 (en) | Lower latency speech processing | |
CN110809796B (zh) | 具有解耦唤醒短语的语音识别系统和方法 | |
KR20220154655A (ko) | 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램 | |
KR102631143B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
KR102642617B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
EP4089570A1 (en) | Techniques to provide a customized response for users communicating with a virtual speech assistant | |
KR102603282B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
KR20240073991A (ko) | 음성 합성 서비스 제공 방법 및 그 시스템 | |
US20200194002A1 (en) | Method and system for determining speaker-user of voice-controllable device | |
CN112883350A (zh) | 一种数据处理方法、装置、电子设备以及存储介质 | |
CN116092466A (zh) | 语音模型的处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7171532 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |