JP7216065B2 - 音声認識方法及び装置、電子機器並びに記憶媒体 - Google Patents
音声認識方法及び装置、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP7216065B2 JP7216065B2 JP2020214927A JP2020214927A JP7216065B2 JP 7216065 B2 JP7216065 B2 JP 7216065B2 JP 2020214927 A JP2020214927 A JP 2020214927A JP 2020214927 A JP2020214927 A JP 2020214927A JP 7216065 B2 JP7216065 B2 JP 7216065B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- vector
- character
- speech recognition
- converted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 71
- 239000013598 vector Substances 0.000 claims description 165
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 description 27
- 230000000694 effects Effects 0.000 description 19
- 238000013518 transcription Methods 0.000 description 16
- 230000035897 transcription Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/76—Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data
- G06F7/78—Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data for changing the order of data flow, e.g. matrix transposition or LIFO buffers; Overflow or underflow handling therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Description
認識待ちオーディオデータを取得するステップと、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するステップ(前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するステップ)と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するステップと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するステップと、を含む。
認識待ちオーディオデータを取得するための第1の取得モジュールと、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するための第2の取得モジュール(前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するための第2の取得モジュール)と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュールと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュールと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュールと、を含む。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに接続されるメモリと、を含み、ただし、
前記メモリは前記少なくとも1つのプロセッサによって実行可能なコマンドを記憶しており、前記コマンドは前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサは上記第1の態様に記載の音声認識方法を実行することができる。
本開示の第5の態様により、コンピュータプログラムが提供され、前記コンピュータプログラムにおける命令が実行された場合に、上記第1の態様に記載の音声認識方法が実行される。
認識待ちオーディオデータを取得するための第1の取得モジュール11と、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するための第2の取得モジュール12と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュール13と、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュール14と、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュール15と、を含む。
前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するための第1の取得ユニットと、
前記第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の符号情報を生成するための符号情報生成ユニットと、を含む。
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するための第1の生成サブユニットと、
前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するための第2の生成サブユニットと、
前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するための第3の生成サブユニットと、を含む。
前記第1のクエリベクトル及び前記キーベクトルに基づいて、自己注意重み行列であって前記自己注意重み行列における重み値が音節間の相関程度を特徴付けるために用いられる前記第1の音節の自己注意重み行列を生成するための第1の生成コンポーネントと、
前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するための第2の生成コンポーネントと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するための第3の生成コンポーネントと、を含む。
前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するための第4の生成コンポーネントと、
各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するための第5の生成コンポーネントと、
前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するための第6の生成コンポーネントと、を含む。
前記キーベクトルの転置ベクトルを取得し、
前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成し、また、
前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するために用いられる。
前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得するために用いられる。
前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するために用いられ、
第iの符号化コンポーネントにおいて、前記第1の生成サブユニットは、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするために用いられ、ただし、iは1より大きく、かつN以下の正の整数である。
第iの符号化コンポーネントにおいて、前記第1の生成サブユニットは、さらに、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするために用いられ、ただし、iは1より大きく、かつN以下の正の整数である。
前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するための第1の生成モジュール16と、
前記第3の表示情報に基づいてオンスクリーン表示を行うための表示モジュール17と、を含む。
前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測し、
予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定し、
前記第3の表示情報を前記表示位置で表示させるように制御するために用いられる。
前記第3の表示情報における文字含有量を取得し、
前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するために用いられる。
音響モデルを用いて前記オーディオデータの前記第1の音節の第1の候補事後確率を取得し、
音声モデルを用いて前記オーディオデータの前記第1の音節の第2の候補事後確率を取得し、
前記第2の候補事後確率に基づいて前記第1の候補事後確率を切り出し、確率の最も大きい前記第1の音節を取得するために用いられる。
本出願の実施例によれば、コンピュータプログラムをさらに提供する。前記コンピュータプログラムにおける命令が実行された場合、本出願の実施例の音声認識方法が実行される。
Claims (27)
- 音声認識方法であって、
認識待ちオーディオデータを取得するステップと、
前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するステップと、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するステップと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するステップと、を含む、
ことを特徴とする音声認識方法。 - 前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップは、
前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するステップと、
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の符号情報を生成するステップと、を含む、
ことを特徴とする請求項1に記載の音声認識方法。 - 前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の符号情報を生成するステップは、
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するステップと、
前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するステップと、
前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するステップと、を含む、
ことを特徴とする請求項2に記載の音声認識方法。 - 前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するステップは、
前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節における、音節間の相関程度を特徴付けるために用いられる自己注意重み行列を生成するステップと、
前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するステップと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するステップと、を含む、
ことを特徴とする請求項3に記載の音声認識方法。 - 前記第2の音節は複数であり、前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するステップは、
前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するステップと、
各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するステップと、
前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するステップと、を含む、
ことを特徴とする請求項3に記載の音声認識方法。 - 前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節の自己注意重み行列を生成するステップは、
前記キーベクトルの転置ベクトルを取得するステップと、
前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成するステップと、
前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するステップと、を含む、
ことを特徴とする請求項4に記載の音声認識方法。 - 前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するステップは、
前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得することを含む、
ことを特徴とする請求項3に記載の音声認識方法。 - エンコーダによって前記第1の音節に対して前記復号を行い、前記エンコーダはN個の符号化コンポーネントを含み、Nは正の整数であり、Nが1より大きい場合、第1から第Nの符号化コンポーネントは順次接続され、前記方法は、
前記第1の符号化コンポーネントにおいて、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するステップと、
第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするステップと、をさらに含む、
ことを特徴とする請求項3に記載の音声認識方法。 - 前記第1の符号化コンポーネントにおいて、前記第1のクエリベクトル及び各前記第2の音節の第2のクエリベクトルをスティッチングし、前記第1の音節のキーベクトルを取得するステップと、
第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするステップと、をさらに含む、
ことを特徴とする請求項8に記載の音声認識方法。 - 前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するステップと、
前記第3の表示情報に基づいてオンスクリーン表示を行うステップと、を含む、
ことを特徴とする請求項1~7のいずれかに記載の音声認識方法。 - 前記第3の表示情報に基づいてオンスクリーン表示を行うステップは、
前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測するステップと、
予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定するステップと、
前記第3の表示情報を前記表示位置で表示させるように制御するステップと、を含む、
ことを特徴とする請求項10に記載の音声認識方法。 - 前記第3の表示情報に基づいてオンスクリーン表示を行うステップは、
前記第3の表示情報における文字含有量を取得するステップと、
前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するステップと、を含む、
ことを特徴とする請求項10に記載の音声認識方法。 - 音声認識装置であって、
認識待ちオーディオデータを取得するための第1の取得モジュールと、
前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するための第2の取得モジュールと、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュールと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュールと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュールと、を含む、
ことを特徴とする音声認識装置。 - 前記符号化モジュールは、
前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するための第1の取得ユニットと、
前記第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の符号情報を生成するための符号情報生成ユニットと、を含む、
ことを特徴とする請求項13に記載の音声認識装置。 - 前記符号情報生成ユニットは、
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するための第1の生成サブユニットと、
前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するための第2の生成サブユニットと、
前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するための第3の生成サブユニットと、を含む、
ことを特徴とする請求項14に記載の音声認識装置。 - 前記第2の生成サブユニットは、
前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節における、音節間の相関程度を特徴付けるために用いられる自己注意重み行列を生成するための第1の生成コンポーネントと、
前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するための第2の生成コンポーネントと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するための第3の生成コンポーネントと、を含む、
ことを特徴とする請求項15に記載の音声認識装置。 - 前記第2の音節は複数であり、前記第1の生成サブユニットは、
前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するための第4の生成コンポーネントと、
各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するための第5の生成コンポーネントと、
前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するための第6の生成コンポーネントと、を含む、
ことを特徴とする請求項15に記載の音声認識装置。 - 前記第1の生成コンポーネントは、
前記キーベクトルの転置ベクトルを取得し、
前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成し、また、
前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するために用いられる、
ことを特徴とする請求項16に記載の音声認識装置。 - 前記第3の生成サブユニットは、
前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得するために用いられる、
ことを特徴とする請求項15に記載の音声認識装置。 - 前記符号化モジュールはN個の符号化コンポーネントを含み、Nは正の整数であり、Nが1より大きい場合、第1から第Nの符号化コンポーネントは順次接続され、
前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するために用いられ、
第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前記第1の生成サブユニットは、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするために用いられる、
ことを特徴とする請求項15に記載の音声認識装置。 - 前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、さらに、前記第1のクエリベクトル及び各前記第2の音節の第2のクエリベクトルをスティッチングし、前記第1の音節のキーベクトルを取得するために用いられ、
第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前記第1の生成サブユニットは、さらに、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするために用いられる、
ことを特徴とする請求項20に記載の音声認識装置。 - 前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するための第1の生成モジュールと、
前記第3の表示情報に基づいてオンスクリーン表示を行うための表示モジュールと、を含む、
ことを特徴とする請求項13~19のいずれかに記載の音声認識装置。 - 前記表示モジュールは、
前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測し、
予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定し、
前記第3の表示情報を前記表示位置で表示させるように制御するために用いられる、
ことを特徴とする請求項22に記載の音声認識装置。 - 前記表示モジュールは、
前記第3の表示情報における文字含有量を取得し、
前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するために用いられる、
ことを特徴とする請求項22に記載の音声認識装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに接続されるメモリと、を含み、
前記メモリは前記少なくとも1つのプロセッサによって実行可能なコマンドを記憶しており、前記コマンドは前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサは請求項1~12のいずれかに記載の音声認識方法を実行する、
ことを特徴とする電子機器。 - コンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドが実行される場合、請求項1~12のいずれかに記載の音声認識方法が実行される、
ことを特徴とするコンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合、請求項1~12のいずれかに記載の音声認識方法が実行される、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469985.8 | 2020-05-28 | ||
CN202010469985.8A CN111667828B (zh) | 2020-05-28 | 2020-05-28 | 语音识别方法和装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021189429A JP2021189429A (ja) | 2021-12-13 |
JP7216065B2 true JP7216065B2 (ja) | 2023-01-31 |
Family
ID=72385053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020214927A Active JP7216065B2 (ja) | 2020-05-28 | 2020-12-24 | 音声認識方法及び装置、電子機器並びに記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11756529B2 (ja) |
EP (1) | EP3916718A1 (ja) |
JP (1) | JP7216065B2 (ja) |
KR (1) | KR20210058765A (ja) |
CN (1) | CN111667828B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116264A (zh) * | 2023-02-20 | 2023-11-24 | 荣耀终端有限公司 | 一种语音识别方法、电子设备以及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018028848A (ja) | 2016-08-19 | 2018-02-22 | 日本放送協会 | 変換処理装置、音訳処理装置、およびプログラム |
JP2021176022A (ja) | 2020-12-23 | 2021-11-04 | 北京百度網訊科技有限公司 | オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05324718A (ja) | 1992-05-19 | 1993-12-07 | Fujitsu Ltd | 固有名詞処理装置 |
JPH0675943A (ja) | 1992-08-26 | 1994-03-18 | Toshiba Corp | かな漢字変換装置 |
EP1051701B1 (de) * | 1998-02-03 | 2002-11-06 | Siemens Aktiengesellschaft | Verfahren zum übermitteln von sprachdaten |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
CN100410852C (zh) * | 2002-12-27 | 2008-08-13 | 佳能株式会社 | 字处理方法和装置 |
KR100486733B1 (ko) * | 2003-02-24 | 2005-05-03 | 삼성전자주식회사 | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 |
US20060259301A1 (en) * | 2005-05-12 | 2006-11-16 | Nokia Corporation | High quality thai text-to-phoneme converter |
US8442821B1 (en) * | 2012-07-27 | 2013-05-14 | Google Inc. | Multi-frame prediction for hybrid neural network/hidden Markov models |
CN104756183B (zh) * | 2012-08-29 | 2018-05-11 | 纽昂斯通讯公司 | 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符 |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
JP6400936B2 (ja) * | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
KR20150144031A (ko) * | 2014-06-16 | 2015-12-24 | 삼성전자주식회사 | 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치 |
CN105989833B (zh) * | 2015-02-28 | 2019-11-15 | 讯飞智元信息科技有限公司 | 多语种混语文本字音转换方法及系统 |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
CN110870004B (zh) * | 2017-07-10 | 2023-09-12 | Scti控股公司 | 基于音节的自动语音识别 |
CN108510990A (zh) * | 2018-07-04 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、用户设备及存储介质 |
CN109243428B (zh) * | 2018-10-15 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及系统 |
CN111429889B (zh) * | 2019-01-08 | 2023-04-28 | 百度在线网络技术(北京)有限公司 | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 |
CN110111775B (zh) * | 2019-05-17 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种流式语音识别方法、装置、设备及存储介质 |
CN110335592B (zh) * | 2019-06-28 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110610707B (zh) * | 2019-09-20 | 2022-04-22 | 科大讯飞股份有限公司 | 语音关键词识别方法、装置、电子设备和存储介质 |
CN110675886B (zh) * | 2019-10-09 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN110689876B (zh) * | 2019-10-14 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及存储介质 |
US11373639B2 (en) * | 2019-12-12 | 2022-06-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique |
CN111048082B (zh) | 2019-12-12 | 2022-09-06 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111144138A (zh) * | 2019-12-17 | 2020-05-12 | Oppo广东移动通信有限公司 | 一种同声传译方法及装置、存储介质 |
CN110990632B (zh) * | 2019-12-19 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 一种视频处理方法及装置 |
-
2020
- 2020-05-28 CN CN202010469985.8A patent/CN111667828B/zh active Active
- 2020-12-16 US US17/123,253 patent/US11756529B2/en active Active
- 2020-12-22 EP EP20216638.5A patent/EP3916718A1/en active Pending
- 2020-12-24 JP JP2020214927A patent/JP7216065B2/ja active Active
-
2021
- 2021-05-03 KR KR1020210057437A patent/KR20210058765A/ko unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018028848A (ja) | 2016-08-19 | 2018-02-22 | 日本放送協会 | 変換処理装置、音訳処理装置、およびプログラム |
JP2021176022A (ja) | 2020-12-23 | 2021-11-04 | 北京百度網訊科技有限公司 | オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
Shiyu Zhou et al.,Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese,[online],2018年06月04日,arXiv, [2021.01.12検索], インターネット <URL: https://arxiv.org/pdf/1804.10752.pdf> |
Also Published As
Publication number | Publication date |
---|---|
EP3916718A1 (en) | 2021-12-01 |
JP2021189429A (ja) | 2021-12-13 |
US11756529B2 (en) | 2023-09-12 |
US20210375264A1 (en) | 2021-12-02 |
KR20210058765A (ko) | 2021-05-24 |
CN111667828B (zh) | 2021-09-21 |
CN111667828A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102484967B1 (ko) | 음성 전환 방법, 장치 및 전자 기기 | |
JP6916264B2 (ja) | 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US11769480B2 (en) | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium | |
US11769482B2 (en) | Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium | |
US11574133B2 (en) | Method, electronic device, and storage medium for training text generation model | |
CN111627418B (zh) | 语音合成模型的训练方法、合成方法、系统、设备和介质 | |
CN111859994B (zh) | 机器翻译模型获取及文本翻译方法、装置及存储介质 | |
JP2022028887A (ja) | テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 | |
CN110473516B (zh) | 语音合成方法、装置以及电子设备 | |
US11488577B2 (en) | Training method and apparatus for a speech synthesis model, and storage medium | |
JP2023504219A (ja) | 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法 | |
CN110807331B (zh) | 一种多音字读音预测方法、装置和电子设备 | |
US11200382B2 (en) | Prosodic pause prediction method, prosodic pause prediction device and electronic device | |
US20220068265A1 (en) | Method for displaying streaming speech recognition result, electronic device, and storage medium | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
JP7335569B2 (ja) | 音声認識方法、装置及び電子機器 | |
KR20230086737A (ko) | 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
JP7216065B2 (ja) | 音声認識方法及び装置、電子機器並びに記憶媒体 | |
JP7121791B2 (ja) | 言語生成方法、装置及び電子機器 | |
CN117063228A (zh) | 用于灵活流式和非流式自动语音识别的混合模型注意力 | |
CN115132210B (zh) | 音频识别方法、音频识别模型的训练方法、装置和设备 | |
KR20240065125A (ko) | 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택 | |
KR20210040318A (ko) | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 | |
CN116189666A (zh) | 语音识别方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220329 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7216065 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |