JP2021189429A - 音声認識方法及び装置、電子機器並びに記憶媒体 - Google Patents
音声認識方法及び装置、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2021189429A JP2021189429A JP2020214927A JP2020214927A JP2021189429A JP 2021189429 A JP2021189429 A JP 2021189429A JP 2020214927 A JP2020214927 A JP 2020214927A JP 2020214927 A JP2020214927 A JP 2020214927A JP 2021189429 A JP2021189429 A JP 2021189429A
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- vector
- character
- voice recognition
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000006243 chemical reaction Methods 0.000 claims abstract description 83
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013519 translation Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/76—Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data
- G06F7/78—Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data for changing the order of data flow, e.g. matrix transposition or LIFO buffers; Overflow or underflow handling therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
Description
認識待ちオーディオデータを取得するステップと、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するステップ(前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するステップ)と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するステップと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するステップと、を含む。
認識待ちオーディオデータを取得するための第1の取得モジュールと、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するための第2の取得モジュール(前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するための第2の取得モジュール)と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュールと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュールと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュールと、を含む。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに接続されるメモリと、を含み、ただし、
前記メモリは前記少なくとも1つのプロセッサによって実行可能なコマンドを記憶しており、前記コマンドは前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサは上記第1の態様に記載の音声認識方法を実行することができる。
本開示の第5の態様により、コンピュータプログラムが提供され、前記コンピュータプログラムにおける命令が実行された場合に、上記第1の態様に記載の音声認識方法が実行される。
認識待ちオーディオデータを取得するための第1の取得モジュール11と、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するための第2の取得モジュール12と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュール13と、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュール14と、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュール15と、を含む。
前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するための第1の取得ユニットと、
前記第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の符号情報を生成するための符号情報生成ユニットと、を含む。
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するための第1の生成サブユニットと、
前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するための第2の生成サブユニットと、
前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するための第3の生成サブユニットと、を含む。
前記第1のクエリベクトル及び前記キーベクトルに基づいて、自己注意重み行列であって前記自己注意重み行列における重み値が音節間の相関程度を特徴付けるために用いられる前記第1の音節の自己注意重み行列を生成するための第1の生成コンポーネントと、
前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するための第2の生成コンポーネントと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するための第3の生成コンポーネントと、を含む。
前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するための第4の生成コンポーネントと、
各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するための第5の生成コンポーネントと、
前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するための第6の生成コンポーネントと、を含む。
前記キーベクトルの転置ベクトルを取得し、
前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成し、また、
前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するために用いられる。
前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得するために用いられる。
前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するために用いられ、
第iの符号化コンポーネントにおいて、前記第1の生成サブユニットは、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするために用いられ、ただし、iは1より大きく、かつN以下の正の整数である。
第iの符号化コンポーネントにおいて、前記第1の生成サブユニットは、さらに、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするために用いられ、ただし、iは1より大きく、かつN以下の正の整数である。
前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するための第1の生成モジュール16と、
前記第3の表示情報に基づいてオンスクリーン表示を行うための表示モジュール17と、を含む。
前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測し、
予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定し、
前記第3の表示情報を前記表示位置で表示させるように制御するために用いられる。
前記第3の表示情報における文字含有量を取得し、
前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するために用いられる。
音響モデルを用いて前記オーディオデータの前記第1の音節の第1の候補事後確率を取得し、
音声モデルを用いて前記オーディオデータの前記第1の音節の第2の候補事後確率を取得し、
前記第2の候補事後確率に基づいて前記第1の候補事後確率を切り出し、確率の最も大きい前記第1の音節を取得するために用いられる。
本出願の実施例によれば、コンピュータプログラムをさらに提供する。前記コンピュータプログラムにおける命令が実行された場合、本出願の実施例の音声認識方法が実行される。
Claims (29)
- 音声認識方法であって、
認識待ちオーディオデータを取得するステップと、
前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するステップと、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するステップと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するステップと、を含む、
ことを特徴とする音声認識方法。 - 前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップは、
前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するステップと、
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の符号情報を生成するステップと、を含む、
ことを特徴とする請求項1に記載の音声認識方法。 - 前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の符号情報を生成するステップは、
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するステップと、
前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するステップと、
前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するステップと、を含む、
ことを特徴とする請求項2に記載の音声認識方法。 - 前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するステップは、
前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節における、音節間の相関程度を特徴付けるために用いられる自己注意重み行列を生成するステップと、
前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するステップと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するステップと、を含む、
ことを特徴とする請求項3に記載の音声認識方法。 - 前記第2の音節は複数であり、前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するステップは、
前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するステップと、
各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するステップと、
前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するステップと、を含む、
ことを特徴とする請求項3に記載の音声認識方法。 - 前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節の自己注意重み行列を生成するステップは、
前記キーベクトルの転置ベクトルを取得するステップと、
前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成するステップと、
前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するステップと、を含む、
ことを特徴とする請求項4に記載の音声認識方法。 - 前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するステップは、
前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得することを含む、
ことを特徴とする請求項3に記載の音声認識方法。 - エンコーダによって前記第1の音節に対して前記復号を行い、前記エンコーダはN個の符号化コンポーネントを含み、Nは正の整数であり、Nが1より大きい場合、第1から第Nの符号化コンポーネントは順次接続され、前記方法は、
前記第1の符号化コンポーネントにおいて、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するステップと、
第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするステップと、をさらに含む、
ことを特徴とする請求項3に記載の音声認識方法。 - 前記第1の符号化コンポーネントにおいて、前記第1のクエリベクトル及び各前記第2の音節の第2のクエリベクトルをスティッチングし、前記第1の音節のキーベクトルを取得するステップと、
第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするステップと、をさらに含む、
ことを特徴とする請求項8に記載の音声認識方法。 - 前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するステップと、
前記第3の表示情報に基づいてオンスクリーン表示を行うステップと、を含む、
ことを特徴とする請求項1〜7のいずれかに記載の音声認識方法。 - 前記第3の表示情報に基づいてオンスクリーン表示を行うステップは、
前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測するステップと、
予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定するステップと、
前記第3の表示情報を前記表示位置で表示させるように制御するステップと、を含む、
ことを特徴とする請求項10に記載の音声認識方法。 - 前記第3の表示情報に基づいてオンスクリーン表示を行うステップは、
前記第3の表示情報における文字含有量を取得するステップと、
前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するステップと、を含む、
ことを特徴とする請求項10に記載の音声認識方法。 - オーディオデータを復号し、現在の変換待ち文字の第1の音節を取得するステップは、
音響モデルを用いて前記オーディオデータの前記第1の音節の第1の候補事後確率を取得するステップと、
音声モデルを用いて前記オーディオデータの前記第1の音節の第2の候補事後確率を取得するステップと、
前記第2の候補事後確率に基づいて前記第1の候補事後確率を切り出し、確率の最も大きい前記第1の音節を取得するステップと、を含む、
ことを特徴とする請求項1に記載の音声認識方法。 - 音声認識装置であって、
認識待ちオーディオデータを取得するための第1の取得モジュールと、
前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するための第2の取得モジュールと、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュールと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュールと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュールと、を含む、
ことを特徴とする音声認識装置。 - 前記符号化モジュールは、
前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するための第1の取得ユニットと、
前記第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の符号情報を生成するための符号情報生成ユニットと、を含む、
ことを特徴とする請求項14に記載の音声認識装置。 - 前記符号情報生成ユニットは、
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するための第1の生成サブユニットと、
前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するための第2の生成サブユニットと、
前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するための第3の生成サブユニットと、を含む、
ことを特徴とする請求項15に記載の音声認識装置。 - 前記第2の生成サブユニットは、
前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節における、音節間の相関程度を特徴付けるために用いられる自己注意重み行列を生成するための第1の生成コンポーネントと、
前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するための第2の生成コンポーネントと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するための第3の生成コンポーネントと、を含む、
ことを特徴とする請求項16に記載の音声認識装置。 - 前記第2の音節は複数であり、前記第1の生成サブユニットは、
前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するための第4の生成コンポーネントと、
各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するための第5の生成コンポーネントと、
前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するための第6の生成コンポーネントと、を含む、
ことを特徴とする請求項15に記載の音声認識装置。 - 前記第1の生成コンポーネントは、
前記キーベクトルの転置ベクトルを取得し、
前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成し、また、
前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するために用いられる、
ことを特徴とする請求項17に記載の音声認識装置。 - 前記第3の生成サブユニットは、
前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得するために用いられる、
ことを特徴とする請求項16に記載の音声認識装置。 - 前記符号化モジュールはN個の符号化コンポーネントを含み、Nは正の整数であり、Nが1より大きい場合、第1から第Nの符号化コンポーネントは順次接続され、
前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するために用いられ、
第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前記第1の生成サブユニットは、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするために用いられる、
ことを特徴とする請求項16に記載の音声認識装置。 - 前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、さらに、前記第1のクエリベクトル及び各前記第2の音節の第2のクエリベクトルをスティッチングし、前記第1の音節のキーベクトルを取得するために用いられ、
第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前記第1の生成サブユニットは、さらに、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするために用いられる、
ことを特徴とする請求項21に記載の音声認識装置。 - 前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するための第1の生成モジュールと、
前記第3の表示情報に基づいてオンスクリーン表示を行うための表示モジュールと、を含む、
ことを特徴とする請求項14〜20のいずれかに記載の音声認識装置。 - 前記表示モジュールは、
前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測し、
予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定し、
前記第3の表示情報を前記表示位置で表示させるように制御するために用いられる、
ことを特徴とする請求項23に記載の音声認識装置。 - 前記表示モジュールは、
前記第3の表示情報における文字含有量を取得し、
前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するために用いられる、
ことを特徴とする請求項23に記載の音声認識装置。 - 前記第2の取得モジュールは、
音響モデルを用いて前記オーディオデータの前記第1の音節の第1の候補事後確率を取得し、
音声モデルを用いて前記オーディオデータの前記第1の音節の第2の候補事後確率を取得し、
前記第2の候補事後確率に基づいて前記第1の候補事後確率を切り出し、確率の最も大きい前記第1の音節を取得するために用いられる、
ことを特徴とする請求項14に記載の音声認識装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに接続されるメモリと、を含み、
前記メモリは前記少なくとも1つのプロセッサによって実行可能なコマンドを記憶しており、前記コマンドは前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサは請求項1〜13のいずれかに記載の音声認識方法を実行する、
ことを特徴とする電子機器。 - コンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドが実行される場合、請求項1〜13のいずれかに記載の音声認識方法が実行される、
ことを特徴とするコンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合、請求項1〜13のいずれかに記載の音声認識方法が実行される、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469985.8 | 2020-05-28 | ||
CN202010469985.8A CN111667828B (zh) | 2020-05-28 | 2020-05-28 | 语音识别方法和装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021189429A true JP2021189429A (ja) | 2021-12-13 |
JP7216065B2 JP7216065B2 (ja) | 2023-01-31 |
Family
ID=72385053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020214927A Active JP7216065B2 (ja) | 2020-05-28 | 2020-12-24 | 音声認識方法及び装置、電子機器並びに記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11756529B2 (ja) |
EP (1) | EP3916718A1 (ja) |
JP (1) | JP7216065B2 (ja) |
KR (1) | KR20210058765A (ja) |
CN (1) | CN111667828B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116264A (zh) * | 2023-02-20 | 2023-11-24 | 荣耀终端有限公司 | 一种语音识别方法、电子设备以及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724739B (zh) * | 2021-09-01 | 2024-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 检索音频和训练声学模型的方法、终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05324718A (ja) * | 1992-05-19 | 1993-12-07 | Fujitsu Ltd | 固有名詞処理装置 |
JPH0675943A (ja) * | 1992-08-26 | 1994-03-18 | Toshiba Corp | かな漢字変換装置 |
JP2018028848A (ja) * | 2016-08-19 | 2018-02-22 | 日本放送協会 | 変換処理装置、音訳処理装置、およびプログラム |
JP2021176022A (ja) * | 2020-12-23 | 2021-11-04 | 北京百度網訊科技有限公司 | オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1051701B1 (de) * | 1998-02-03 | 2002-11-06 | Siemens Aktiengesellschaft | Verfahren zum übermitteln von sprachdaten |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
CN100410852C (zh) * | 2002-12-27 | 2008-08-13 | 佳能株式会社 | 字处理方法和装置 |
KR100486733B1 (ko) * | 2003-02-24 | 2005-05-03 | 삼성전자주식회사 | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 |
US20060259301A1 (en) * | 2005-05-12 | 2006-11-16 | Nokia Corporation | High quality thai text-to-phoneme converter |
US8442821B1 (en) * | 2012-07-27 | 2013-05-14 | Google Inc. | Multi-frame prediction for hybrid neural network/hidden Markov models |
WO2014035437A1 (en) * | 2012-08-29 | 2014-03-06 | Nuance Communications, Inc. | Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
JP6400936B2 (ja) * | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
KR20150144031A (ko) * | 2014-06-16 | 2015-12-24 | 삼성전자주식회사 | 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치 |
CN105989833B (zh) * | 2015-02-28 | 2019-11-15 | 讯飞智元信息科技有限公司 | 多语种混语文本字音转换方法及系统 |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
EP3652732B1 (en) * | 2017-07-10 | 2023-08-16 | SCTI Holdings, Inc. | Syllable based automatic speech recognition |
CN108510990A (zh) * | 2018-07-04 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、用户设备及存储介质 |
CN109243428B (zh) * | 2018-10-15 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 一种建立语音识别模型的方法、语音识别方法及系统 |
CN111429889B (zh) * | 2019-01-08 | 2023-04-28 | 百度在线网络技术(北京)有限公司 | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 |
CN110111775B (zh) * | 2019-05-17 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 一种流式语音识别方法、装置、设备及存储介质 |
CN110335592B (zh) * | 2019-06-28 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110610707B (zh) * | 2019-09-20 | 2022-04-22 | 科大讯飞股份有限公司 | 语音关键词识别方法、装置、电子设备和存储介质 |
CN110675886B (zh) * | 2019-10-09 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN110689876B (zh) * | 2019-10-14 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及存储介质 |
US11373639B2 (en) * | 2019-12-12 | 2022-06-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique |
CN111048082B (zh) | 2019-12-12 | 2022-09-06 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111144138A (zh) * | 2019-12-17 | 2020-05-12 | Oppo广东移动通信有限公司 | 一种同声传译方法及装置、存储介质 |
CN110990632B (zh) * | 2019-12-19 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 一种视频处理方法及装置 |
-
2020
- 2020-05-28 CN CN202010469985.8A patent/CN111667828B/zh active Active
- 2020-12-16 US US17/123,253 patent/US11756529B2/en active Active
- 2020-12-22 EP EP20216638.5A patent/EP3916718A1/en active Pending
- 2020-12-24 JP JP2020214927A patent/JP7216065B2/ja active Active
-
2021
- 2021-05-03 KR KR1020210057437A patent/KR20210058765A/ko unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05324718A (ja) * | 1992-05-19 | 1993-12-07 | Fujitsu Ltd | 固有名詞処理装置 |
JPH0675943A (ja) * | 1992-08-26 | 1994-03-18 | Toshiba Corp | かな漢字変換装置 |
JP2018028848A (ja) * | 2016-08-19 | 2018-02-22 | 日本放送協会 | 変換処理装置、音訳処理装置、およびプログラム |
JP2021176022A (ja) * | 2020-12-23 | 2021-11-04 | 北京百度網訊科技有限公司 | オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
SHIYU ZHOU ET AL.: "Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese", [ONLINE], JPN6022001617, 4 June 2018 (2018-06-04), ISSN: 0004827809 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116264A (zh) * | 2023-02-20 | 2023-11-24 | 荣耀终端有限公司 | 一种语音识别方法、电子设备以及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111667828B (zh) | 2021-09-21 |
EP3916718A1 (en) | 2021-12-01 |
KR20210058765A (ko) | 2021-05-24 |
JP7216065B2 (ja) | 2023-01-31 |
US20210375264A1 (en) | 2021-12-02 |
US11756529B2 (en) | 2023-09-12 |
CN111667828A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11769480B2 (en) | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium | |
JP7366984B2 (ja) | テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 | |
JP6900536B2 (ja) | 音声合成モデルのトレーニング方法、装置、電子機器及び記憶媒体 | |
KR20210106397A (ko) | 음성 전환 방법, 장치 및 전자 기기 | |
JP2021157802A (ja) | テキスト生成モデルのトレーニング方法、装置及び電子機器 | |
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
KR20210157342A (ko) | 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 | |
CN110807331B (zh) | 一种多音字读音预测方法、装置和电子设备 | |
US20220068265A1 (en) | Method for displaying streaming speech recognition result, electronic device, and storage medium | |
JP2021111334A (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
WO2021051564A1 (zh) | 语音识别方法、装置、计算设备和存储介质 | |
JP2021189429A (ja) | 音声認識方法及び装置、電子機器並びに記憶媒体 | |
KR20210158815A (ko) | 트리플 샘플 생성 방법, 장치, 전자 기기 및 기록 매체 | |
JP2021144742A (ja) | 類似度処理方法、装置、電子設備、記憶媒体、及びプログラム | |
CN112116907A (zh) | 语音识别模型建立、语音识别方法、装置、设备和介质 | |
JP2021117989A (ja) | 言語生成方法、装置及び電子機器 | |
KR20240065125A (ko) | 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택 | |
US12073822B2 (en) | Voice generating method and apparatus, electronic device and storage medium | |
CN115132210B (zh) | 音频识别方法、音频识别模型的训练方法、装置和设备 | |
US11893977B2 (en) | Method for recognizing Chinese-English mixed speech, electronic device, and storage medium | |
WO2023162513A1 (ja) | 言語モデル学習装置、対話装置及び学習済言語モデル | |
CN115695943A (zh) | 数字人视频生成方法、装置、设备及存储介质 | |
WO2024182319A1 (en) | Clustering and mining accented speech for inclusive and fair speech recognition | |
CN118471230A (zh) | 语音识别方法以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220329 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7216065 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |