JP2023542685A - 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム - Google Patents
音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023542685A JP2023542685A JP2023518016A JP2023518016A JP2023542685A JP 2023542685 A JP2023542685 A JP 2023542685A JP 2023518016 A JP2023518016 A JP 2023518016A JP 2023518016 A JP2023518016 A JP 2023518016A JP 2023542685 A JP2023542685 A JP 2023542685A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- probability
- phoneme recognition
- recognition result
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000004590 computer program Methods 0.000 title claims description 15
- 230000005236 sound signal Effects 0.000 claims abstract description 82
- 239000013598 vector Substances 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 102100030148 Integrator complex subunit 8 Human genes 0.000 description 3
- 101710092891 Integrator complex subunit 8 Proteins 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012421 spiking Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
Description
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得するステップであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、ステップと、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することにより、前記音素認識結果におけるヌル出力の確率と各音素の確率との比を低減するステップと、
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するステップであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、ステップと、を含む。
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得する音声信号処理モジュールであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、音声信号処理モジュールと、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することにより、前記音素認識結果におけるヌル出力の確率と各音素の確率との比を低減する確率調整モジュールと、
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するデコードモジュールであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、デコードモジュールと、を含む。
音声信号を取得するステップであって、前記音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、ステップと、
音声信号に対して音素認識を行うことにより、前記各音声フレームに対応する音素認識結果を取得するステップであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、ステップと、
前記各音声フレームに対応する前記音素認識結果のうち、ヌル出力の確率が指定の条件を満たす前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するステップであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、ステップと、を含む。
音声信号を取得する音声信号取得モジュールであって、前記音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、音声信号取得モジュールと、
音声信号に対して音素認識を行うことにより、前記各音声フレームに対応する音素認識結果を取得する音素認識結果取得モジュールであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、音素認識結果取得モジュールと、
前記各音声フレームに対応する前記音素認識結果のうち、ヌル出力の確率が指定の条件を満たす前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得する認識テキストシーケンス取得モジュールであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、認識テキストシーケンス取得モジュールと、を含む。
AIは、デジタルコンピュータ、又はデジタルコンピュータにより制御される機械を用いて、人間の知能のシミュレーション、延長や拡張をし、環境を感知し、知識を取得し、知識を用いて最適な結果を取得する理論、方法、技術、及び応用システムである。言い換えれば、人工知能は、コンピュータ科学の総合的な技術であり、知能の実質を了解することと、人間の知能に類似する方式で反応できる新たな知能機械を生産することとを図る。人工知能は、各種の知能機械の設計原理及び実現方法を研究し、感知、推理、及び意思決定の機能を機械に持たせるものである。
音声技術のキーテクノロジーとしては、自動音声認識(ASR:Automatic Speech Recognition)技術、音声合成(TTS:Text To Speech)技術、及び声紋認識技術が挙げられる。コンピュータに聞くことができ、見ることができ、話すことができ、感じることができるようにすることは、未来のヒューマンコンピュータインタラクションの発展の方向である。その中で、音声は、未来の最も有望視されるヒューマンコンピュータインタラクション方式の1つになる。
機械学習は、分野を横断した学際的な学科であり、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの複数の学科に関し、コンピュータがどのように人間の学習行動を模倣又は実現して、新しい知識やスキルを取得し、既存の知識構造を改めて組織して自体の性能を持続的に改善するかを専門に研究する。機械学習は、人工知能のコアであり、コンピュータに知能を付与する根本的な手段であり、人工知能の各分野にわたって適用されている。機械学習及び深層学習は、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教師あり学習などの技術を含む。
(p0,p1,p2,…p212)
訓練済みの音響モデルによって、ターゲット音声フレームに対して特徴抽出を行うことにより、該ターゲット音声フレームの特徴ベクトルを取得するステップであって、該ターゲット音声フレームが該各音声フレームのうちのいずれか1つである、ステップと、
該ターゲット音声フレームを該音響モデルにおけるエンコーダに入力することにより、該ターゲット音声フレームの音響隠れ層表現ベクトルを取得するステップと、
該ターゲット音声フレームの過去認識テキストの音素情報を該音響モデルにおける予測器に入力することにより、該ターゲット音声フレームのテキスト隠れ層表現ベクトルを取得するステップであって、該ターゲット音声フレームの過去認識テキストが、該デコードマップによって、該ターゲット音声フレームの前n個(nは1以上の整数)の非ヌル出力の音声フレームの音素認識結果を認識することにより得られたテキストである、ステップと、
該ターゲット音声フレームの音響隠れ層表現ベクトルと、該ターゲット音声フレームのテキスト隠れ層表現ベクトルとをジョイントネットワークに入力することにより、該ターゲット音声フレームの該音素認識結果を取得するステップと、を含む。
予測器52(Predictor)は、再帰型ニューラルネットワーク、例えば、LSTMであってもよく、モデルの過去の非ヌル出力のタグ
ジョイントネットワーク53(Joint Network)は、全結合ニューラルネットワーク、例えば、線形層と活性化ユニットであってもよく、
該各音声フレームに対応する該音素認識結果におけるヌル出力の確率を低減することと、
該各音声フレームに対応する該音素認識結果における各音素の確率を向上させることと、
の少なくとも1つによって、該各音声フレームに対応する該音素認識結果を調整するステップを含む。
該各音声フレームに対応する該音素認識結果におけるヌル出力の確率に第1重みを掛けるステップであって、該第1重みが1未満でありかつ0より大きい、ステップを含む。
該各音声フレームに対応する該音素認識結果における各音素の確率に第2重みを掛けるステップであって、該第2重みが1より大きい、ステップを含む。
ターゲット音素認識結果におけるヌル出力の確率が指定の条件を満たす場合、該ターゲット音素認識結果を該デコードマップに入力することにより、該ターゲット音素認識結果に対応する認識テキストを取得するステップを含み、
ここで、該ターゲット音素認識結果は、該各音声フレームに対応する該音素認識結果のうちのいずれか1つである。
該ターゲット音素認識結果におけるヌル出力の確率が確率閾値より小さいことを含む。
閾値影響パラメータを取得するステップであって、該閾値影響パラメータには、環境音強度、指定時間帯内の音声認識の失敗回数、及びユーザ設定情報のうちの少なくとも1つが含まれる、ステップと、
該閾値影響パラメータに基づいて、該確率閾値を決定するステップと、をさらに含む。
本願の実施例において、上記確率閾値は、コンピュータ機器が音声認識を行うプロセス中に調整してもよい。つまり、コンピュータ機器は、確率閾値の値に影響し得る関連パラメータを取得し、関連パラメータによって確率閾値を柔軟に設定してもよい。
音声信号を取得するステップであって、該音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、ステップと、
音声信号に対して音素認識を行うことにより、該各音声フレームに対応する音素認識結果を取得するステップであって、該音素認識結果が、音素空間における、該音素認識結果に対応する音声フレームの確率分布を示すためのものであり、該音素空間には、各音素及び1つのヌル出力が含まれる、ステップと、
該各音声フレームに対応する該音素認識結果のうち、ヌル出力の確率が指定の条件を満たす該音素認識結果をデコードマップに入力することにより、該音声信号に対応する認識テキストシーケンスを取得するステップと、を含んでもよい。
音声信号に対して音素認識を行うことにより、音声信号における各音声フレームに対応する音素認識結果を取得する音声信号処理モジュール901であって、音素認識結果が、音素空間における、音素認識結果に対応する音声フレームの確率分布を示すためのものであり、音素空間には、各音素及びヌル出力が含まれる、音声信号処理モジュール901と、
各音声フレームに対応する音素認識結果におけるヌル出力の確率を抑えて調整することにより、音素認識結果におけるヌル出力の確率と各音素の確率との比を低減する確率調整モジュール902と、
調整後の各音声フレームに対応する音素認識結果をデコードマップに入力することにより、音声信号に対応する認識テキストシーケンスを取得するデコードモジュール903であって、デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、デコードモジュール903と、を含んでもよい。
各音声フレームに対応する音素認識結果におけるヌル出力の確率を低減することと、
各音声フレームに対応する音素認識結果における各音素の確率を向上させることと、
の少なくとも1つによって、各音声フレームに対応する音素認識結果を調整する。
ターゲット音素認識結果におけるヌル出力の確率が指定の条件を満たす場合、ターゲット音素認識結果をデコードマップに入力することにより、ターゲット音素認識結果に対応する認識テキストを取得し、
ここで、ターゲット音素認識結果は、各音声フレームに対応する該音素認識結果のうちのいずれか1つである。
ターゲット音素認識結果におけるヌル出力の確率が確率閾値より小さいことを含む。
閾値影響パラメータを取得するパラメータ取得モジュールであって、閾値影響パラメータには、環境音強度、指定時間帯内の音声認識の失敗回数、及びユーザ設定情報のうちの少なくとも1つが含まれる、パラメータ取得モジュールと、
閾値影響パラメータに基づいて確率閾値を決定する閾値決定モジュールと、をさらに含む。
訓練済みの音響モデルによって、ターゲット音声フレームに対して特徴抽出を行うことにより、ターゲット音声フレームの特徴ベクトルを取得し、ターゲット音声フレームが各音声フレームのうちのいずれか1つであり、
ターゲット音声フレームを音響モデルにおけるエンコーダに入力することにより、ターゲット音声フレームの音響隠れ層表現ベクトルを取得し、
ターゲット音声フレームの過去認識テキストの音素情報を音響モデルにおける予測器に入力することにより、ターゲット音声フレームのテキスト隠れ層表現ベクトルを取得し、ターゲット音声フレームの過去認識テキストが、デコードマップによって、ターゲット音声フレームの前n個(nは1以上の整数)の非ヌル出力の音声フレームの音素認識結果を認識することにより得られたテキストであり、
ターゲット音声フレームの音響隠れ層表現ベクトルと、ターゲット音声フレームのテキスト隠れ層表現ベクトルとをジョイントネットワークに入力することにより、ターゲット音声フレームの音素認識結果を取得する。
52 予測器
53 ジョイントネットワーク
61 非ヌルの過去出力
62 1次元畳み込みネットワーク
71 Python環境
72 C++環境
81 オーディオ収集機器
82 音声認識機器
82a 音響モデル
82b 確率調整ユニット
82c デコードマップ入力ユニット
82d デコードマップ
82e 特徴抽出ユニット
120 音声収集コンポーネント
140 音声認識機器
160 サーバ
901 音声信号処理モジュール
902 確率調整モジュール
903 デコードモジュール
1000 コンピュータ機器
1001 中央処理装置
1002 ランダムアクセスメモリ
1003 読み出し専用メモリ
1004 システムメモリ
1005 システムバス
1006 基本入出力システム
1007 大容量記憶装置
1013 オペレーティングシステム
1014 アプリケーションプログラム
1015 その他のプログラムモジュール
Claims (20)
- コンピュータ機器が実行する音声認識方法であって、
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得するステップであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、ステップと、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することにより、前記音素認識結果におけるヌル出力の確率と各音素の確率との比を低減するステップと、
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するステップであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、ステップと、
を含むことを特徴とする方法。 - 前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することは、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を低減するステップを含む、
ことを特徴とする請求項1に記載の方法。 - 前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を低減する前記ステップは、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率に第1重みを掛けるステップであって、前記第1重みが1未満でありかつ0より大きい、ステップを含む、
ことを特徴とする請求項2に記載の方法。 - 前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を低減する前記ステップは、
前記各音声フレームに対応する前記音素認識結果における各音素の確率に第2重みを掛けるステップであって、前記第2重みが1より大きい、ステップを含む、
ことを特徴とする請求項2に記載の方法。 - 前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することは、
前記各音声フレームに対応する前記音素認識結果における各音素の確率を向上させるステップを含む、
ことを特徴とする請求項1に記載の方法。 - 調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得する前記ステップは、
ターゲット音素認識結果におけるヌル出力の確率が指定の条件を満たす場合、前記ターゲット音素認識結果を前記デコードマップに入力することにより、前記ターゲット音素認識結果に対応する認識テキストを取得するステップを含み、
前記ターゲット音素認識結果は、前記各音声フレームに対応する前記音素認識結果のうちのいずれか1つである、
ことを特徴とする請求項1に記載の方法。 - 前記指定の条件は、
前記ターゲット音素認識結果におけるヌル出力の確率が確率閾値より小さいことを含む、
ことを特徴とする請求項6に記載の方法。 - 調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得する前記ステップの前に、
閾値影響パラメータを取得するステップであって、前記閾値影響パラメータには、環境音強度、指定時間帯内の音声認識の失敗回数、及びユーザ設定情報のうちの少なくとも1つが含まれる、ステップと、
前記閾値影響パラメータに基づいて前記確率閾値を決定するステップと、をさらに含む、
ことを特徴とする請求項7に記載の方法。 - 音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得する前記ステップは、
訓練済みの音響モデルによって、ターゲット音声フレームに対して特徴抽出を行うことにより、前記ターゲット音声フレームの特徴ベクトルを取得するステップであって、前記ターゲット音声フレームが前記各音声フレームのうちのいずれか1つである、ステップと、
前記ターゲット音声フレームを前記音響モデルにおけるエンコーダに入力することにより、前記ターゲット音声フレームの音響隠れ層表現ベクトルを取得するステップと、
前記ターゲット音声フレームの過去認識テキストの音素情報を前記音響モデルにおける予測器に入力することにより、前記ターゲット音声フレームのテキスト隠れ層表現ベクトルを取得するステップであって、前記ターゲット音声フレームの過去認識テキストが、前記デコードマップによって、前記ターゲット音声フレームの前n個(nは1以上の整数)の非ヌル出力の音声フレームの音素認識結果を認識することにより得られたテキストである、ステップと、
前記ターゲット音声フレームの音響隠れ層表現ベクトルと、前記ターゲット音声フレームのテキスト隠れ層表現ベクトルとを前記音響モデルにおけるジョイントネットワークに入力することにより、前記ターゲット音声フレームの前記音素認識結果を取得するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記エンコーダは、フィードフォワードシーケンシャルメモリネットワーク(FSMN)である、
ことを特徴とする請求項9に記載の方法。 - 前記予測器は、1次元畳み込みネットワークである、
ことを特徴とする請求項9に記載の方法。 - 前記デコードマップは、音素辞書及び言語モデルによって複合的に構成される、
ことを特徴とする請求項1乃至9のいずれか1項に記載の方法。 - コンピュータ機器が実行する音声認識方法であって、
音声信号を取得するステップであって、前記音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、ステップと、
音声信号に対して音素認識を行うことにより、前記各音声フレームに対応する音素認識結果を取得するステップであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、ステップと、
前記各音声フレームに対応する前記音素認識結果のうち、ヌル出力の確率が指定の条件を満たす前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するステップであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、ステップと、
を含むことを特徴とする方法。 - 音声認識装置であって、
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得する音声信号処理モジュールであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、音声信号処理モジュールと、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することにより、前記音素認識結果におけるヌル出力の確率と各音素の確率との比を低減する確率調整モジュールと、
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するデコードモジュールであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、デコードモジュールと、
を含むことを特徴とする装置。 - 前記確率調整モジュールは、さらに、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を低減する、
ことを特徴とする請求項14に記載の装置。 - 前記確率調整モジュールは、さらに、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率に第1重みを掛け、前記第1重みが1未満でありかつ0より大きい、
ことを特徴とする請求項15に記載の装置。 - 音声認識装置であって、
音声信号を取得する音声信号取得モジュールであって、前記音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、音声信号取得モジュールと、
音声信号に対して音素認識を行うことにより、前記各音声フレームに対応する音素認識結果を取得する音素認識結果取得モジュールであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、音素認識結果取得モジュールと、
前記各音声フレームに対応する前記音素認識結果のうち、ヌル出力の確率が指定の条件を満たす前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得する認識テキストシーケンス取得モジュールであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、認識テキストシーケンス取得モジュールと、
を含むことを特徴とする装置。 - プロセッサとメモリとを備えるコンピュータ機器であって、前記メモリには、少なくとも1つのコンピュータ命令が記憶され、前記少なくとも1つのコンピュータ命令は、前記プロセッサによりロードされて実行されると、請求項1乃至13のいずれか1項に記載の音声認識方法を実現させることを特徴とするコンピュータ機器。
- 少なくとも1つのコンピュータ命令を記憶したコンピュータ可読記憶媒体であって、前記少なくとも1つのコンピュータ命令は、プロセッサによりロードされて実行されると、請求項1乃至13のいずれか1項に記載の音声認識方法を実現させることを特徴とする記憶媒体。
- コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1乃至13のいずれか1項に記載の方法のステップを実現させることを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011536771.4 | 2020-12-23 | ||
CN202011536771.4A CN113539242A (zh) | 2020-12-23 | 2020-12-23 | 语音识别方法、装置、计算机设备及存储介质 |
PCT/CN2021/129223 WO2022134894A1 (zh) | 2020-12-23 | 2021-11-08 | 语音识别方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023542685A true JP2023542685A (ja) | 2023-10-11 |
Family
ID=78124211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023518016A Pending JP2023542685A (ja) | 2020-12-23 | 2021-11-08 | 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230074869A1 (ja) |
EP (1) | EP4191576A4 (ja) |
JP (1) | JP2023542685A (ja) |
CN (1) | CN113539242A (ja) |
WO (1) | WO2022134894A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539242A (zh) * | 2020-12-23 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN114220444B (zh) * | 2021-10-27 | 2022-09-06 | 安徽讯飞寰语科技有限公司 | 语音解码方法、装置、电子设备和存储介质 |
CN113936643B (zh) * | 2021-12-16 | 2022-05-17 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音识别方法、语音识别模型、电子设备和存储介质 |
CN114724544B (zh) * | 2022-04-13 | 2022-12-06 | 北京百度网讯科技有限公司 | 语音芯片、语音识别方法、装置、设备及智能汽车 |
CN115132196B (zh) * | 2022-05-18 | 2024-09-10 | 腾讯科技(深圳)有限公司 | 语音指令识别的方法、装置、电子设备及存储介质 |
CN116110574B (zh) | 2023-04-14 | 2023-06-20 | 武汉大学人民医院(湖北省人民医院) | 一种基于神经网络实现的眼科智能问诊方法和装置 |
CN116580701B (zh) * | 2023-05-19 | 2023-11-24 | 国网物资有限公司 | 告警音频识别方法、装置、电子设备和计算机介质 |
CN116364062B (zh) * | 2023-05-30 | 2023-08-25 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置及车辆 |
CN116798052B (zh) * | 2023-08-28 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 文本识别模型的训练方法和装置、存储介质及电子设备 |
CN117524198B (zh) * | 2023-12-29 | 2024-04-16 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置及车辆 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818409B2 (en) * | 2015-06-19 | 2017-11-14 | Google Inc. | Context-dependent modeling of phonemes |
CN105529027B (zh) * | 2015-12-14 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105895081A (zh) * | 2016-04-11 | 2016-08-24 | 苏州思必驰信息科技有限公司 | 一种语音识别解码的方法及装置 |
CN108269568B (zh) * | 2017-01-03 | 2021-07-30 | 中国科学院声学研究所 | 一种基于ctc的声学模型训练方法 |
CN108389575B (zh) * | 2018-01-11 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 音频数据识别方法及系统 |
CN109559735B (zh) * | 2018-10-11 | 2023-10-27 | 平安科技(深圳)有限公司 | 一种基于神经网络的语音识别方法、终端设备及介质 |
CN110164421B (zh) * | 2018-12-14 | 2022-03-11 | 腾讯科技(深圳)有限公司 | 语音解码方法、装置及存储介质 |
US11100920B2 (en) * | 2019-03-25 | 2021-08-24 | Mitsubishi Electric Research Laboratories, Inc. | System and method for end-to-end speech recognition with triggered attention |
CN113539242A (zh) * | 2020-12-23 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-23 CN CN202011536771.4A patent/CN113539242A/zh active Pending
-
2021
- 2021-11-08 JP JP2023518016A patent/JP2023542685A/ja active Pending
- 2021-11-08 EP EP21908894.5A patent/EP4191576A4/en active Pending
- 2021-11-08 WO PCT/CN2021/129223 patent/WO2022134894A1/zh active Application Filing
-
2022
- 2022-10-31 US US17/977,496 patent/US20230074869A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022134894A1 (zh) | 2022-06-30 |
EP4191576A1 (en) | 2023-06-07 |
EP4191576A4 (en) | 2024-05-29 |
CN113539242A (zh) | 2021-10-22 |
US20230074869A1 (en) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023542685A (ja) | 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム | |
US12033621B2 (en) | Method for speech recognition based on language adaptivity and related apparatus | |
US11848008B2 (en) | Artificial intelligence-based wakeup word detection method and apparatus, device, and medium | |
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
US11017762B2 (en) | Method and apparatus for generating text-to-speech model | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
KR102413692B1 (ko) | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN112885336B (zh) | 语音识别系统的训练、识别方法、装置、电子设备 | |
CN112259089B (zh) | 语音识别方法及装置 | |
US10810993B2 (en) | Sample-efficient adaptive text-to-speech | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
CN109697978B (zh) | 用于生成模型的方法和装置 | |
CN112151003A (zh) | 并行语音合成方法、装置、设备以及计算机可读存储介质 | |
EP4409568A1 (en) | Contrastive siamese network for semi-supervised speech recognition | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN113393841B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN113782042A (zh) | 语音合成方法、声码器的训练方法、装置、设备及介质 | |
CN113948062B (zh) | 数据转换方法及计算机存储介质 | |
CN115206284A (zh) | 一种模型训练方法、装置、服务器和介质 | |
CN117121099A (zh) | 自适应视觉语音识别 | |
KR20230156795A (ko) | 단어 분할 규칙화 | |
CN115171660A (zh) | 一种声纹信息处理方法、装置、电子设备及存储介质 | |
TW201828279A (zh) | 語音識別方法及裝置 | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230317 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240708 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240909 |