JP7407968B2 - 音声認識方法、装置、設備及び記憶媒体 - Google Patents
音声認識方法、装置、設備及び記憶媒体 Download PDFInfo
- Publication number
- JP7407968B2 JP7407968B2 JP2022563214A JP2022563214A JP7407968B2 JP 7407968 B2 JP7407968 B2 JP 7407968B2 JP 2022563214 A JP2022563214 A JP 2022563214A JP 2022563214 A JP2022563214 A JP 2022563214A JP 7407968 B2 JP7407968 B2 JP 7407968B2
- Authority
- JP
- Japan
- Prior art keywords
- hotword
- audio
- decoding time
- current decoding
- related features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 89
- 239000013598 vector Substances 0.000 claims description 99
- 230000008569 process Effects 0.000 claims description 41
- 230000003993 interaction Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 description 41
- 230000007246 mechanism Effects 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 16
- 230000006403 short-term memory Effects 0.000 description 13
- 230000003068 static effect Effects 0.000 description 13
- 230000002457 bidirectional effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 240000003473 Grevillea banksii Species 0.000 description 1
- 206010068829 Overconfidence Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Machine Translation (AREA)
Description
の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
認識対象音声及び設定されたホットワードシソーラスを取得することと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定することとを含む。
現在の復号化時刻より前の復号化済み結果情報を取得することと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定することとを含む。
あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワード
シソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を取得することを含み、
このうち、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える。
前記認識対象音声の符号化を行い、オーディオ符号化結果を得るオーディオエンコーダモジュールと
前記ホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得るホットワードエンコーダモジュールと、
前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る共同注意モジュールと、
前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得るデコーダモジュールと、
デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する分類器モジュールとを含み、
前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。
デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する第1のアテンションモデルと、
前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定する第2のアテンションモデルとを含み、
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する。
前記状況ベクトル、前記ホットワード符号化結果を第1のアテンションモデルの入力として、前記第1のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することを含む。
前記オーディオ関連特徴を第2のアテンションモデルの入力として、前記第2のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することを含む。
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定することは、
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定することと、
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて
、認識対象音声の現在の復号化時刻の認識結果を決定することとを含む。
認識対象音声を取得し、前記認識対象音声の会話シーンを決定することと、
前記会話シーンに関するホットワードシソーラスを取得することとを含む。
ヒューマンコンピュータインタラクションシーンでのユーザーからの音声を認識対象音声として取得することと、
ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することとを含む。
前記認識対象音声の認識結果に基づいて、前記認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力することとをさらに含む。
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニットと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニットと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニットと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニットとを含む。
なく、ホットワードに対応する完全なオーディオ情報が含まれるようになり、さらに当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、またオーディオ関連特徴にはホットワードに対応する完全なオーディオ情報が含まれるようになるため、決定されたホットワード関連特徴は、現在の復号化時刻の音声セグメントにホットワードが含まれているか否か、及び具体的にどのホットワードが含まれているかを正確に示すことができ、最終的に、オーディオ関連特徴及びホットワード関連特徴に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定し、当該認識結果により、ホットワードをより正確に認識することができる。
oderのステータス情報を用いて、アテンションメカニズムに基づいて、オーディオ符号化特徴及びホットワード符号化特徴のそれぞれに対して操作を行い、復号化に必要なオーディオ関連特徴及びホットワード関連特徴を得る。オーディオ関連特徴及びホットワード関連特徴に基づいて、復号化及び分類を行い、入力音声に対応する認識テキストを得る。
具体的には、今回の音声認識タスクで認識する音声を認識対象音声とする。音声認識の前に、設定されたホットワードシソーラスを取得することができ、ホットワードシソーラスには複数のホットワードが保存されている。ホットワードシソーラスは音声認識タスクに関連するホットワードから構成されてもよいことが理解される。例えば、認識対象音声の中に存在する可能性のあるすべてのホットワード(専門用語など)を用いてホットワードシソーラスを構成する。
最終的に得られるオーディオ関連特徴には、現在の復号化対象文字の完全なオーディオ情報が含まれる。
会話シーンによって発生される認識対象音声に含まれるホットワードも異なる可能性があることが理解されるため、本出願で、各会話シーンに対応するホットワードシソーラスを事前に決定することができ、そして認識対象音声の会話シーンを決定した後、対応するホットワードシソーラスを取得することができる。
ユーザーがヒューマンコンピュータインタラクションシーンで機器とやり取りを行う時、
ユーザーの音声操作命令に関わってくることが理解され、すなわち、ユーザーが所定の目的を実現するための音声操作命令を機器に出す。例えば、ユーザーがスマートテレビを音声でコントロールしてチャンネル切り替えや音量調整などの関連操作を実現し、またユーザーがスマートロボットをコントロールして曲の再生、天気の確認、所定の動作の実行などを実現する。
S1:現在の復号化時刻より前の復号化済み結果情報を取得する。
S2:復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定する。
周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴などが挙げられる。さらに、復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声のオーディオ特徴から現在の復号化時刻に必要なオーディオ関連特徴を決定する。
具体的には、音声認識モデルを用いて実現できる。
オーディオエンコーダモジュールで認識対象音声の符号化を行い、オーディオ符号化結果を得る。
ここで、得られた符号化済みのオーディオ特徴ベクトルのシーケンスは次の通りである。
ここで、
はkフレーム目のオーディオ特徴ベクトル、
はxkがオーディオエンコーダモジュールにより符号化された結果を表す。
ホットワードエンコーダモジュールでホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得る。
ホットワードシソーラス内に合計N+1個のホットワードが含まれるように定義される。
Z=[z0,z1,…,zn]
ここで、znはN番目のホットワードを表す。ここで、z0は特別なホットワード「<no-bias>」であり、ホットワードが存在しないことを表す。復号化の過程におけるホット
ワードはz0である場合、現在の復号化時刻に復号化対象文字がいずれかホットワードでもないことを意味し、認識されている音声セグメントがホットワードでない場合に使用される。
ここで、
はN番目のホットワードがホットワードエンコーダモジュールで個別に符号化された後のホットワード特徴ベクトルを表す。
「科大訊飛」をホットワードとすると、含まれる文字数はそれぞれ3と4である。
共同注意モジュールは、オーディオ符号化結果及びホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る。当該接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。
ここで、第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及びホットワード符号化結果に基づいて、オーディオ符号化結果から現在の復号化時刻に必要可能なオーディオ関連特徴を決定することができる。
を決定する。第2のアテンションモデルは、
をクエリ項目とし、ホットワード特徴ベクトルシーケンスHzに対しアテンションメカニズム操作を実行し、現在の復号化時刻に必要なホットワード関連特徴
を決定する。
まず、第1のアテンションモデルは、ホットワード特徴ベクトルシーケンスHzにおける各ホットワード特徴ベクトル
を状況ベクトルdtとそれぞれ組み合わせてクエリ項目とし、オーディオ特徴ベクトルシーケンスHxにおける各オーディオ特徴ベクトル
に対してアテンションメカニズム操作を行い、マッチング係数行列Etを得る。前記マッチング係数行列Etには任意のホットワードと任意のフレームの音声との一致度
が含まれ、
は、i番目のホットワードとjフレーム目の音声との一致度(すなわちjフレーム目の音声がi番目のホットワードである可能性)を示す。
の計算過程は下の式を参照する。
ここで、Wd、Wz、Wxはモデルパラメータであり、
はそれぞれベクトル
の次元を示し、3つの行列の行数が同じでいずれもDであり、演算子<.,.>はベクトルの内積を求めることを示す。
はホットワードと音声フレームのマッチング係数行列Etを構成し、Et∈RK×(N-1)とする。ここで、
はEtにおけるi行目j列目の要素、Etの列ベクトルはあるホットワードとオーディオ特徴ベクトルシーケンスとの一致度、Etの行ベクトルはあるフレームのオーディオ特徴ベクトルとホットワード特徴ベクトルシーケンスの一致度を表す。
S1:マッチング係数行列Etに基づいて、各ホットワードを現在の復号化時刻の復号化対象文字とする確率wtを決定する。
ここで、
は現在の復号化時刻tの復号化対象文字がi番目のホットワードである可能性を表す。つまり、現在の復号化時刻tの音声から出てくる可能性の最も高いホットワードを決定する。
ここで、
はjフレーム目のオーディオ特徴が現在の復号化時刻tの復号化に必要な音声内容である可能性を表す。
を得る。
具体的には、atの要素をオーディオ特徴ベクトルシーケンス
に対応する位置のオーディオ特徴ベクトルの加重係数とし、オーディオ特徴ベクトルを重み付け及び加算し、オーディオ関連特徴ベクトル
を得る。
第2のアテンションモデルは、上記のオーディオ関連特徴
に基づいて、ホットワード特徴ベクトルシーケンスHzから現在の復号化時刻に必要なホットワード関連特徴
を決定する。
S1:第2のアテンションモデルは、オーディオ関連特徴
をクエリ項目とし、ホットワード特徴ベクトルシーケンスHzに対してアテンションメカニズム操作を行い、ホットワードマッチング係数ベクトルbtを得る。ホットワードマッチング係数ベクトルbtには、各ホットワードを現在の復号化時刻の復号化対象文字とする確率が含まれる。btは次の通りである。
ここで、
はi番目のホットワードを現在の復号化時刻の復号化文字とする確率を表す。
を加重係数とし、ホットワード特徴ベクトルシーケンスHzにおける各ホットワードのホットワード特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なホットワード関連特徴
を得る。
デコーダモジュールは共同注意モジュールから出力された現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得る。
を求める。
分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。
は、デコーダモジュールの状況ベクトルdtと現在の復号化時刻に必要な接合特徴ctに基づいて共同で決定されたものであり、接合特徴ctにおける
には、ホットワードの情報の一部でなく、潜在的ホットワードの完全なオーディオ情報が含まれるため、これに基づいて決定されたホットワード関連特徴
もより正確である。よって、最終的に得られた出力特徴
もより正確であり、さらにこれに基づいて決定された認識結果もより正確で、ホットワードの認識精度を高めることができるのが確認される。
に基づいて各分類ノード文字の得点確率を決定し、最終的な認識結果に組み合わせる。
調整でき、現在のシーンに対応するホットワードシソーラスにN個のホットワードがある場合、同じくN個のホットワードノードを設定することができる。中国語の音声認識を例として、漢字をモデリング単位とし、常用漢字の数をV個とすると、分類器モジュールの固定の常用文字ノードの数はVとし、またホットワードシソーラスに合計N個のホットワードが存在すると、分類器モジュールのホットワードノードの数はNとし、つまり分類器モジュールのすべての分類ノードの数はV+Nとする。
分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴
を用いて、各常用文字ノードの確率得点及び各ホットワードノードの確率得点を決定し、よって最終的な認識結果を決定する。
を用いて、各常用文字ノードの確率得点を決定することができる。さらに、上記の実施例で説明されたホットワードマッチング係数ベクトルbtを用いて、各ホットワードノードの確率得点を決定する。
を用いて、各常用文字ノードの確率得点を決定する。
で表す)を出力する。
ここで、ytは現在の復号化時刻tの復号化対象文字を表し、行列Wは静的分類器のモデルパラメータとし、デコーダモジュールの出力特徴
の次元をMとすると、WはV*Mの行列を表し、Pv(yt)の要素は常用文字ノードの常用文字の確率得点を表す。
ここで、
はi番目のホットワードを現在の復号化時刻の復号化文字とする確率を表し、これをi番目のホットワードノードの確率得点とすることができる。0番目のホットワードが「<no-bias>」である場合は「ホットワードでない」ことを示す。iは0である場合、
は復号化結果が「ホットワードでない」である確率得点を示す。
を出力する。
は次の通りである。
ここで、wbはモデルパラメータであり、
次元と同じの重みベクトルを示し、sig moidはニューラルネットワーク活性化関数である。
N個のホットワードにおけるi番目のホットワードノード(iの値を取る範囲は[1,N]とする)について、静的分類器から出力された確率分布におけるその得点は0であり、ホットワード分類器におけるその確率得点は
であるため、最終的にその確率得点は
である。V個の常用文字ytについて、静的分類器から出力された確率分布におけるその得点はPv(yt)であり、ホットワード分類器におけるその確率得点は
であるため、最終的にその確率得点は
である。
ここで、音声訓練データのテキスト注釈シーケンスは次の通りである。
Y=[y0,y1,…,yt…,yT]
ここで、ytはテキスト注釈シーケンスにおけるt番目の文字、T+1は認識テキストの文字総数を表す。ここで、y0はセンテンスの開始タグ「<s>」、yTはセンテンスの終
了タグ「</s>」である。
Y=[< s >,歓、迎、来、到、科、大、訊、飛、</ s >]。
ここで、オーディオ特徴としては、フィルタバンク(Filter Bank)特徴、メル周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴などが挙げられる。
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニット11と、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニット12と、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニット13と、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニット14とを含んでもよい。
現在の復号化時刻より前の復号化済み結果情報を取得する第1のオーディオ関連特徴取得サブユニットと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定する第2のオーディオ関連特徴取得サブユニットとを含んでもよい。
在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、認識対象音声の現在の復号化時刻における認識結果を決定する能力を備えてもよい。
第1のアテンションモデル及び第2のアテンションモデルを含んでもよい。
前記ホットワードエンコーダモジュールが設定された次元に基づいて、前記各ホットワードをそれぞれ同じ次元のホットワード特徴ベクトルに個別に符号化することを含んでもよい。
第1のアテンションモデルが、それぞれ前記ホットワード特徴ベクトルシーケンスにおける各ホットワード特徴ベクトルと前記状況ベクトルの組み合わせをクエリ項目とし、前記オーディオ特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、任意のホットワードと任意のフレームの音声の一致度を含むマッチング係数行列を得ることと、
前記マッチング係数行列に基づいて、前記オーディオ特徴ベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定することとを含んでもよい。
前記マッチング係数行列に基づいて、各ホットワードを現在の復号化時刻の復号化対象文字とする確率を決定することと、
前記マッチング係数行列及び各ホットワードを現在の復号化時刻の復号化対象文字とする確率に基づいて、各フレームの音声を現在の復号化時刻に必要な音声内容とする確率を決定することと、
各フレームの音声を現在の復号化時刻に必要な音声内容とする確率を加重係数とし、前記オーディオ特徴ベクトルシーケンスにおける各フレーム音声のオーディオ特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なオーディオ関連特徴を得ることとを含んでもよい。
第2のアテンションモデルが、前記オーディオ関連特徴をクエリ項目とし、前記ホットワード特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、各ホットワードを現在の復号化時刻の復号化対象文字とする確率を含むホットワードマッチング係数ベクトルを得ることと、
各ホットワードを現在の復号化時刻の復号化対象文字とする確率を加重係数とし、前記ホットワード特徴ベクトルシーケンスにおける各ホットワードのホットワード特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なホットワード関連特徴を得ることとを含んでもよい。
係数ベクトルを用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。
分類器モジュールは、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定してもよい。前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定する。
認識テキストを注釈する音声訓練データを取得し、
前記音声訓練データのオーディオ特徴を取得し、
前記音声訓練データの注釈テキスからランダムに選定した注釈セグメントを訓練ホットワードとし、
前記訓練ホットワード、前記オーディオ特徴及び音声訓練データの認識テキストを用いて音声認識モデルを訓練するために使用される。
認識対象音声の次のいずれか一つのオーディオ特徴を取得することを含んでもよい。
フィルタバンク(Filter Bank)特徴、メル周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴。
認識対象音声及び設定されたホットワードシソーラスを取得し、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定するために使用される。
認識対象音声及び設定されたホットワードシソーラスを取得し、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定するために使用される。
Claims (16)
- 音声認識方法であって、
認識対象音声及び設定されたホットワードシソーラスを取得することと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定することと、
を含むことを特徴とする音声認識方法。 - 前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
現在の復号化時刻より前の復号化済み結果情報を取得することと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
を含むことを特徴とする請求項1に記載の方法。 - 前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定するプロセスは、
あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワードシソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を取得することを含み、
このうち、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える、
ことを特徴とする請求項2に記載の方法。 - 前記音声認識モデルは、
前記認識対象音声の符号化を行い、オーディオ符号化結果を得るオーディオエンコーダモジュールと、
前記ホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得るホットワードエンコーダモジュールと、
前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る共同注意モジュールと、
前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得るデコーダモジュールと、
デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する分類器モジュールとを含み、
前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む、
ことを特徴とする請求項3に記載の方法。 - 前記共同注意モジュールは、
デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する第1のアテンションモデルと、
前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時
刻に必要なホットワード関連特徴を決定する第2のアテンションモデルとを含み、
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する、
ことを特徴とする請求項4に記載の方法。 - 前記第1のアテンションモデルが、デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
前記状況ベクトル、前記ホットワード符号化結果を第1のアテンションモデルの入力として、前記第1のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することを含む、
ことを特徴とする請求項5に記載の方法。 - 前記第2のアテンションモデルが、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することは、
前記オーディオ関連特徴を第2のアテンションモデルの入力として、前記第2のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することを含む、
ことを特徴とする請求項5に記載の方法。 - 前記分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含み、
分類器モジュールが、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定することは、
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定することと、
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することと、
を含むことを特徴とする請求項4に記載の方法。 - 前記動的に拡張可能なホットワードノードと前記ホットワードシソーラスにおけるホットワードとは1対1対応する、
ことを特徴とする請求項8に記載の方法。 - 前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
認識対象音声を取得し、前記認識対象音声の会話シーンを決定することと、
前記会話シーンに関するホットワードシソーラスを取得することと、
を含むことを特徴とする請求項1~9のいずれか1項に記載の方法。 - 前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
ヒューマンコンピュータインタラクションシーンでのユーザーからの音声を認識対象音声として取得することと、
ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することと、
を含むことを特徴とする請求項1~9のいずれか1項に記載の方法。 - 前記認識対象音声の認識結果に基づいて、前記認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力すること、
をさらに含むことを特徴とする請求項11に記載の方法。 - 音声認識装置であって、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニットと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニットと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニットと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニットと、
を含むことを特徴とする音声認識装置。 - 音声認識設備であって、
プログラムを格納するメモリと、
前記プログラムを実行し、請求項1~12のいずれか1項に記載の音声認識方法の各ステップを実現するプロセッサと、
を含むことを特徴とする音声認識設備。 - コンピュータプログラムを格納する読取可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される時に、請求項1~12のいずれか1項に記載の音声認識方法の各ステップを実現する、
ことを特徴とする読取可能な記憶媒体。 - コンピュータプログラム製品であって、
端末装置で実行される時に、前記端末装置に請求項1~12のいずれか1項に記載の方法を実行させる、
ことを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418728.1 | 2020-05-18 | ||
CN202010418728.1A CN111583909B (zh) | 2020-05-18 | 2020-05-18 | 一种语音识别方法、装置、设备及存储介质 |
PCT/CN2020/133286 WO2021232746A1 (zh) | 2020-05-18 | 2020-12-02 | 一种语音识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023522083A JP2023522083A (ja) | 2023-05-26 |
JP7407968B2 true JP7407968B2 (ja) | 2024-01-04 |
Family
ID=72126794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022563214A Active JP7407968B2 (ja) | 2020-05-18 | 2020-12-02 | 音声認識方法、装置、設備及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230186912A1 (ja) |
EP (1) | EP4156176A4 (ja) |
JP (1) | JP7407968B2 (ja) |
CN (1) | CN111583909B (ja) |
WO (1) | WO2021232746A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583909B (zh) * | 2020-05-18 | 2024-04-12 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN112037775B (zh) * | 2020-09-08 | 2021-09-14 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法、装置、设备及存储介质 |
CN112489651B (zh) * | 2020-11-30 | 2023-02-17 | 科大讯飞股份有限公司 | 语音识别方法和电子设备、存储装置 |
CN112634904A (zh) * | 2020-12-22 | 2021-04-09 | 北京有竹居网络技术有限公司 | 热词识别方法、装置、介质和电子设备 |
CN112767917B (zh) * | 2020-12-31 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、装置及存储介质 |
CN112951209B (zh) * | 2021-01-27 | 2023-12-01 | 中国科学技术大学 | 一种语音识别方法、装置、设备及计算机可读存储介质 |
CN113470619B (zh) * | 2021-06-30 | 2023-08-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
CN113436614B (zh) * | 2021-07-02 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、设备、系统及存储介质 |
CN113808592A (zh) * | 2021-08-17 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 通话录音的转写方法及装置、电子设备和存储介质 |
CN114005438B (zh) * | 2021-12-31 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、语音识别模型的训练方法以及相关装置 |
CN115631746B (zh) * | 2022-12-20 | 2023-04-07 | 深圳元象信息科技有限公司 | 热词识别方法、装置、计算机设备及存储介质 |
CN117437909B (zh) * | 2023-12-20 | 2024-03-05 | 慧言科技(天津)有限公司 | 基于热词特征向量自注意力机制的语音识别模型构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592595A (zh) | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
US20200066271A1 (en) | 2018-08-23 | 2020-02-27 | Google Llc | Key phrase spotting |
US20200097604A1 (en) | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4520499A (en) * | 1982-06-25 | 1985-05-28 | Milton Bradley Company | Combination speech synthesis and recognition apparatus |
CN103310790A (zh) * | 2012-03-08 | 2013-09-18 | 富泰华工业(深圳)有限公司 | 电子装置及语音识别方法 |
CN102968987A (zh) * | 2012-11-19 | 2013-03-13 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及系统 |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
US8719039B1 (en) * | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
CN105719649B (zh) * | 2016-01-19 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 语音识别方法及装置 |
CN105955953A (zh) * | 2016-05-03 | 2016-09-21 | 成都数联铭品科技有限公司 | 一种分词系统 |
CN109523991B (zh) * | 2017-09-15 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置、设备 |
CN109559752B (zh) * | 2017-09-27 | 2022-04-26 | 北京国双科技有限公司 | 语音识别方法和装置 |
CN108228565A (zh) * | 2018-01-11 | 2018-06-29 | 廖良平 | 一种商品信息关键词的识别方法 |
CN108831456B (zh) * | 2018-05-25 | 2022-04-15 | 深圳警翼智能科技股份有限公司 | 一种通过语音识别对视频标记的方法、装置及系统 |
CN108899030A (zh) * | 2018-07-10 | 2018-11-27 | 深圳市茁壮网络股份有限公司 | 一种语音识别方法及装置 |
CN108984529B (zh) * | 2018-07-16 | 2022-06-03 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN109215662B (zh) * | 2018-09-18 | 2023-06-20 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
CN110047467B (zh) * | 2019-05-08 | 2021-09-03 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、存储介质及控制终端 |
CN110415705B (zh) * | 2019-08-01 | 2022-03-01 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
CN110517692A (zh) * | 2019-08-30 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 热词语音识别方法和装置 |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN110879839A (zh) * | 2019-11-27 | 2020-03-13 | 北京声智科技有限公司 | 一种热词识别方法、装置及系统 |
CN111105799B (zh) * | 2019-12-09 | 2023-07-07 | 国网浙江省电力有限公司杭州供电公司 | 基于发音量化和电力专用词库的离线语音识别装置及方法 |
CN111009237B (zh) * | 2019-12-12 | 2022-07-01 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN111583909B (zh) * | 2020-05-18 | 2024-04-12 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
-
2020
- 2020-05-18 CN CN202010418728.1A patent/CN111583909B/zh active Active
- 2020-12-02 US US17/925,483 patent/US20230186912A1/en active Pending
- 2020-12-02 WO PCT/CN2020/133286 patent/WO2021232746A1/zh unknown
- 2020-12-02 JP JP2022563214A patent/JP7407968B2/ja active Active
- 2020-12-02 EP EP20936660.8A patent/EP4156176A4/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592595A (zh) | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
US20200066271A1 (en) | 2018-08-23 | 2020-02-27 | Google Llc | Key phrase spotting |
US20200097604A1 (en) | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
Non-Patent Citations (1)
Title |
---|
Golan Pundak, et al.,Deep Context: End-to-end Contextual Speech Recognition,IEEE Spoken Language Technology Workshop,2018,米国,IEEE,2018年12月18日,pp. 418-425,https://ieeexplore.ieee.org/document/8639034,<online> |
Also Published As
Publication number | Publication date |
---|---|
EP4156176A4 (en) | 2024-05-08 |
EP4156176A1 (en) | 2023-03-29 |
CN111583909B (zh) | 2024-04-12 |
KR20230040951A (ko) | 2023-03-23 |
JP2023522083A (ja) | 2023-05-26 |
CN111583909A (zh) | 2020-08-25 |
WO2021232746A1 (zh) | 2021-11-25 |
US20230186912A1 (en) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7407968B2 (ja) | 音声認識方法、装置、設備及び記憶媒体 | |
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
Zhang et al. | Spontaneous speech emotion recognition using multiscale deep convolutional LSTM | |
US10437929B2 (en) | Method and system for processing an input query using a forward and a backward neural network specific to unigrams | |
US11043205B1 (en) | Scoring of natural language processing hypotheses | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US11823678B2 (en) | Proactive command framework | |
JP7431833B2 (ja) | 言語シーケンスラベリング方法、装置、プログラム及びコンピューティング機器 | |
CN109937446A (zh) | 用于端到端语音识别的极深卷积神经网络 | |
US11081104B1 (en) | Contextual natural language processing | |
WO2022141706A1 (zh) | 语音识别方法、装置及存储介质 | |
Deena et al. | Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment | |
US10872601B1 (en) | Natural language processing | |
US11289075B1 (en) | Routing of natural language inputs to speech processing applications | |
CN112417855A (zh) | 文本意图识别方法、装置以及相关设备 | |
CN109979461B (zh) | 一种语音翻译方法及装置 | |
CN111126084A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN112446219A (zh) | 一种中文请求文本意图分析方法 | |
CN115017900B (zh) | 一种基于多模态多去偏见的对话情感识别方法 | |
CN115204181A (zh) | 文本检测方法、装置、电子设备以及计算机可读存储介质 | |
KR102668530B1 (ko) | 음성 인식 방법, 장치 및 디바이스, 및 저장 매체 | |
US11947912B1 (en) | Natural language processing | |
CN112735380B (zh) | 重打分语言模型的打分方法及语音识别方法 | |
US11380308B1 (en) | Natural language processing | |
Nicolaou et al. | Dialog speech sentiment classification for imbalanced datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7407968 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |