JP2020515877A - ささやき声変換方法、装置、デバイス及び可読記憶媒体 - Google Patents
ささやき声変換方法、装置、デバイス及び可読記憶媒体 Download PDFInfo
- Publication number
- JP2020515877A JP2020515877A JP2019519686A JP2019519686A JP2020515877A JP 2020515877 A JP2020515877 A JP 2020515877A JP 2019519686 A JP2019519686 A JP 2019519686A JP 2019519686 A JP2019519686 A JP 2019519686A JP 2020515877 A JP2020515877 A JP 2020515877A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition result
- whispering
- feature amount
- whisper
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 90
- 238000012545 processing Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 25
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 108010001267 Protein Subunits Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 241001061260 Emmelichthys struhsakeri Species 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
読記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容は援用により本出願に組み込まれる。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含む。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な
認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることとを含む。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
取得サブユニットを備える。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
そこで、前記初期的な認識結果取得手段は、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備える。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える。
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える。
。
Energy)と、メル周波数ケプストラム係数特徴量(Mel Frequency Cepstrum Coefficient, MFCC)と、知覚的線形予測係数特徴量(Perceptual Linear Predictive, PLP)とのうちのいずれか1種以上を含む。
まず、認識結果を手動で付した通常に話す時の通常音声データを大量に収集し、認識結果を手動で付したささやき声データを少量に収集する。
次に、通常音声データの通常音声の音響特徴量を抽出し、そしてささやき声データのささやき声の音響特徴量を抽出する。
続いて、通常音声の音響特徴量、及び通常音声データに手動で付した認識結果の両方で、通常音声認識モデルをトレーニングする。
最後に、訓練済みの通常音声認識モデルを初期モデルとして、ささやき声の音響特徴量、及び手動でささやき声データに付す認識結果の両方で、この初期モデルをトレーニングする。トレーニングした後、ささやき声認識モデルを得る。
本実施例では、さらにささやき声データとマーチングする唇形画像データを取得することができる。この唇形画像データは、話者がささやき声で話している時の唇形が撮られた
唇形画像である。
まず、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得る。
具体的には、口唇検知時に、物体検知技術、例えばFasterRCNNモデルなどを活用することができる。
さらに、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得する。
の他のサイズに縮小することができる。この正規化処理方式には、従来の各種の画像スケーリング技術、例えば線形補間などを利用することができる。
voting error reduction; 多数決による認識誤り低減法)、またはその他の統合手法が用いられている。
ささやき声変換モデルは再帰型ニューラルネットワークタイプである。図4には、再帰型ニューラルネットワークタイプのささやき声変換モデルの構造模式図が示されている。
ここで、モデルに入力された初期的な認識結果は、ベクトル化された初期的な認識結果であってもよい。
ささやき声変換モデルは、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルである。図5には、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルの構造模式図が示されている。
及び各フレームの初期的な認識結果である。図5において、初期的な認識結果について、音素系列「zh、ong、g、uo」を例に説明する。
期的な認識結果、現時点における重み付け後ささやき声の音響特徴量ct及び前の時刻で
あるt-1におけるデコーディング層の出力yt−1を現時点tにおけるデコーディング層の入力とし、現時点tにおけるデコーディング層の出力ytを通常音声の音響特徴量とす
る。
i)前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルに入力させる;
ここで、入力モデルの初期的な認識結果は、ベクトル化された初期的な認識結果であってもよい。
ii)ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得る;
iii)ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得る;
iv)ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、現時点におけるデコーディング層の出力を通常音声の音響特徴量とする。
ステップS300:ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得する。
ステップS310:前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データで付された認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
i)前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得る;
ii)前記通常音声認識結果を前記ささやき声データの最終的な認識結果とする。
ここで、通常音声認識モデルについて、前記説明を参照すればよい。この実施形態においては、通常音声認識モデルから出力された通常音声認識結果をそのまま最終的な認識結果としている。
理解の便宜上、本実施例では、ささやき声変換方法の全工程を参照しながら、前記ステップS320の過程について解説する。
ステップS400:ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を得る。
ステップS410:前記ささやき声音響特徴及び前記初期的な認識結果を予め作成されたささやき声認識モデルに入力させ、出力された通常音声の音響特徴量を得る。
ステップS430:反復終了設定条件に達したか否かを判断する;YESであれば、下記のステップS440を実行する。NOであれば、下記のステップS450を実行する。
ステップS440:前記通常音声認識結果を前記ささやき声データの最終的な認識結果とする。
ステップS450:前記通常音声認識結果を前記初期的な認識結果とするとともに、ステップS410に戻る。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
取得サブユニットを備える。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
そこで、前記初期的な認識結果取得手段は、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備える。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、こうしてモデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える。
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える。
めの1つまたは複数の集積回路などに配置されている。
。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
前記プログラムは、ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することに用いられる。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
Claims (22)
- ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含み、
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる、ことを特徴とするささやき声変換方法。 - さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することを含む、請求項1に記載の方法。
- 前記ささやき声データに対応する初期的な認識結果を取得することは、
前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することを含み、
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で、前記初期モデルをトレーニングすることによって得られる、請求項1に記載の方法。 - さらに、前記ささやき声データとマーチングする唇形画像データを取得することを含み、
そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、
前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、
前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含み、
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項3に記載の方法。 - さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得ることと、
対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得することを含む、請求項4に記載の方法。 - 前記ささやき声データに対応するささやき声の音響特徴量を取得することは、
前記ささやき声データをフレーム化して、複数フレームのささやき声データを得ることと、
フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得ることと、
各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出することとを含み、
ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
含む、請求項1に記載の方法。 - 前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得ることを含む、請求項1に記載の方法。 - 前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることを含む、請求項1に記載の方法。 - 前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることとを含む、請求項2に記載の方法。 - 前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
反復終了設定条件に達したか否かを判断することと、
YESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることと、
NOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すこととを含む、請求項2に記載の方法。 - ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段と、
前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段と、
前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段とを備え、
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングするこ
とによって得られる、ことを特徴とするささやき声変換装置。 - さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える、請求項11に記載の装置。
- 前記初期的な認識結果取得手段は、
前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果取得サブユニットを備え、
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる、請求項11に記載の装置。 - 前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備え、
そこで、前記初期的な認識結果取得手段は、さらに、
前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、
前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備え、
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項13に記載の装置。 - さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、
対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える、請求項14に記載の装置。 - 前記ささやき声の音響特徴取得手段は、
前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、
フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、
各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備え、
ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
含む、請求項11に記載の装置。 - 前記ささやき声変換処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える、請求項11に記載の装置。 - 前記ささやき声変換処理手段は、コーデック処理手段を備え、
前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処
理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える、請求項11に記載の装置。 - 前記最終的な認識結果特定手段は、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第1の結果特定手段とを備える、請求項12に記載の装置。 - 前記最終的な認識結果特定手段は、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
反復終了設定条件に達したか否かを判断するための反復判断手段と、
前記反復判断手段による判断結果がYESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第2の結果特定手段と、
前記反復判断手段による判断結果がNOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第3の結果特定手段とを備える、請求項12に記載の装置。 - プログラムが記憶されているメモリーと、
前記プログラムが実行されると、請求項1〜10のいずれか1項に記載のささやき声変換方法の各ステップが実現されるためのプロセッサーとを備える、ことを特徴とするささやき声変換デバイス。 - コンピュータプログラムが記憶されている可読記憶媒体であって、
前記コンピュータプログラムがプロセッサーによって実行されると、請求項1〜10のいずれか1項に記載のささやき声変換方法の各ステップが実現される、ことを特徴とする可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810325696.3A CN108520741B (zh) | 2018-04-12 | 2018-04-12 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN201810325696.3 | 2018-04-12 | ||
PCT/CN2018/091460 WO2019196196A1 (zh) | 2018-04-12 | 2018-06-15 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020515877A true JP2020515877A (ja) | 2020-05-28 |
JP6903129B2 JP6903129B2 (ja) | 2021-07-14 |
Family
ID=63432257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019519686A Active JP6903129B2 (ja) | 2018-04-12 | 2018-06-15 | ささやき声変換方法、装置、デバイス及び可読記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11508366B2 (ja) |
JP (1) | JP6903129B2 (ja) |
CN (1) | CN108520741B (ja) |
WO (1) | WO2019196196A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021081527A (ja) * | 2019-11-15 | 2021-05-27 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
WO2023210149A1 (ja) * | 2022-04-26 | 2023-11-02 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びにコンピュータプログラム |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10531157B1 (en) * | 2017-09-21 | 2020-01-07 | Amazon Technologies, Inc. | Presentation and management of audio and visual content across devices |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
WO2020060311A1 (en) * | 2018-09-20 | 2020-03-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
CN110211568A (zh) * | 2019-06-03 | 2019-09-06 | 北京大牛儿科技发展有限公司 | 一种语音识别方法及装置 |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
CN110444053B (zh) * | 2019-07-04 | 2021-11-30 | 卓尔智联(武汉)研究院有限公司 | 语言学习方法、计算机装置及可读存储介质 |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) * | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
CN111462733B (zh) * | 2020-03-31 | 2024-04-16 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
CN111916095B (zh) * | 2020-08-04 | 2022-05-17 | 北京字节跳动网络技术有限公司 | 语音增强方法、装置、存储介质及电子设备 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
CN112365884A (zh) * | 2020-11-10 | 2021-02-12 | 珠海格力电器股份有限公司 | 耳语的识别方法和装置、存储介质、电子装置 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112562686B (zh) * | 2020-12-10 | 2022-07-15 | 青海民族大学 | 一种使用神经网络的零样本语音转换语料预处理方法 |
CN113066485B (zh) * | 2021-03-25 | 2024-05-17 | 支付宝(杭州)信息技术有限公司 | 一种语音数据处理方法、装置及设备 |
CN112927682B (zh) * | 2021-04-16 | 2024-04-16 | 西安交通大学 | 一种基于深度神经网络声学模型的语音识别方法及系统 |
CN115294970B (zh) * | 2022-10-09 | 2023-03-24 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006119647A (ja) * | 2005-09-16 | 2006-05-11 | Yasuto Takeuchi | ささやき声を通常の有声音声に擬似的に変換する装置 |
CN101527141A (zh) * | 2009-03-10 | 2009-09-09 | 苏州大学 | 基于径向基神经网络的耳语音转换为正常语音的方法 |
US20110071830A1 (en) * | 2009-09-22 | 2011-03-24 | Hyundai Motor Company | Combined lip reading and voice recognition multimodal interface system |
JP2016186516A (ja) * | 2015-03-27 | 2016-10-27 | 日本電信電話株式会社 | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム |
JP2016186515A (ja) * | 2015-03-27 | 2016-10-27 | 日本電信電話株式会社 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6317716B1 (en) * | 1997-09-19 | 2001-11-13 | Massachusetts Institute Of Technology | Automatic cueing of speech |
CN1095580C (zh) * | 1998-04-18 | 2002-12-04 | 茹家佑 | 聋哑人语音学习、对话方法中使用的语音同步反馈装置 |
US6594632B1 (en) * | 1998-11-02 | 2003-07-15 | Ncr Corporation | Methods and apparatus for hands-free operation of a voice recognition system |
CN101154385A (zh) * | 2006-09-28 | 2008-04-02 | 北京远大超人机器人科技有限公司 | 机器人语音动作的控制方法及其所采用的控制系统 |
JP4264841B2 (ja) * | 2006-12-01 | 2009-05-20 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに、プログラム |
US20080261576A1 (en) * | 2007-04-20 | 2008-10-23 | Alcatel Lucent | Communication system for oil and gas platforms |
US8386252B2 (en) | 2010-05-17 | 2013-02-26 | Avaya Inc. | Estimating a listener's ability to understand a speaker, based on comparisons of their styles of speech |
KR20160009344A (ko) * | 2014-07-16 | 2016-01-26 | 삼성전자주식회사 | 귓속말 인식 방법 및 장치 |
CN104484656A (zh) * | 2014-12-26 | 2015-04-01 | 安徽寰智信息科技股份有限公司 | 基于深度学习的唇语识别唇形模型库构建方法 |
CN104537358A (zh) * | 2014-12-26 | 2015-04-22 | 安徽寰智信息科技股份有限公司 | 基于深度学习的唇语识别唇形训练数据库的生成方法 |
US9867012B2 (en) * | 2015-06-03 | 2018-01-09 | Dsp Group Ltd. | Whispered speech detection |
CN107452381B (zh) * | 2016-05-30 | 2020-12-29 | 中国移动通信有限公司研究院 | 一种多媒体语音识别装置及方法 |
CN106571135B (zh) * | 2016-10-27 | 2020-06-09 | 苏州大学 | 一种耳语音特征提取方法及系统 |
US10665243B1 (en) * | 2016-11-11 | 2020-05-26 | Facebook Technologies, Llc | Subvocalized speech recognition |
CN106847271A (zh) * | 2016-12-12 | 2017-06-13 | 北京光年无限科技有限公司 | 一种用于对话交互系统的数据处理方法及装置 |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN107665705B (zh) * | 2017-09-20 | 2020-04-21 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN107680597B (zh) * | 2017-10-23 | 2019-07-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
US10529355B2 (en) * | 2017-12-19 | 2020-01-07 | International Business Machines Corporation | Production of speech based on whispered speech and silent speech |
-
2018
- 2018-04-12 CN CN201810325696.3A patent/CN108520741B/zh active Active
- 2018-06-15 WO PCT/CN2018/091460 patent/WO2019196196A1/zh active Application Filing
- 2018-06-15 US US16/647,284 patent/US11508366B2/en active Active
- 2018-06-15 JP JP2019519686A patent/JP6903129B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006119647A (ja) * | 2005-09-16 | 2006-05-11 | Yasuto Takeuchi | ささやき声を通常の有声音声に擬似的に変換する装置 |
CN101527141A (zh) * | 2009-03-10 | 2009-09-09 | 苏州大学 | 基于径向基神经网络的耳语音转换为正常语音的方法 |
US20110071830A1 (en) * | 2009-09-22 | 2011-03-24 | Hyundai Motor Company | Combined lip reading and voice recognition multimodal interface system |
JP2016186516A (ja) * | 2015-03-27 | 2016-10-27 | 日本電信電話株式会社 | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム |
JP2016186515A (ja) * | 2015-03-27 | 2016-10-27 | 日本電信電話株式会社 | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム |
Non-Patent Citations (4)
Title |
---|
GHAFFARZADEGAN, S., ET AL.: "Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition", ICASSP 2015, JPN6020023277, 19 April 2015 (2015-04-19), pages 5024 - 5028, XP033187717, ISSN: 0004298065, DOI: 10.1109/ICASSP.2015.7178927 * |
MADIKERI, S. R., ET AL.: "Mel Filter Bank Energy-Based Slope Feature and Its Application to Speaker Recognition", 2011 NATIONAL CONFERENCE ON COMMUNICATIONS, JPN6020023279, 28 January 2011 (2011-01-28), ISSN: 0004298067 * |
OLAH, C., ET AL.: "Attention and Augmented Recurrent Neural Networks", [ONLINE], JPN7020001849, 8 September 2016 (2016-09-08), ISSN: 0004298068 * |
TAO, F., ET AL.: "Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection", INTERSPEECH 2017, JPN7020001848, 20 August 2017 (2017-08-20), pages 1938 - 1942, XP055972570, ISSN: 0004298066, DOI: 10.21437/Interspeech.2017-1573 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021081527A (ja) * | 2019-11-15 | 2021-05-27 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
WO2023210149A1 (ja) * | 2022-04-26 | 2023-11-02 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びにコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN108520741A (zh) | 2018-09-11 |
US11508366B2 (en) | 2022-11-22 |
WO2019196196A1 (zh) | 2019-10-17 |
JP6903129B2 (ja) | 2021-07-14 |
US20200211550A1 (en) | 2020-07-02 |
CN108520741B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6903129B2 (ja) | ささやき声変換方法、装置、デバイス及び可読記憶媒体 | |
Akbari et al. | Lip2audspec: Speech reconstruction from silent lip movements video | |
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
US11875775B2 (en) | Voice conversion system and training method therefor | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
US8160875B2 (en) | System and method for improving robustness of speech recognition using vocal tract length normalization codebooks | |
CN113643693B (zh) | 以声音特征为条件的声学模型 | |
CN113330511B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
CN112131359A (zh) | 一种基于图形化编排智能策略的意图识别方法及电子设备 | |
CN111640456A (zh) | 叠音检测方法、装置和设备 | |
Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
CN111667834B (zh) | 一种助听设备及助听方法 | |
CN111199160A (zh) | 即时通话语音的翻译方法、装置以及终端 | |
Mirishkar et al. | CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection | |
CN113658596A (zh) | 语意辨识方法与语意辨识装置 | |
CN116597858A (zh) | 语音口型匹配方法、装置、存储介质及电子设备 | |
Barnard et al. | Real-world speech recognition with neural networks | |
CN115472174A (zh) | 声音降噪方法和装置、电子设备和存储介质 | |
JP7291099B2 (ja) | 音声認識方法及び装置 | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
Marković et al. | Application of DTW method for whispered speech recognition | |
CN112151070B (zh) | 一种语音检测的方法、装置及电子设备 | |
CN115547300A (zh) | 语音识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190704 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6903129 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |