JP2020515877A - ささやき声変換方法、装置、デバイス及び可読記憶媒体 - Google Patents

ささやき声変換方法、装置、デバイス及び可読記憶媒体 Download PDF

Info

Publication number
JP2020515877A
JP2020515877A JP2019519686A JP2019519686A JP2020515877A JP 2020515877 A JP2020515877 A JP 2020515877A JP 2019519686 A JP2019519686 A JP 2019519686A JP 2019519686 A JP2019519686 A JP 2019519686A JP 2020515877 A JP2020515877 A JP 2020515877A
Authority
JP
Japan
Prior art keywords
voice
recognition result
whispering
feature amount
whisper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019519686A
Other languages
English (en)
Other versions
JP6903129B2 (ja
Inventor
パン,ジャ
リウ,コン
ワン,ハイクン
ワン,チグォ
フー,グォピン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Publication of JP2020515877A publication Critical patent/JP2020515877A/ja
Application granted granted Critical
Publication of JP6903129B2 publication Critical patent/JP6903129B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本出願は、予めささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られるささやき声変換モデルに基づいて実現される、ささやき声変換方法、装置、デバイス及び可読記憶媒体を開示している。本出願では、ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得し、さらにささやき声の音響特徴量及び初期的な認識結果を予め作成されたささやき声変換モデルに入力させて、出力された通常音声の音響特徴量を取得するようにしており、これによって、ささやき声を変換することが可能となる。【選択図】図1

Description

本出願は、2018年4月12日に中国専利局で出願された、出願番号が201810325696.3であって、発明の名称が「ささやき声変換方法、装置、デバイス及び可
読記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容は援用により本出願に組み込まれる。
音声認識は、機械学習手法によって機械にて音声から対応するテキストを自動的に変換させ、これで人間の聴覚のような機能をロボットに与える技術であって、人工知能の重要な構成部分とされている。人工知能技術の急速な進化や、各種のスマート端末機器の日々普及につれて、音声認識技術はヒューマン・コンピュータ・インタラクションにおける重要な一環として、各種のスマート端末に幅広く利用されてきて、ますます多くの人は音声で入力するようになってきた。
音声は、通常音声とささやき声に分けられている。その中で、ささやき声とは、ユーザが内緒話をする時の音声であるのに対して、通常音声とは、ユーザが正常に話す時の音声である。通常音声とささやき声との発音方式が異なる。具体的に、通常音声が出されると、人の声帯は規則的かつ周期的な振動を呈しており、このような振動周波数は基本周波数と呼ばれる。一方、ささやき声で話した場合、声帯の振動は目立たず、不規則的かつランダムな振動を呈しており、即ち基本周波数がないものとされる。そこで、ささやき声の音量を無理やりに上げたとしても、通常音声と同じものにもならない。
しかしながら、会議中やプライベートな会話などの場合は、音声入力機能を正常に使用したら不便になるため、多くの話者は小さな声で囁くことにしている。だが、こうしたら、話者の話を機械で精度よく認識できない問題が起こりうる。また、多くの失声患者の発音がささやき声に近い。そこで、従来より、ささやき声を通常音声に変換する技術の提案が求められるようになってきた。
これに鑑みて、本出願は、ささやき声データの変換を精度よく実現できるささやき声変換方法、装置、デバイス及び可読記憶媒体を提供している。
前記目的を達成するために、以下のような技術案を提供している。
ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含むささやき声変換方法である。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
好ましくは、さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することを含む。
好ましくは、前記ささやき声データに対応する初期的な認識結果を取得することは、前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することを含む。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
好ましくは、さらに、前記ささやき声データとマーチングする唇形画像データを取得することを含む。
そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含む。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
好ましくは、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得ることと、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得することを含む。
好ましくは、前記ささやき声データに対応するささやき声の音響特徴量を取得することは、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得ることと、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得ることと、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出することとを含む。ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。
好ましくは、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得ることを含む。
好ましくは、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な
認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることとを含む。
好ましくは、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることとを含む。
好ましくは、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、反復終了設定条件に達したか否かを判断することと、YESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることと、NOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すこととを含む。
ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段と、前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段と、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段とを備えるささやき声変換装置である。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
好ましくは、さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える。
好ましくは、前記初期的な認識結果取得手段は、前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果
取得サブユニットを備える。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
好ましくは、さらに、前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備える。
そこで、前記初期的な認識結果取得手段は、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備える。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
好ましくは、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、対応するフレーム画像から前記口唇領域を抽出すると
共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える。
好ましくは、前記ささやき声の音響特徴取得手段は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備え、ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。
好ましくは、前記ささやき声変換処理手段は、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える。
好ましくは、前記ささやき声変換処理手段は、コーデック処理手段を備える。前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える。
好ましくは、前記最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第1の結果特定手段とを備える。
好ましくは、前記最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、反復終了設定条件に達したか否かを判断するための反復判断手段と、前記反復判断手段による判断結果がYESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第2の結果特定手段と、前記反復判断手段による判断結果がNOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第3の結果特定手段とを備える。
プログラムが記憶されているメモリーと、前記プログラムが実行されると、前記に記載されたささやき声変換方法の各ステップが実現されるためのプロセッサーとを備えるささやき声変換デバイスである。
コンピュータプログラムが記憶されている可読記憶媒体であって、前記コンピュータプログラムがプロセッサーによって実行されると、前記に開示されたささやき声変換方法の各ステップが実現される。
前記の技術案から明らかなように、本出願の実施例に提供されるささやき声変換方法は、予めささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られるささやき声変換モデルに基づいて実現される。本出願では、ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得し、さらにささやき声の音響特徴量及び初期的な認識結果を予め作成されたささやき声変換モデルに入力させて、出力された通常音声の音響特徴量を取得するようにしている。これによって、ささやき声を変換することが可能となるため、ユーザがささやき声で会話した場合においても、相手側から伝えられてきた内容を正確に理解することができる。
本発明の実施例又は先行技術の技術案をより明確に説明するために、以下で、実施例又は先行技術を記述するのに使用される図面について簡単に説明する。以下の図面は、本発明の実施例に過ぎず、進歩性に値する労働を付することなく、この図面によって他の図面を得ることができることは、当業者にとっては明白であろう。
図1は、本出願の実施例に係るささやき声変換方法のフローチャートである。 図2は、本出願の実施例に係るささやき声の音響特徴量を取得する方法のフローチャートである。 図3は、唇形認識モデルの構造模式図を示している。 図4は、再帰型ニューラルネットワークタイプのささやき声変換モデルの構造模式図を示している。 図5は、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルの構造模式図を示している。 図6は、本出願の実施例に係るもう一つのささやき声変換方法のフローチャートである。 図7は、本出願の実施例に係る更にもう一つのささやき声変換方法のフローチャートである。 図8は、本出願の実施例に係るささやき声変換装置の構造模式図である。 図9は、本出願の実施例に係るささやき声変換デバイスのハードウェア構造ブロック図である。
以下にて、本出願の実施例における図面を参照しながら、本出願の実施例に係る技術案について明瞭かつ全体的に説明する。明らかなように、ここに記述される実施例は全ての実施例ではなく、本出願の一部分の実施例に過ぎない。本出願の実施例に基づいて、当業者が進歩性に値する労働を付することなく実施できるその他の実施例は、いずれも本出願の保護範囲に含まれるものとされている。
続いて、図1を参照しながら、本出願のささやき声変換方法について説明する。図1に示すように、この方法は以下のステップを含む。
ステップS100:ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得する。
具体的には、このステップでは、外部から入力されたささやき声データに対応するささやき声の音響特徴量を直接に入手することができるし、ささやき声データに基づいて対応するささやき声の音響特徴量を特定することもできる。
さらに、ささやき声データに対応する初期的な認識結果は、外部から入力されるものであってもよく、また、本出願のささやき声データに基づいて特定されることもできる。
しかしながら、ささやき声データに対応する初期的な認識結果の正確度はそれほど高くなく、そのまま最終的な認識結果として取り扱うことができない場合がある。
ささやき声データは、端末機器で収集可能となっている。端末機器は、スマートフォンやパソコンやタブレット端末などであってもよい。具体的に、端末機器に設けられたマイクを経由してささやき声データを収集することができる。
ステップS110:前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
つまり、ささやき声変換モデルの訓練サンプルは、ささやき声訓練データに対応するささやき声の訓練音響特徴量及びささやき声訓練データの認識結果を含んでいてもよい。一方、サンプルラベルは、ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量を含んでいる。
ここで、ささやき声訓練データと並行する通常音声データとは、ささやき声訓練データと通常音声データが、デバイスや環境、話速、気分などが同じである場合に同一の話者がそれぞれにささやき声と通常音声で話すことをいう。
ささやき声訓練データの認識結果は、手動で付加されるものであってもよく、また、ステップS100と同様に、外部から導入されたささやき声訓練データに対応する初期的な認識結果を取得して、ささやき声訓練データの認識結果とすることもできる。
本実施例では、ささやき声変換モデルは、ささやき声の音響特徴量及び初期的な認識結果に基づいて、ささやき声データに対応する通常音声の音響特徴量を予測でき、これによって、ささやき声を通常音声に変換できるため、ユーザーがささやき声で会話している場合においても、相手側から伝えられてきた内容を正確に理解することができる。
本出願の一つの実施例では、前記ステップS100においてささやき声データに対応するささやき声の音響特徴量を取得する過程について説明する。図2に示すように、この過程は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るステップS200と、フレームごとのささやき声データに対してプリエンファシス処理を行って、処理されたささやき声データを得るステップS210と、各フレームが処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するステップS220とを含む
ここで、スペクトル特徴量は、メルフィルタバンクエネルギー特徴量(LogFilter Bank
Energy)と、メル周波数ケプストラム係数特徴量(Mel Frequency Cepstrum Coefficient, MFCC)と、知覚的線形予測係数特徴量(Perceptual Linear Predictive, PLP)とのうちのいずれか1種以上を含む。
さらに、前記ステップS100においてささやき声音声データに対応する初期的な認識結果を取得する過程について説明する。本実施例には、それぞれに以下に示すような2種類の取得方式が開示されている。
第1種の方式は、ささやき声認識モデルに基づいて実現される。
本実施例においては、ささやき声音声認識モデルを予めトレーニングすることができる。このささやき声認識モデルは、通常音声認識モデルを初期モデルとして、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で、前記初期モデルをトレーニングすることによって得られる。
その中で、通常音声認識モデルは、通常音声訓練データの認識結果がマークされた通常音声訓練音響特徴量でトレーニングすることによって得られる。
本実施例では、ささやき声データの収集コストが高く、一般的に収集できたささやき声データが少ないことから、話す人や環境などの面において効果的にカバーすることはなかなか難しいため、ささやき声訓練データでカバーしきれない場合に、認識率が著しく低下してしまう点がある。これに基づいて、本出願で設計されるささやき声認識モデルは、通常音声認識モデルを適応することによって得る。具体的には、
まず、認識結果を手動で付した通常に話す時の通常音声データを大量に収集し、認識結果を手動で付したささやき声データを少量に収集する。
次に、通常音声データの通常音声の音響特徴量を抽出し、そしてささやき声データのささやき声の音響特徴量を抽出する。
続いて、通常音声の音響特徴量、及び通常音声データに手動で付した認識結果の両方で、通常音声認識モデルをトレーニングする。
最後に、訓練済みの通常音声認識モデルを初期モデルとして、ささやき声の音響特徴量、及び手動でささやき声データに付す認識結果の両方で、この初期モデルをトレーニングする。トレーニングした後、ささやき声認識モデルを得る。
トレーニングすることで得られたささやき声認識モデルに対して、本実施例では、取得されたささやき声データに対応するささやき声の音響特徴量をこのささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することができる。
また、本実施例において、ささやき声データ及び対応する認識結果のみに基づいてささやき声認識モデルをトレーニングすることもできることは理解されるべきであろう。
第2種の方式は、ささやき声認識モデル及び唇形認識モデルによって実現される。
第1種の実現方式のうえで、本実施例では、さらに唇形認識過程を組み合わせて、ささやき声データに対応する初期的な認識結果を総合的に特定する。具体的には、
本実施例では、さらにささやき声データとマーチングする唇形画像データを取得することができる。この唇形画像データは、話者がささやき声で話している時の唇形が撮られた
唇形画像である。
これに基づいて、本出願では、唇形認識モデルを予めトレーニングする。この唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
ささやき声データとマーチングする唇形画像データを前記唇形認識モデルに入力させることで、同モデルから出力された唇形認識結果を得る。
さらに好ましくは、ささやき声データとマーチングする唇形画像データを取得した後、本実施例では、さらに唇形画像データに予め処理を行うと共に、予め処理された唇形画像データを唇形認識モデルの入力とすることができる。
唇形画像に予め処理を行う過程は、以下のステップを含む。すなわち、
まず、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得る。
具体的には、口唇検知時に、物体検知技術、例えばFasterRCNNモデルなどを活用することができる。
さらに、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得する。
画像に正規化処理を施す過程中に、画像を所定のサイズ、例えば32*32ピクセル又はそ
の他のサイズに縮小することができる。この正規化処理方式には、従来の各種の画像スケーリング技術、例えば線形補間などを利用することができる。
図3を参照して、唇形認識モデルの構造模式図を示している。
予め処理された唇形画像系列をモデルの入力とする。まず、畳込み型ニューラルネットワークCNNを通過して各フレームの唇形画像の特徴表現を得る。ここで、畳込みニューラルネットワークの構造は制限されず、従来の画像識別中に常に採用されたVGG構造又は残余構造などが挙げられる。そして、再帰型ニューラルネットワークRNNを通過して唇形画像系列の特徴表現を形成し、さらにフィードフォワードニューラルネットワークFFNNを通過して出力層と接続させる。出力層は入力唇形画像系列に対応する音素系列又は音素状態系列である。
図3に示されている出力層から出力される音素系列は、「zh、ong、g、uo」である。
前記にて説明されたように唇形認識結果を取得するうえで、唇形認識結果と、ささやき声認識モデルから出力されたささやき声認識結果とを統合化し、この統合化された認識結果をささやき声データに対応する初期的な認識結果として取得する。
その中で、唇形認識結果とささやき声認識モデルから出力されたささやき声認識結果とを統合化する過程には、従来のモデル統合手法、例えばROVER法(Recognizer output
voting error reduction; 多数決による認識誤り低減法)、またはその他の統合手法が用いられている。
こうして唇形認識結果とささやき声認識結果を統合させることによって、ささやき声認識精度の向上が図れるので、特定されたささやき声データに対応する初期的な認識結果が更に正確になる。
本出願のもう一つの実施例において、前記ステップS110、即ち、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する実施過程について詳述する。
本実施例には、2種類のささやき声変換モデルが提供されている。それぞれに以下の通りである。
<第1種>
ささやき声変換モデルは再帰型ニューラルネットワークタイプである。図4には、再帰型ニューラルネットワークタイプのささやき声変換モデルの構造模式図が示されている。
入力層は2種類のデータを含み、それぞれは各フレームのささやき声の音響特徴量及び各フレームの初期的な認識結果である。図4において、初期的な認識結果について、音素系列「zh、ong、g、uo」を例に説明する。
出力層は、各フレームの通常音声の音響特徴量である。
前記ささやき声変換モデルによって、本実施例は、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させて、モデルから出力される通常音声の音響特徴量を得ることができる。
ここで、モデルに入力された初期的な認識結果は、ベクトル化された初期的な認識結果であってもよい。
<第2種>
ささやき声変換モデルは、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルである。図5には、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルの構造模式図が示されている。
入力層は2種類のデータを含み、それぞれ各フレームのささやき声の音響特徴量x1-xs
及び各フレームの初期的な認識結果である。図5において、初期的な認識結果について、音素系列「zh、ong、g、uo」を例に説明する。
各フレームのささやき声の音響特徴量をコーディング層によってコーディングして、コーディングされたささやき声の音響特徴量h を得る(ここで、i∈[1,s])。アテンション層は、コーディングされたささやき声の音響特徴量h 及び現時点tにおけるデコーディング層の隠れ層変数ht dを用いることで、現時点t、各フレームのささやき声の音響特徴量の係数ベクトルαtを求める。そして、係数ベクトルαtと各フレームのコーディングされたささやき声の音響特徴量h からなるベクトルとを乗算することで、現時点における重み付け後ささやき声の音響特徴量ctを求める。コーディングされた初
期的な認識結果、現時点における重み付け後ささやき声の音響特徴量ct及び前の時刻で
あるt-1におけるデコーディング層の出力yt−1を現時点tにおけるデコーディング層の入力とし、現時点tにおけるデコーディング層の出力ytを通常音声の音響特徴量とす
る。
前記ささやき声変換モデルに基づいて、本実施例は以下のようなステップに従ってモデルによって通常音声の音響特徴量を特定することができる。
i)前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルに入力させる;
ここで、入力モデルの初期的な認識結果は、ベクトル化された初期的な認識結果であってもよい。
ii)ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得る;
iii)ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得る;
iv)ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、現時点におけるデコーディング層の出力を通常音声の音響特徴量とする。
本出願の更にもう一つの実施例において、別種のささやき声変換方法について詳述する。図6に示すように、この方法は、以下のステップを含む。即ち、
ステップS300:ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得する。
ステップS310:前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データで付された認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
なお、本実施例におけるステップS300〜S310は、上述した実施例におけるステップS100〜S110とそれぞれに対応しているので、ここでは、具体的な説明について詳述せず、前記説明を参照すればよい。
ステップS320:前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定する。
本実施例では、通常音声の音響特徴量を取得後、さらにこの通常音声の音響特徴量に基づいて、ささやき声データの最終的な認識結果を特定する。この最終的な認識結果は、テキスト格式であってもよい。
これに加えて、本出願では、さらに通常音声の音響特徴量に基づいて、通常音声を合成して出力するか、若しくはその他の代替方式とすることができ、具体的には適用上の要求に応じて選択できることは理解されるべきであろう。
上述した実施例に比べて、本実施例には、通常音声の音響特徴量に基づいてささやき声データの最終的な認識結果を特定する過程が追加された。この最終的な認識結果は、記憶や記録などの用途として利用されうる。
好ましくは、本実施例では、ステップS320において通常音声の音響特徴量に基づいて最終的な認識結果を特定した後、この最終的な認識結果を、上述した実施例において説明した唇形認識モデルから出力された唇形認識結果と統合させ、この統合結果を更新後の最終的な認識結果とすることができ、ことによって、最終的な認識結果の精度をさらに向上することが可能である。
本出願の更にもう一つの実施例において、前記ステップS320、即ち前記通常音声の音響特徴量に基づいて前記ささやき声データの最終的な認識結果を特定するための2つの選択可能な実施形態について説明する。
<第1種>
i)前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得る;
ii)前記通常音声認識結果を前記ささやき声データの最終的な認識結果とする。
ここで、通常音声認識モデルについて、前記説明を参照すればよい。この実施形態においては、通常音声認識モデルから出力された通常音声認識結果をそのまま最終的な認識結果としている。
<第2種>
理解の便宜上、本実施例では、ささやき声変換方法の全工程を参照しながら、前記ステップS320の過程について解説する。
図7を参照して、図7は、本出願の実施例に係る更にもう一つのささやき声変換方法のフローチャートである。図7に示すように、この方法は以下のステップを含む。すなわち、
ステップS400:ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を得る。
ステップS410:前記ささやき声音響特徴及び前記初期的な認識結果を予め作成されたささやき声認識モデルに入力させ、出力された通常音声の音響特徴量を得る。
なお、本実施例におけるステップS400〜S410は、上述した実施例におけるステップS100〜S110とそれぞれに対応しているので、ここでは、具体的な説明について詳述せず、前記説明を参照すればよい。
ステップS420:前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得る。
ステップS430:反復終了設定条件に達したか否かを判断する;YESであれば、下記のステップS440を実行する。NOであれば、下記のステップS450を実行する。
ステップS440:前記通常音声認識結果を前記ささやき声データの最終的な認識結果とする。
ステップS450:前記通常音声認識結果を前記初期的な認識結果とするとともに、ステップS410に戻る。
第1種の実施形態に比べて、この実施形態においては、ささやき声変換モデルによる反復過程が追加され、即ち通常音声認識モデルから出力された通常音声認識結果をさらに初期的な認識結果とし、その後、反復終了設定条件に達するまでささやき声変換モデルに入力させて反復を行う。
反復終了設定条件としては、例えばささやき声変換モデルの反復回数が回数閾値に達したとか、反復時間が時間閾値に達したとか、または、通常音声認識結果の信頼度収束状況が設定された収束条件に達したなど、複数種の条件が挙げられることは理解されるべきであろう。
具体的な回数閾値、時間閾値は、実際の作業中に求められるシステム応答時間とコンピューティングリソースにより決定される。
もちろん、反復回数が多くなるほど、得られる最終的な認識結果の精度が高いが、消費される時間やコンピューティングリソースも多くなることは理解されるべきであろう。
以下にて、本出願の実施例に提供されるささやき声変換装置について詳述する。以下に記載されるささやき声変換装置と前記ささやき声変換方法は相互参照することができる。
図8を参照して、図8は、本出願の実施例に係るささやき声変換装置の構造模式図である。図8に示すように、この装置は、ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段11と、前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段12と、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段13とを備える。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
好ましくは、前記初期的な認識結果取得手段は、前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果
取得サブユニットを備える。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。
好ましくは、本出願の装置は、さらに、前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備える。
そこで、前記初期的な認識結果取得手段は、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備える。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。
好ましくは、本出願に係る装置は、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える。
好ましくは、前記ささやき声の音響特徴取得手段は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備える。ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。
好ましくは、本実施例は、ささやき声変換処理手段の2つの選択可能な構造を開示している。
一つ目は、ささやき声変換処理手段は、前記ささやき声の音響特徴量及び前記初期的な
認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、こうしてモデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える。
二つ目は、ささやき声変換処理手段は、コーデック処理手段を備える。前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える。
好ましくは、本出願に係る装置は、さらに、前記通常音声の音響特徴量に基づいて前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える。
好ましくは、本実施例は、最終的な認識結果特定手段の2つの選択可能な構造を開示している。
一つ目は、最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第1の結果特定手段とを備える。
二つ目は、最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、反復終了設定条件に達したか否かを判断するための反復判断手段と、前記反復判断手段による判断結果がYESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第2の結果特定手段と、前記反復判断手段による判断結果がNOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第3の結果特定手段とを備える。
本出願の実施例に提供されるささやき声変換装置はささやき声変換デバイス、例えばPC端末や、クラウドプラットフォーム、サーバー及びサーバークラスタなどに使用されうる。好ましくは、図9は、本出願の実施例に係るささやき声変換デバイスのハードウェア構造ブロック図を示している。図9を参照して、ささやき声変換デバイスのハードウェア構造は、少なくとも1つのプロセッサー1と、少なくとも1つの通信用インターフェース2と、少なくとも1つのメモリー3と少なくとも1つの通信バス4とを含んでいてもよい。
本出願の実施例では、プロセッサー1、通信用インターフェース2、メモリー3、通信バス4の数が少なくとも1本であって、かつプロセッサー1、通信用インターフェース2、メモリー3同士間の通信は通信バス4を介して行われる。
プロセッサー1は1つの中央処理装置CPU、または特定の集積回路ASIC(Application Specific Integrated Circuit)であるか、若しくは、本発明の実施例を実施するた
めの1つまたは複数の集積回路などに配置されている。
メモリー3は、高速RAMメモリーを含んでもよいし、さらに非揮発性メモリー(non-volatile memory)など、例えば少なくとも1つの磁気ディスクメモリーを含んでもよい
その中で、メモリーにはプログラムが記憶されている。プロセッサーはメモリーに記憶されたプログラムを始動させることができる。前記プログラムは、ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することに用いられる。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
好ましくは、前記プログラムの詳細な機能及び拡張機能については、前記説明を参照すればよい。
本出願の実施例は、さらに、プロセッサーによって実行されるプログラムを記憶できる記憶媒体を提供している。
前記プログラムは、ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することに用いられる。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。
好ましくは、前記プログラムの詳細な機能及び拡張機能については、前記説明を参照すればよい。
最後に、本文では、例えば第1、第2などの関係を示す術語は、1つの本体または操作を別の本体または操作から区分するために使われるだけであって、必ずしもこれらの本体または操作の間にはこのような実際の関係または順序があることを要求または意味しているとは限らない。しかも、「備える」、「含む」などの術語は、非排他的な包含関係を意味し、これによって一連の要素を含む過程や方法、物体または機器はそれらの要素のみならず、さらに明示されていないその他の要素を含むか、或いはこのような過程や方法、物体又は機器に備わる固有の要素をも含む。特別な制限がない場合に、「……を含む」という語句によって限定される要素について、前記要素を含む過程や方法、物体または機器の中には別の同じ要素が更に存在している状況は除外されない。
本明細書における各実施例は、プログレッシブな方式で記述されている。各実施例において主に強調する点は、その他の実施例との相違点であり、各実施例の間の同一又は類似する部分は、互いに参照すれば理解できる。
前記に開示された実施例に対する前記説明に基づいて、当業者は本発明を実現又は実施することができる。これらの実施例に対する様々な変更は、当業者には明白であろう。本文で定義される一般的な原理は、本発明の範囲及び趣旨から逸脱しない限り、その他の実施例によって実現されうる。したがって、本発明は、本文で示されるこれらの実施例に限定されず、本文が開示する原理及び新規性と一致する最も広範囲の要件を満足すべきである。

Claims (22)

  1. ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、
    前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含み、
    ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる、ことを特徴とするささやき声変換方法。
  2. さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することを含む、請求項1に記載の方法。
  3. 前記ささやき声データに対応する初期的な認識結果を取得することは、
    前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することを含み、
    ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で、前記初期モデルをトレーニングすることによって得られる、請求項1に記載の方法。
  4. さらに、前記ささやき声データとマーチングする唇形画像データを取得することを含み、
    そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、
    前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、
    前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含み、
    ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項3に記載の方法。
  5. さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得ることと、
    対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得することを含む、請求項4に記載の方法。
  6. 前記ささやき声データに対応するささやき声の音響特徴量を取得することは、
    前記ささやき声データをフレーム化して、複数フレームのささやき声データを得ることと、
    フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得ることと、
    各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出することとを含み、
    ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
    含む、請求項1に記載の方法。
  7. 前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
    前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得ることを含む、請求項1に記載の方法。
  8. 前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
    前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
    ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
    前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
    ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることを含む、請求項1に記載の方法。
  9. 前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
    前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
    前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることとを含む、請求項2に記載の方法。
  10. 前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
    前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
    反復終了設定条件に達したか否かを判断することと、
    YESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることと、
    NOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すこととを含む、請求項2に記載の方法。
  11. ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段と、
    前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段と、
    前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段とを備え、
    ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングするこ
    とによって得られる、ことを特徴とするささやき声変換装置。
  12. さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える、請求項11に記載の装置。
  13. 前記初期的な認識結果取得手段は、
    前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果取得サブユニットを備え、
    ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる、請求項11に記載の装置。
  14. 前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備え、
    そこで、前記初期的な認識結果取得手段は、さらに、
    前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第2の初期的な認識結果取得サブユニットと、
    前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第3の初期的な認識結果取得サブユニットとを備え、
    ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項13に記載の装置。
  15. さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、
    対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える、請求項14に記載の装置。
  16. 前記ささやき声の音響特徴取得手段は、
    前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、
    フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、
    各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備え、
    ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
    含む、請求項11に記載の装置。
  17. 前記ささやき声変換処理手段は、
    前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える、請求項11に記載の装置。
  18. 前記ささやき声変換処理手段は、コーデック処理手段を備え、
    前記コーデック処理手段は、
    前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第1のコーデック処
    理サブユニットと、
    ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第2のコーデック処理サブユニットと、
    前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第3のコーデック処理サブユニットと、
    ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第4のコーデック処理サブユニットとを備える、請求項11に記載の装置。
  19. 前記最終的な認識結果特定手段は、
    前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
    前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第1の結果特定手段とを備える、請求項12に記載の装置。
  20. 前記最終的な認識結果特定手段は、
    前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
    反復終了設定条件に達したか否かを判断するための反復判断手段と、
    前記反復判断手段による判断結果がYESであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第2の結果特定手段と、
    前記反復判断手段による判断結果がNOであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第3の結果特定手段とを備える、請求項12に記載の装置。
  21. プログラムが記憶されているメモリーと、
    前記プログラムが実行されると、請求項1〜10のいずれか1項に記載のささやき声変換方法の各ステップが実現されるためのプロセッサーとを備える、ことを特徴とするささやき声変換デバイス。
  22. コンピュータプログラムが記憶されている可読記憶媒体であって、
    前記コンピュータプログラムがプロセッサーによって実行されると、請求項1〜10のいずれか1項に記載のささやき声変換方法の各ステップが実現される、ことを特徴とする可読記憶媒体。
JP2019519686A 2018-04-12 2018-06-15 ささやき声変換方法、装置、デバイス及び可読記憶媒体 Active JP6903129B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810325696.3A CN108520741B (zh) 2018-04-12 2018-04-12 一种耳语音恢复方法、装置、设备及可读存储介质
CN201810325696.3 2018-04-12
PCT/CN2018/091460 WO2019196196A1 (zh) 2018-04-12 2018-06-15 一种耳语音恢复方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
JP2020515877A true JP2020515877A (ja) 2020-05-28
JP6903129B2 JP6903129B2 (ja) 2021-07-14

Family

ID=63432257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019519686A Active JP6903129B2 (ja) 2018-04-12 2018-06-15 ささやき声変換方法、装置、デバイス及び可読記憶媒体

Country Status (4)

Country Link
US (1) US11508366B2 (ja)
JP (1) JP6903129B2 (ja)
CN (1) CN108520741B (ja)
WO (1) WO2019196196A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021081527A (ja) * 2019-11-15 2021-05-27 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
WO2023210149A1 (ja) * 2022-04-26 2023-11-02 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
WO2020060311A1 (en) * 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110211568A (zh) * 2019-06-03 2019-09-06 北京大牛儿科技发展有限公司 一种语音识别方法及装置
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
CN110444053B (zh) * 2019-07-04 2021-11-30 卓尔智联(武汉)研究院有限公司 语言学习方法、计算机装置及可读存储介质
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
CN111916095B (zh) * 2020-08-04 2022-05-17 北京字节跳动网络技术有限公司 语音增强方法、装置、存储介质及电子设备
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN112365884A (zh) * 2020-11-10 2021-02-12 珠海格力电器股份有限公司 耳语的识别方法和装置、存储介质、电子装置
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112562686B (zh) * 2020-12-10 2022-07-15 青海民族大学 一种使用神经网络的零样本语音转换语料预处理方法
CN113066485B (zh) * 2021-03-25 2024-05-17 支付宝(杭州)信息技术有限公司 一种语音数据处理方法、装置及设备
CN112927682B (zh) * 2021-04-16 2024-04-16 西安交通大学 一种基于深度神经网络声学模型的语音识别方法及系统
CN115294970B (zh) * 2022-10-09 2023-03-24 苏州大学 针对病理嗓音的语音转换方法、装置和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006119647A (ja) * 2005-09-16 2006-05-11 Yasuto Takeuchi ささやき声を通常の有声音声に擬似的に変換する装置
CN101527141A (zh) * 2009-03-10 2009-09-09 苏州大学 基于径向基神经网络的耳语音转换为正常语音的方法
US20110071830A1 (en) * 2009-09-22 2011-03-24 Hyundai Motor Company Combined lip reading and voice recognition multimodal interface system
JP2016186516A (ja) * 2015-03-27 2016-10-27 日本電信電話株式会社 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP2016186515A (ja) * 2015-03-27 2016-10-27 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317716B1 (en) * 1997-09-19 2001-11-13 Massachusetts Institute Of Technology Automatic cueing of speech
CN1095580C (zh) * 1998-04-18 2002-12-04 茹家佑 聋哑人语音学习、对话方法中使用的语音同步反馈装置
US6594632B1 (en) * 1998-11-02 2003-07-15 Ncr Corporation Methods and apparatus for hands-free operation of a voice recognition system
CN101154385A (zh) * 2006-09-28 2008-04-02 北京远大超人机器人科技有限公司 机器人语音动作的控制方法及其所采用的控制系统
JP4264841B2 (ja) * 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
US20080261576A1 (en) * 2007-04-20 2008-10-23 Alcatel Lucent Communication system for oil and gas platforms
US8386252B2 (en) 2010-05-17 2013-02-26 Avaya Inc. Estimating a listener's ability to understand a speaker, based on comparisons of their styles of speech
KR20160009344A (ko) * 2014-07-16 2016-01-26 삼성전자주식회사 귓속말 인식 방법 및 장치
CN104484656A (zh) * 2014-12-26 2015-04-01 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形模型库构建方法
CN104537358A (zh) * 2014-12-26 2015-04-22 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形训练数据库的生成方法
US9867012B2 (en) * 2015-06-03 2018-01-09 Dsp Group Ltd. Whispered speech detection
CN107452381B (zh) * 2016-05-30 2020-12-29 中国移动通信有限公司研究院 一种多媒体语音识别装置及方法
CN106571135B (zh) * 2016-10-27 2020-06-09 苏州大学 一种耳语音特征提取方法及系统
US10665243B1 (en) * 2016-11-11 2020-05-26 Facebook Technologies, Llc Subvocalized speech recognition
CN106847271A (zh) * 2016-12-12 2017-06-13 北京光年无限科技有限公司 一种用于对话交互系统的数据处理方法及装置
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107665705B (zh) * 2017-09-20 2020-04-21 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN107680597B (zh) * 2017-10-23 2019-07-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
US10529355B2 (en) * 2017-12-19 2020-01-07 International Business Machines Corporation Production of speech based on whispered speech and silent speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006119647A (ja) * 2005-09-16 2006-05-11 Yasuto Takeuchi ささやき声を通常の有声音声に擬似的に変換する装置
CN101527141A (zh) * 2009-03-10 2009-09-09 苏州大学 基于径向基神经网络的耳语音转换为正常语音的方法
US20110071830A1 (en) * 2009-09-22 2011-03-24 Hyundai Motor Company Combined lip reading and voice recognition multimodal interface system
JP2016186516A (ja) * 2015-03-27 2016-10-27 日本電信電話株式会社 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP2016186515A (ja) * 2015-03-27 2016-10-27 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GHAFFARZADEGAN, S., ET AL.: "Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition", ICASSP 2015, JPN6020023277, 19 April 2015 (2015-04-19), pages 5024 - 5028, XP033187717, ISSN: 0004298065, DOI: 10.1109/ICASSP.2015.7178927 *
MADIKERI, S. R., ET AL.: "Mel Filter Bank Energy-Based Slope Feature and Its Application to Speaker Recognition", 2011 NATIONAL CONFERENCE ON COMMUNICATIONS, JPN6020023279, 28 January 2011 (2011-01-28), ISSN: 0004298067 *
OLAH, C., ET AL.: "Attention and Augmented Recurrent Neural Networks", [ONLINE], JPN7020001849, 8 September 2016 (2016-09-08), ISSN: 0004298068 *
TAO, F., ET AL.: "Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection", INTERSPEECH 2017, JPN7020001848, 20 August 2017 (2017-08-20), pages 1938 - 1942, XP055972570, ISSN: 0004298066, DOI: 10.21437/Interspeech.2017-1573 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021081527A (ja) * 2019-11-15 2021-05-27 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
WO2023210149A1 (ja) * 2022-04-26 2023-11-02 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Also Published As

Publication number Publication date
CN108520741A (zh) 2018-09-11
US11508366B2 (en) 2022-11-22
WO2019196196A1 (zh) 2019-10-17
JP6903129B2 (ja) 2021-07-14
US20200211550A1 (en) 2020-07-02
CN108520741B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
JP6903129B2 (ja) ささやき声変換方法、装置、デバイス及び可読記憶媒体
Akbari et al. Lip2audspec: Speech reconstruction from silent lip movements video
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
US11875775B2 (en) Voice conversion system and training method therefor
CN110570853A (zh) 基于语音数据的意图识别方法和装置
US8160875B2 (en) System and method for improving robustness of speech recognition using vocal tract length normalization codebooks
CN113643693B (zh) 以声音特征为条件的声学模型
CN113330511B (zh) 语音识别方法、装置、存储介质及电子设备
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
CN111883135A (zh) 语音转写方法、装置和电子设备
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
CN111640456A (zh) 叠音检测方法、装置和设备
Gupta et al. Speech feature extraction and recognition using genetic algorithm
CN111667834B (zh) 一种助听设备及助听方法
CN111199160A (zh) 即时通话语音的翻译方法、装置以及终端
Mirishkar et al. CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection
CN113658596A (zh) 语意辨识方法与语意辨识装置
CN116597858A (zh) 语音口型匹配方法、装置、存储介质及电子设备
Barnard et al. Real-world speech recognition with neural networks
CN115472174A (zh) 声音降噪方法和装置、电子设备和存储介质
JP7291099B2 (ja) 音声認識方法及び装置
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Marković et al. Application of DTW method for whispered speech recognition
CN112151070B (zh) 一种语音检测的方法、装置及电子设备
CN115547300A (zh) 语音识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190704

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210622

R150 Certificate of patent or registration of utility model

Ref document number: 6903129

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150