JP2020515877A

JP2020515877A - ささやき声変換方法、装置、デバイス及び可読記憶媒体

Info

Publication number: JP2020515877A
Application number: JP2019519686A
Authority: JP
Inventors: パン，ジャ; リウ，コン; ワン，ハイクン; ワン，チグォ; フー，グォピン
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-04-12
Filing date: 2018-06-15
Publication date: 2020-05-28
Anticipated expiration: 2038-06-15
Also published as: CN108520741A; US11508366B2; WO2019196196A1; JP6903129B2; US20200211550A1; CN108520741B

Abstract

本出願は、予めささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られるささやき声変換モデルに基づいて実現される、ささやき声変換方法、装置、デバイス及び可読記憶媒体を開示している。本出願では、ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得し、さらにささやき声の音響特徴量及び初期的な認識結果を予め作成されたささやき声変換モデルに入力させて、出力された通常音声の音響特徴量を取得するようにしており、これによって、ささやき声を変換することが可能となる。【選択図】図１

Description

本出願は、２０１８年４月１２日に中国専利局で出願された、出願番号が２０１８１０３２５６９６.３であって、発明の名称が「ささやき声変換方法、装置、デバイス及び可
読記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容は援用により本出願に組み込まれる。

音声認識は、機械学習手法によって機械にて音声から対応するテキストを自動的に変換させ、これで人間の聴覚のような機能をロボットに与える技術であって、人工知能の重要な構成部分とされている。人工知能技術の急速な進化や、各種のスマート端末機器の日々普及につれて、音声認識技術はヒューマン・コンピュータ・インタラクションにおける重要な一環として、各種のスマート端末に幅広く利用されてきて、ますます多くの人は音声で入力するようになってきた。

音声は、通常音声とささやき声に分けられている。その中で、ささやき声とは、ユーザが内緒話をする時の音声であるのに対して、通常音声とは、ユーザが正常に話す時の音声である。通常音声とささやき声との発音方式が異なる。具体的に、通常音声が出されると、人の声帯は規則的かつ周期的な振動を呈しており、このような振動周波数は基本周波数と呼ばれる。一方、ささやき声で話した場合、声帯の振動は目立たず、不規則的かつランダムな振動を呈しており、即ち基本周波数がないものとされる。そこで、ささやき声の音量を無理やりに上げたとしても、通常音声と同じものにもならない。

しかしながら、会議中やプライベートな会話などの場合は、音声入力機能を正常に使用したら不便になるため、多くの話者は小さな声で囁くことにしている。だが、こうしたら、話者の話を機械で精度よく認識できない問題が起こりうる。また、多くの失声患者の発音がささやき声に近い。そこで、従来より、ささやき声を通常音声に変換する技術の提案が求められるようになってきた。

これに鑑みて、本出願は、ささやき声データの変換を精度よく実現できるささやき声変換方法、装置、デバイス及び可読記憶媒体を提供している。

前記目的を達成するために、以下のような技術案を提供している。

ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含むささやき声変換方法である。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。

好ましくは、さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することを含む。

好ましくは、前記ささやき声データに対応する初期的な認識結果を取得することは、前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することを含む。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。

好ましくは、さらに、前記ささやき声データとマーチングする唇形画像データを取得することを含む。
そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含む。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。

好ましくは、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得ることと、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得することを含む。

好ましくは、前記ささやき声データに対応するささやき声の音響特徴量を取得することは、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得ることと、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得ることと、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出することとを含む。ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。

好ましくは、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得ることを含む。

好ましくは、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な
認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることとを含む。

好ましくは、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることとを含む。

好ましくは、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、反復終了設定条件に達したか否かを判断することと、ＹＥＳであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることと、ＮＯであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すこととを含む。

ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段と、前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段と、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段とを備えるささやき声変換装置である。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。

好ましくは、さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える。

好ましくは、前記初期的な認識結果取得手段は、前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果
取得サブユニットを備える。
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる。

好ましくは、さらに、前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備える。
そこで、前記初期的な認識結果取得手段は、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第２の初期的な認識結果取得サブユニットと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第３の初期的な認識結果取得サブユニットとを備える。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。

好ましくは、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、対応するフレーム画像から前記口唇領域を抽出すると
共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える。

好ましくは、前記ささやき声の音響特徴取得手段は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備え、ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。

好ましくは、前記ささやき声変換処理手段は、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える。

好ましくは、前記ささやき声変換処理手段は、コーデック処理手段を備える。前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第１のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第２のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第３のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第４のコーデック処理サブユニットとを備える。

好ましくは、前記最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第１の結果特定手段とを備える。

好ましくは、前記最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、反復終了設定条件に達したか否かを判断するための反復判断手段と、前記反復判断手段による判断結果がＹＥＳであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第２の結果特定手段と、前記反復判断手段による判断結果がＮＯであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第３の結果特定手段とを備える。

プログラムが記憶されているメモリーと、前記プログラムが実行されると、前記に記載されたささやき声変換方法の各ステップが実現されるためのプロセッサーとを備えるささやき声変換デバイスである。

コンピュータプログラムが記憶されている可読記憶媒体であって、前記コンピュータプログラムがプロセッサーによって実行されると、前記に開示されたささやき声変換方法の各ステップが実現される。

前記の技術案から明らかなように、本出願の実施例に提供されるささやき声変換方法は、予めささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られるささやき声変換モデルに基づいて実現される。本出願では、ささやき声データに対応するささやき声の音響特徴量及び前記ささやき声データに対応する初期的な認識結果を取得し、さらにささやき声の音響特徴量及び初期的な認識結果を予め作成されたささやき声変換モデルに入力させて、出力された通常音声の音響特徴量を取得するようにしている。これによって、ささやき声を変換することが可能となるため、ユーザがささやき声で会話した場合においても、相手側から伝えられてきた内容を正確に理解することができる。

本発明の実施例又は先行技術の技術案をより明確に説明するために、以下で、実施例又は先行技術を記述するのに使用される図面について簡単に説明する。以下の図面は、本発明の実施例に過ぎず、進歩性に値する労働を付することなく、この図面によって他の図面を得ることができることは、当業者にとっては明白であろう。

図１は、本出願の実施例に係るささやき声変換方法のフローチャートである。図２は、本出願の実施例に係るささやき声の音響特徴量を取得する方法のフローチャートである。図３は、唇形認識モデルの構造模式図を示している。図４は、再帰型ニューラルネットワークタイプのささやき声変換モデルの構造模式図を示している。図５は、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルの構造模式図を示している。図６は、本出願の実施例に係るもう一つのささやき声変換方法のフローチャートである。図７は、本出願の実施例に係る更にもう一つのささやき声変換方法のフローチャートである。図８は、本出願の実施例に係るささやき声変換装置の構造模式図である。図９は、本出願の実施例に係るささやき声変換デバイスのハードウェア構造ブロック図である。

以下にて、本出願の実施例における図面を参照しながら、本出願の実施例に係る技術案について明瞭かつ全体的に説明する。明らかなように、ここに記述される実施例は全ての実施例ではなく、本出願の一部分の実施例に過ぎない。本出願の実施例に基づいて、当業者が進歩性に値する労働を付することなく実施できるその他の実施例は、いずれも本出願の保護範囲に含まれるものとされている。

続いて、図１を参照しながら、本出願のささやき声変換方法について説明する。図１に示すように、この方法は以下のステップを含む。

ステップＳ１００：ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得する。

具体的には、このステップでは、外部から入力されたささやき声データに対応するささやき声の音響特徴量を直接に入手することができるし、ささやき声データに基づいて対応するささやき声の音響特徴量を特定することもできる。

さらに、ささやき声データに対応する初期的な認識結果は、外部から入力されるものであってもよく、また、本出願のささやき声データに基づいて特定されることもできる。

しかしながら、ささやき声データに対応する初期的な認識結果の正確度はそれほど高くなく、そのまま最終的な認識結果として取り扱うことができない場合がある。

ささやき声データは、端末機器で収集可能となっている。端末機器は、スマートフォンやパソコンやタブレット端末などであってもよい。具体的に、端末機器に設けられたマイクを経由してささやき声データを収集することができる。

ステップＳ１１０：前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する。

ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。

つまり、ささやき声変換モデルの訓練サンプルは、ささやき声訓練データに対応するささやき声の訓練音響特徴量及びささやき声訓練データの認識結果を含んでいてもよい。一方、サンプルラベルは、ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量を含んでいる。

ここで、ささやき声訓練データと並行する通常音声データとは、ささやき声訓練データと通常音声データが、デバイスや環境、話速、気分などが同じである場合に同一の話者がそれぞれにささやき声と通常音声で話すことをいう。

ささやき声訓練データの認識結果は、手動で付加されるものであってもよく、また、ステップＳ１００と同様に、外部から導入されたささやき声訓練データに対応する初期的な認識結果を取得して、ささやき声訓練データの認識結果とすることもできる。

本実施例では、ささやき声変換モデルは、ささやき声の音響特徴量及び初期的な認識結果に基づいて、ささやき声データに対応する通常音声の音響特徴量を予測でき、これによって、ささやき声を通常音声に変換できるため、ユーザーがささやき声で会話している場合においても、相手側から伝えられてきた内容を正確に理解することができる。

本出願の一つの実施例では、前記ステップＳ１００においてささやき声データに対応するささやき声の音響特徴量を取得する過程について説明する。図２に示すように、この過程は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るステップＳ２００と、フレームごとのささやき声データに対してプリエンファシス処理を行って、処理されたささやき声データを得るステップＳ２１０と、各フレームが処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するステップＳ２２０とを含む
。

ここで、スペクトル特徴量は、メルフィルタバンクエネルギー特徴量（LogFilter Bank
Energy）と、メル周波数ケプストラム係数特徴量(Mel Frequency Cepstrum Coefficient, MFCC)と、知覚的線形予測係数特徴量(Perceptual Linear Predictive, PLP)とのうちのいずれか1種以上を含む。

さらに、前記ステップＳ１００においてささやき声音声データに対応する初期的な認識結果を取得する過程について説明する。本実施例には、それぞれに以下に示すような２種類の取得方式が開示されている。

第１種の方式は、ささやき声認識モデルに基づいて実現される。

本実施例においては、ささやき声音声認識モデルを予めトレーニングすることができる。このささやき声認識モデルは、通常音声認識モデルを初期モデルとして、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で、前記初期モデルをトレーニングすることによって得られる。

その中で、通常音声認識モデルは、通常音声訓練データの認識結果がマークされた通常音声訓練音響特徴量でトレーニングすることによって得られる。

本実施例では、ささやき声データの収集コストが高く、一般的に収集できたささやき声データが少ないことから、話す人や環境などの面において効果的にカバーすることはなかなか難しいため、ささやき声訓練データでカバーしきれない場合に、認識率が著しく低下してしまう点がある。これに基づいて、本出願で設計されるささやき声認識モデルは、通常音声認識モデルを適応することによって得る。具体的には、
まず、認識結果を手動で付した通常に話す時の通常音声データを大量に収集し、認識結果を手動で付したささやき声データを少量に収集する。
次に、通常音声データの通常音声の音響特徴量を抽出し、そしてささやき声データのささやき声の音響特徴量を抽出する。
続いて、通常音声の音響特徴量、及び通常音声データに手動で付した認識結果の両方で、通常音声認識モデルをトレーニングする。
最後に、訓練済みの通常音声認識モデルを初期モデルとして、ささやき声の音響特徴量、及び手動でささやき声データに付す認識結果の両方で、この初期モデルをトレーニングする。トレーニングした後、ささやき声認識モデルを得る。

トレーニングすることで得られたささやき声認識モデルに対して、本実施例では、取得されたささやき声データに対応するささやき声の音響特徴量をこのささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することができる。

また、本実施例において、ささやき声データ及び対応する認識結果のみに基づいてささやき声認識モデルをトレーニングすることもできることは理解されるべきであろう。

第２種の方式は、ささやき声認識モデル及び唇形認識モデルによって実現される。

第１種の実現方式のうえで、本実施例では、さらに唇形認識過程を組み合わせて、ささやき声データに対応する初期的な認識結果を総合的に特定する。具体的には、
本実施例では、さらにささやき声データとマーチングする唇形画像データを取得することができる。この唇形画像データは、話者がささやき声で話している時の唇形が撮られた
唇形画像である。

これに基づいて、本出願では、唇形認識モデルを予めトレーニングする。この唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。

ささやき声データとマーチングする唇形画像データを前記唇形認識モデルに入力させることで、同モデルから出力された唇形認識結果を得る。

さらに好ましくは、ささやき声データとマーチングする唇形画像データを取得した後、本実施例では、さらに唇形画像データに予め処理を行うと共に、予め処理された唇形画像データを唇形認識モデルの入力とすることができる。

唇形画像に予め処理を行う過程は、以下のステップを含む。すなわち、
まず、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得る。
具体的には、口唇検知時に、物体検知技術、例えばＦａｓｔｅｒＲＣＮＮモデルなどを活用することができる。
さらに、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得する。

画像に正規化処理を施す過程中に、画像を所定のサイズ、例えば32*32ピクセル又はそ
の他のサイズに縮小することができる。この正規化処理方式には、従来の各種の画像スケーリング技術、例えば線形補間などを利用することができる。

図３を参照して、唇形認識モデルの構造模式図を示している。

予め処理された唇形画像系列をモデルの入力とする。まず、畳込み型ニューラルネットワークＣＮＮを通過して各フレームの唇形画像の特徴表現を得る。ここで、畳込みニューラルネットワークの構造は制限されず、従来の画像識別中に常に採用されたＶＧＧ構造又は残余構造などが挙げられる。そして、再帰型ニューラルネットワークＲＮＮを通過して唇形画像系列の特徴表現を形成し、さらにフィードフォワードニューラルネットワークＦＦＮＮを通過して出力層と接続させる。出力層は入力唇形画像系列に対応する音素系列又は音素状態系列である。

図３に示されている出力層から出力される音素系列は、「ｚｈ、ｏｎｇ、ｇ、ｕｏ」である。

前記にて説明されたように唇形認識結果を取得するうえで、唇形認識結果と、ささやき声認識モデルから出力されたささやき声認識結果とを統合化し、この統合化された認識結果をささやき声データに対応する初期的な認識結果として取得する。

その中で、唇形認識結果とささやき声認識モデルから出力されたささやき声認識結果とを統合化する過程には、従来のモデル統合手法、例えばＲＯＶＥＲ法(Recognizer output
voting error reduction; 多数決による認識誤り低減法)、またはその他の統合手法が用いられている。

こうして唇形認識結果とささやき声認識結果を統合させることによって、ささやき声認識精度の向上が図れるので、特定されたささやき声データに対応する初期的な認識結果が更に正確になる。

本出願のもう一つの実施例において、前記ステップＳ１１０、即ち、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する実施過程について詳述する。

本実施例には、２種類のささやき声変換モデルが提供されている。それぞれに以下の通りである。

＜第１種＞
ささやき声変換モデルは再帰型ニューラルネットワークタイプである。図４には、再帰型ニューラルネットワークタイプのささやき声変換モデルの構造模式図が示されている。

入力層は２種類のデータを含み、それぞれは各フレームのささやき声の音響特徴量及び各フレームの初期的な認識結果である。図４において、初期的な認識結果について、音素系列「ｚｈ、ｏｎｇ、ｇ、ｕｏ」を例に説明する。

出力層は、各フレームの通常音声の音響特徴量である。

前記ささやき声変換モデルによって、本実施例は、前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させて、モデルから出力される通常音声の音響特徴量を得ることができる。
ここで、モデルに入力された初期的な認識結果は、ベクトル化された初期的な認識結果であってもよい。

＜第２種＞
ささやき声変換モデルは、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルである。図５には、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルの構造模式図が示されている。

入力層は２種類のデータを含み、それぞれ各フレームのささやき声の音響特徴量x₁-x_s
及び各フレームの初期的な認識結果である。図５において、初期的な認識結果について、音素系列「ｚｈ、ｏｎｇ、ｇ、ｕｏ」を例に説明する。

各フレームのささやき声の音響特徴量をコーディング層によってコーディングして、コーディングされたささやき声の音響特徴量ｈ_ｉ ^ｅを得る（ここで、ｉ∈［１，ｓ］）。アテンション層は、コーディングされたささやき声の音響特徴量ｈ_ｉ ^ｅ及び現時点ｔにおけるデコーディング層の隠れ層変数ｈ_t ^dを用いることで、現時点ｔ、各フレームのささやき声の音響特徴量の係数ベクトルα_tを求める。そして、係数ベクトルα_tと各フレームのコーディングされたささやき声の音響特徴量ｈ_ｉ ^ｅからなるベクトルとを乗算することで、現時点における重み付け後ささやき声の音響特徴量ｃ_tを求める。コーディングされた初
期的な認識結果、現時点における重み付け後ささやき声の音響特徴量ｃ_t及び前の時刻で
あるｔ-１におけるデコーディング層の出力ｙ_t−１を現時点ｔにおけるデコーディング層の入力とし、現時点ｔにおけるデコーディング層の出力ｙ_tを通常音声の音響特徴量とす
る。

前記ささやき声変換モデルに基づいて、本実施例は以下のようなステップに従ってモデルによって通常音声の音響特徴量を特定することができる。
ｉ）前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルに入力させる；
ここで、入力モデルの初期的な認識結果は、ベクトル化された初期的な認識結果であってもよい。
ｉｉ）ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得る；
ｉｉｉ）ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得る；
ｉｖ）ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、現時点におけるデコーディング層の出力を通常音声の音響特徴量とする。

本出願の更にもう一つの実施例において、別種のささやき声変換方法について詳述する。図６に示すように、この方法は、以下のステップを含む。即ち、
ステップＳ３００：ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得する。
ステップＳ３１０：前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得する。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データで付された認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。

なお、本実施例におけるステップＳ３００〜Ｓ３１０は、上述した実施例におけるステップＳ１００〜Ｓ１１０とそれぞれに対応しているので、ここでは、具体的な説明について詳述せず、前記説明を参照すればよい。

ステップＳ３２０：前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定する。

本実施例では、通常音声の音響特徴量を取得後、さらにこの通常音声の音響特徴量に基づいて、ささやき声データの最終的な認識結果を特定する。この最終的な認識結果は、テキスト格式であってもよい。

これに加えて、本出願では、さらに通常音声の音響特徴量に基づいて、通常音声を合成して出力するか、若しくはその他の代替方式とすることができ、具体的には適用上の要求に応じて選択できることは理解されるべきであろう。

上述した実施例に比べて、本実施例には、通常音声の音響特徴量に基づいてささやき声データの最終的な認識結果を特定する過程が追加された。この最終的な認識結果は、記憶や記録などの用途として利用されうる。

好ましくは、本実施例では、ステップＳ３２０において通常音声の音響特徴量に基づいて最終的な認識結果を特定した後、この最終的な認識結果を、上述した実施例において説明した唇形認識モデルから出力された唇形認識結果と統合させ、この統合結果を更新後の最終的な認識結果とすることができ、ことによって、最終的な認識結果の精度をさらに向上することが可能である。

本出願の更にもう一つの実施例において、前記ステップＳ３２０、即ち前記通常音声の音響特徴量に基づいて前記ささやき声データの最終的な認識結果を特定するための２つの選択可能な実施形態について説明する。

＜第１種＞
ｉ）前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得る；
ｉｉ）前記通常音声認識結果を前記ささやき声データの最終的な認識結果とする。
ここで、通常音声認識モデルについて、前記説明を参照すればよい。この実施形態においては、通常音声認識モデルから出力された通常音声認識結果をそのまま最終的な認識結果としている。

＜第２種＞
理解の便宜上、本実施例では、ささやき声変換方法の全工程を参照しながら、前記ステップＳ３２０の過程について解説する。

図７を参照して、図７は、本出願の実施例に係る更にもう一つのささやき声変換方法のフローチャートである。図７に示すように、この方法は以下のステップを含む。すなわち、
ステップＳ４００：ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を得る。
ステップＳ４１０：前記ささやき声音響特徴及び前記初期的な認識結果を予め作成されたささやき声認識モデルに入力させ、出力された通常音声の音響特徴量を得る。

なお、本実施例におけるステップＳ４００〜Ｓ４１０は、上述した実施例におけるステップＳ１００〜Ｓ１１０とそれぞれに対応しているので、ここでは、具体的な説明について詳述せず、前記説明を参照すればよい。

ステップＳ４２０：前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得る。
ステップＳ４３０：反復終了設定条件に達したか否かを判断する；ＹＥＳであれば、下記のステップＳ４４０を実行する。ＮＯであれば、下記のステップＳ４５０を実行する。
ステップＳ４４０：前記通常音声認識結果を前記ささやき声データの最終的な認識結果とする。
ステップＳ４５０：前記通常音声認識結果を前記初期的な認識結果とするとともに、ステップＳ４１０に戻る。

第１種の実施形態に比べて、この実施形態においては、ささやき声変換モデルによる反復過程が追加され、即ち通常音声認識モデルから出力された通常音声認識結果をさらに初期的な認識結果とし、その後、反復終了設定条件に達するまでささやき声変換モデルに入力させて反復を行う。

反復終了設定条件としては、例えばささやき声変換モデルの反復回数が回数閾値に達したとか、反復時間が時間閾値に達したとか、または、通常音声認識結果の信頼度収束状況が設定された収束条件に達したなど、複数種の条件が挙げられることは理解されるべきであろう。

具体的な回数閾値、時間閾値は、実際の作業中に求められるシステム応答時間とコンピューティングリソースにより決定される。

もちろん、反復回数が多くなるほど、得られる最終的な認識結果の精度が高いが、消費される時間やコンピューティングリソースも多くなることは理解されるべきであろう。

以下にて、本出願の実施例に提供されるささやき声変換装置について詳述する。以下に記載されるささやき声変換装置と前記ささやき声変換方法は相互参照することができる。

図８を参照して、図８は、本出願の実施例に係るささやき声変換装置の構造模式図である。図８に示すように、この装置は、ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段１１と、前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段１２と、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段１３とを備える。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。

好ましくは、本出願の装置は、さらに、前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備える。
そこで、前記初期的な認識結果取得手段は、さらに、前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第２の初期的な認識結果取得サブユニットと、前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第３の初期的な認識結果取得サブユニットとを備える。
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる。

好ましくは、本出願に係る装置は、さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える。

好ましくは、前記ささやき声の音響特徴取得手段は、前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備える。ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を含む。

好ましくは、本実施例は、ささやき声変換処理手段の２つの選択可能な構造を開示している。

一つ目は、ささやき声変換処理手段は、前記ささやき声の音響特徴量及び前記初期的な
認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、こうしてモデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える。

二つ目は、ささやき声変換処理手段は、コーデック処理手段を備える。前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第１のコーデック処理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第２のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第３のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第４のコーデック処理サブユニットとを備える。

好ましくは、本出願に係る装置は、さらに、前記通常音声の音響特徴量に基づいて前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える。

好ましくは、本実施例は、最終的な認識結果特定手段の２つの選択可能な構造を開示している。

一つ目は、最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第１の結果特定手段とを備える。

二つ目は、最終的な認識結果特定手段は、前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、反復終了設定条件に達したか否かを判断するための反復判断手段と、前記反復判断手段による判断結果がＹＥＳであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第２の結果特定手段と、前記反復判断手段による判断結果がＮＯであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第３の結果特定手段とを備える。

本出願の実施例に提供されるささやき声変換装置はささやき声変換デバイス、例えばＰＣ端末や、クラウドプラットフォーム、サーバー及びサーバークラスタなどに使用されうる。好ましくは、図９は、本出願の実施例に係るささやき声変換デバイスのハードウェア構造ブロック図を示している。図９を参照して、ささやき声変換デバイスのハードウェア構造は、少なくとも１つのプロセッサー１と、少なくとも１つの通信用インターフェース２と、少なくとも１つのメモリー３と少なくとも１つの通信バス４とを含んでいてもよい。

本出願の実施例では、プロセッサー１、通信用インターフェース２、メモリー３、通信バス４の数が少なくとも１本であって、かつプロセッサー１、通信用インターフェース２、メモリー３同士間の通信は通信バス４を介して行われる。

プロセッサー１は１つの中央処理装置ＣＰＵ、または特定の集積回路ＡＳＩＣ(Application Specific Integrated Circuit)であるか、若しくは、本発明の実施例を実施するた
めの１つまたは複数の集積回路などに配置されている。

メモリー３は、高速ＲＡＭメモリーを含んでもよいし、さらに非揮発性メモリー（non-volatile memory）など、例えば少なくとも１つの磁気ディスクメモリーを含んでもよい
。

その中で、メモリーにはプログラムが記憶されている。プロセッサーはメモリーに記憶されたプログラムを始動させることができる。前記プログラムは、ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することに用いられる。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。

好ましくは、前記プログラムの詳細な機能及び拡張機能については、前記説明を参照すればよい。

本出願の実施例は、さらに、プロセッサーによって実行されるプログラムを記憶できる記憶媒体を提供している。
前記プログラムは、ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することに用いられる。
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる。

最後に、本文では、例えば第１、第２などの関係を示す術語は、１つの本体または操作を別の本体または操作から区分するために使われるだけであって、必ずしもこれらの本体または操作の間にはこのような実際の関係または順序があることを要求または意味しているとは限らない。しかも、「備える」、「含む」などの術語は、非排他的な包含関係を意味し、これによって一連の要素を含む過程や方法、物体または機器はそれらの要素のみならず、さらに明示されていないその他の要素を含むか、或いはこのような過程や方法、物体又は機器に備わる固有の要素をも含む。特別な制限がない場合に、「……を含む」という語句によって限定される要素について、前記要素を含む過程や方法、物体または機器の中には別の同じ要素が更に存在している状況は除外されない。

本明細書における各実施例は、プログレッシブな方式で記述されている。各実施例において主に強調する点は、その他の実施例との相違点であり、各実施例の間の同一又は類似する部分は、互いに参照すれば理解できる。

前記に開示された実施例に対する前記説明に基づいて、当業者は本発明を実現又は実施することができる。これらの実施例に対する様々な変更は、当業者には明白であろう。本文で定義される一般的な原理は、本発明の範囲及び趣旨から逸脱しない限り、その他の実施例によって実現されうる。したがって、本発明は、本文で示されるこれらの実施例に限定されず、本文が開示する原理及び新規性と一致する最も広範囲の要件を満足すべきである。

Claims

ささやき声データに対応するささやき声の音響特徴量、及び前記ささやき声データに対応する初期的な認識結果を取得することと、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することとを含み、
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプルし、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングすることによって得られる、ことを特徴とするささやき声変換方法。
さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することを含む、請求項１に記載の方法。
前記ささやき声データに対応する初期的な認識結果を取得することは、
前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得することを含み、
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で、前記初期モデルをトレーニングすることによって得られる、請求項１に記載の方法。
さらに、前記ささやき声データとマーチングする唇形画像データを取得することを含み、
そこで、前記ささやき声データに対応する初期的な認識結果を取得することは、さらに、
前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得することと、
前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とすることとを含み、
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項３に記載の方法。
さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得ることと、
対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得することを含む、請求項４に記載の方法。
前記ささやき声データに対応するささやき声の音響特徴量を取得することは、
前記ささやき声データをフレーム化して、複数フレームのささやき声データを得ることと、
フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得ることと、
各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出することとを含み、
ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
含む、請求項１に記載の方法。
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得ることを含む、請求項１に記載の方法。
前記ささやき声の音響特徴量及び前記初期的な認識結果を、予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得することは、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させることと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得ることと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得ることと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とすることを含む、請求項１に記載の方法。
前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることとを含む、請求項２に記載の方法。
前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定することは、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得ることと、
反復終了設定条件に達したか否かを判断することと、
ＹＥＳであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とすることと、
ＮＯであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すこととを含む、請求項２に記載の方法。
ささやき声データに対応するささやき声の音響特徴量を取得するためのささやき声の音響特徴量取得手段と、
前記ささやき声データに対応する初期的な認識結果を取得するための初期的な認識結果取得手段と、
前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させ、出力された通常音声の音響特徴量を取得するためのささやき音声変換処理手段とを備え、
ここで、前記ささやき声変換モデルは、予め、ささやき声訓練データの認識結果及びささやき声の訓練音響特徴量をサンプル、そして前記ささやき声訓練データと並行する通常音声データに対応する通常音声の音響特徴量をサンプルラベルとしてトレーニングするこ
とによって得られる、ことを特徴とするささやき声変換装置。
さらに、前記通常音声の音響特徴量に基づいて、前記ささやき声データの最終的な認識結果を特定するための最終的な認識結果特定手段を備える、請求項１１に記載の装置。
前記初期的な認識結果取得手段は、
前記ささやき声の音響特徴量を予め作成されたささやき声認識モデルに入力させ、出力されたささやき声認識結果を、前記ささやき声データに対応する初期的な認識結果として取得するための第1の初期的な認識結果取得サブユニットを備え、
ここで、前記ささやき声認識モデルは、通常音声認識モデルを初期モデルとし、ささやき声訓練データの認識結果がマークされたささやき声の訓練音響特徴量で前記初期モデルをトレーニングすることによって得られる、請求項１１に記載の装置。
前記ささやき声データとマーチングする唇形画像データを取得するための唇形画像データ取得手段を備え、
そこで、前記初期的な認識結果取得手段は、さらに、
前記唇形画像データを予め作成された唇形認識モデルに入力させ、出力された唇形認識結果を取得する第２の初期的な認識結果取得サブユニットと、
前記ささやき声認識結果と前記唇形認識結果を統合化し、統合化された認識結果を前記ささやき声データに対応する初期的な認識結果とする第３の初期的な認識結果取得サブユニットとを備え、
ここで、前記唇形認識モデルは、唇形認識結果がマークされた唇形画像訓練データで予めトレーニングすることによって得られる、請求項１３に記載の装置。
さらに、フレームごとの唇形画像データに対して口唇検知を行って、口唇領域を得るための口唇検知手段と、
対応するフレーム画像から前記口唇領域を抽出すると共に、画像に正規化処理を施し、正規化された唇形画像データを、前記唇形認識モデルの入力として取得するための画像処理手段とを備える、請求項１４に記載の装置。
前記ささやき声の音響特徴取得手段は、
前記ささやき声データをフレーム化して、複数フレームのささやき声データを得るためのフレーム化処理手段と、
フレームごとのささやき声データに対して予め重み付け処理を行って、処理されたささやき声データを得るための予め重み付け処理手段と、
各フレームの処理されたささやき声データのスペクトル特徴量をそれぞれに抽出するスペクトル特徴量抽出手段とを備え、
ここで、前記スペクトル特徴量は、メルフィルタバンクエネルギー特徴量と、メル周波数ケプストラム係数特徴量と、知覚的線形予測係数特徴量とのうちのいずれか1種以上を
含む、請求項１１に記載の装置。
前記ささやき声変換処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を再帰型ニューラルネットワークタイプのささやき声変換モデルに入力させ、モデルから出力された通常音声の音響特徴量を得るための再帰処理手段を備える、請求項１１に記載の装置。
前記ささやき声変換処理手段は、コーデック処理手段を備え、
前記コーデック処理手段は、
前記ささやき声の音響特徴量及び前記初期的な認識結果を、アテンションメカニズムに基づくコーデックタイプのささやき声変換モデルを入力させるための第１のコーデック処
理サブユニットと、
ささやき声変換モデルのコーディング層によって、前記ささやき声の音響特徴量、前記初期的な認識結果をそれぞれにコーディングして、コーディングされたささやき声の音響特徴量及びコーディングされた初期的な認識結果を得るための第２のコーデック処理サブユニットと、
前記ささやき声変換モデルのアテンション層によって、前記コーディングされたささやき声の音響特徴量に係数線形重み付けを施し、現時点における重み付け後ささやき声の音響特徴量を得るための第３のコーデック処理サブユニットと、
ささやき声変換モデルのデコーディング層によって、前記コーディングされた初期的な認識結果、前記現時点における重み付け後ささやき声の音響特徴量及び前の時点におけるデコーディング層の出力を現時点におけるデコーディング層の入力とし、そして現時点におけるデコーディング層の出力を通常音声の音響特徴量とするための第４のコーデック処理サブユニットとを備える、請求項１１に記載の装置。
前記最終的な認識結果特定手段は、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第１の結果特定手段とを備える、請求項１２に記載の装置。
前記最終的な認識結果特定手段は、
前記通常音声の音響特徴量を予め作成された通常音声認識モデルに入力させ、出力された通常音声認識結果を得るための通常音声認識手段と、
反復終了設定条件に達したか否かを判断するための反復判断手段と、
前記反復判断手段による判断結果がＹＥＳであれば、前記通常音声認識結果を前記ささやき声データの最終的な認識結果とするための第２の結果特定手段と、
前記反復判断手段による判断結果がＮＯであれば、前記通常音声認識結果を前記初期的な認識結果とし、前記ささやき声の音響特徴量及び前記初期的な認識結果を予め作成されたささやき声変換モデルに入力させる過程に戻すための第３の結果特定手段とを備える、請求項１２に記載の装置。
プログラムが記憶されているメモリーと、
前記プログラムが実行されると、請求項１〜１０のいずれか１項に記載のささやき声変換方法の各ステップが実現されるためのプロセッサーとを備える、ことを特徴とするささやき声変換デバイス。
コンピュータプログラムが記憶されている可読記憶媒体であって、
前記コンピュータプログラムがプロセッサーによって実行されると、請求項１〜１０のいずれか１項に記載のささやき声変換方法の各ステップが実現される、ことを特徴とする可読記憶媒体。