JP2016099507A - 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム - Google Patents

音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム Download PDF

Info

Publication number
JP2016099507A
JP2016099507A JP2014236637A JP2014236637A JP2016099507A JP 2016099507 A JP2016099507 A JP 2016099507A JP 2014236637 A JP2014236637 A JP 2014236637A JP 2014236637 A JP2014236637 A JP 2014236637A JP 2016099507 A JP2016099507 A JP 2016099507A
Authority
JP
Japan
Prior art keywords
acoustic feature
acoustic
feature quantity
sequence
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014236637A
Other languages
English (en)
Other versions
JP6189818B2 (ja
Inventor
孝典 芦原
Takanori Ashihara
孝典 芦原
太一 浅見
Taichi Asami
太一 浅見
裕司 青野
Yuji Aono
裕司 青野
澄宇 阪内
Sumitaka Sakauchi
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014236637A priority Critical patent/JP6189818B2/ja
Publication of JP2016099507A publication Critical patent/JP2016099507A/ja
Application granted granted Critical
Publication of JP6189818B2 publication Critical patent/JP6189818B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】学習データが十分に入手できない場合でも認識率を向上させる。
【解決手段】特徴量抽出部13は、対象音声信号から抽出した対象音響特徴量系列と参照音声信号から抽出した参照音響特徴量系列とを生成する。特徴量照合部14は、対象音響特徴量系列と参照音響特徴量系列との対応関係を照合した照合済みの対象音響特徴量系列と参照音響特徴量系列とを生成する。変換モデル生成部15は、照合済みの対象音響特徴量系列と参照音響特徴量系列とを用いて、入力音響特徴量の音響的特徴を対象音響特徴量系列と参照音響特徴量系列との対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する。疑似特徴量生成部16は、変換モデルを用いて音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を生成する。
【選択図】図1

Description

この発明は、音響モデルを用いた音声認識を様々な認識対象タスクに適応させるときに、音響モデル学習に用いる音響特徴量を変換する技術に関する。
特許文献1には、音声認識において実用レベルの性能を担保するために、音声認識の対象とするタスク(以下、認識対象タスクと呼ぶ)に対して音響モデルを適応させる技術が記載されている。ここで、認識対象タスクとは、元々の音響モデルに対して、話者や雑音タイプ、喋り方などの音響的特徴が異なるタスクである。
一般的に、音声認識の性能は認識対象タスクの学習データ量に依存して上下する。つまり、認識対象タスクの学習データが満足に存在しない状況で、従来の技術により音響モデルを適応させたとしても満足のいく認識率は得られない場合が多い。そこで通常は、認識対象タスクの音声を十分に集め、その音声を書き起こしすることで所望の量の学習データを収集するのであるが、そのためには莫大な金銭的・時間的コストを要する。また、認識対象タスクの音声が十分に入手可能であるならば、書き起こしによる学習データの収集を実施することが可能だが、そもそもあらゆるタスクにおいて十分な量の音声が入手可能というわけではない。例えば、方言や日本人が英語を話す音声など、十分な量の音声を入手することが難しいタスクも存在する。
非特許文献1には、Vocal Tract Length Normalization(VTLN)のWarping Factorを複数の値で実行することで、学習データにおける話者バリエーションを疑似的に作成する方法が記載されている。なお、VTLNについては非特許文献2に記載されている。
特開2007−249051号公報
N. Jaitly, G. E. Hinton, "Vocal Tract Length Perturbation (VTLP) improves speech recognition", ICML Workshop on Deep Learning for Audio, Speech, and Language Processing, 2013. E. Eide, H. Gish, "A parametric approach to vocal tract length normalization", ICASSP, 1996.
しかしながら、非特許文献1の技術は大きく二点の問題を抱えている。一点目は、VTLNが線形変換処理であるため、非常に大まかな変換しか実行できない点である。二点目は、VTLN自体が話者の声質変換を目的としており、それ以外の変換は実行できない点である。
この発明の目的は、音響モデルを認識対象タスクに適応させるための学習データを疑似的に作成することで、学習データが十分に入手できない場合でも認識率を向上させることである。
上記の課題を解決するために、この発明の第一の態様の音響特徴量変換装置は、認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列と対象音声信号と発話内容が対応する参照音声信号から抽出した参照音響特徴量系列とを生成する特徴量抽出部と、対象音響特徴量系列と参照音響特徴量系列との対応関係を特徴量ごとの類似度に基づいて照合した照合済み対象音響特徴量系列と照合済み参照音響特徴量系列とを生成する特徴量照合部と、照合済み対象音響特徴量系列と照合済み参照音響特徴量系列とを用いて、入力音響特徴量の音響的特徴を対象音響特徴量系列と参照音響特徴量系列との対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する変換モデル生成部と、変換モデルを用いて参照音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を生成する疑似特徴量生成部と、を含む。
この発明の第二の態様の音響モデル適応装置は、認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列を記憶する音響特徴量記憶部と、音響特徴量変換装置が生成した変換モデルを用いて、認識対象とするタスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を記憶する疑似音響特徴量記憶部と、対象音響特徴量系列と疑似音響特徴量系列とを用いて音響モデルを学習する音響モデル学習部と、を含む。
この発明の音響特徴量変換技術は、認識対象タスクの学習データが十分に入手できない場合であっても、ニューラルネットによる特徴量変換を用いることで学習データを疑似的に作成し、その疑似学習データも用いて音響モデルを適応させる。これにより、元々入手できていた少量の学習データだけで適応させた音響モデルよりも、さらに認識対象タスクに適応した音響モデルを生成することができ、認識率が向上する。
図1は、第一実施形態の音響特徴量変換装置および音響モデル適応装置の機能構成を例示する図である。 図2は、第一実施形態の音響特徴量変換方法および音響モデル適応方法の処理フローを例示する図である。 図3は、第二実施形態の音響特徴量変換装置および音響モデル適応装置の機能構成を例示する図である。 図4は、第二実施形態の音響特徴量変換方法および音響モデル適応方法の処理フローを例示する図である。
この発明では、上述の従来技術の問題点を解決するために、音響特徴量の変換処理にニューラルネットを活用する。なお、ニューラルネットについては、例えば、「中野良平、“ニューラル情報処理の基礎数理”、数理工学社、2005年(参考文献1)」に記載されている。ニューラルネットはVTLNとは異なり、非線形処理を実現しているため、非常に複雑な表現が可能である。また、ニューラルネットは話者の声質変換以外にも、雑音タイプや喋り方など、他の音響的特徴にも対応が可能であり、VTLNより汎用性が高い。
<発明のポイント>
この発明では、認識対象タスクにおける学習データが音響モデルを適応させるのに十分な量ではない状況下を想定している。この発明では、大きく以下の流れで音響モデルの適応を行う。
(1)認識対象タスクに関して元々入手できた少量の学習データBと、認識対象タスクではないが十分な量の学習データAとがある前提で、学習データAの音響特徴量から学習データBの音響特徴量へ変換する変換器を生成する。ここで、変換器はニューラルネットを利用する。
(2)上記の変換器を利用して学習データAを変換した十分な量の疑似学習データCを作成する。
(3)元々の学習データBと疑似学習データCとを用いて、音響モデルを認識対象タスクへ適応する学習処理を行う。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態は、完全なパラレルデータが存在する場合に音響特徴量を変換するニューラルネットを学習し、そのニューラルネットを利用して疑似的な学習データを作成する音響特徴量変換装置および方法と、その学習データを利用して音響モデルの適応を行う音響モデル適応装置である。パラレルデータとは、同一の発話内容で音響的特徴が異なる二つの音響特徴量系列の組を言う。音響的特徴は、例えば、話者や雑音タイプ、喋り方などが挙げられる。
第一実施形態の音響特徴量変換装置1は、図1に示すように、入力端子10、音声信号取得部11、ラベル付与部12、特徴量抽出部13、特徴量照合部14、変換モデル生成部15、疑似特徴量生成部16、音声信号記憶部21、特徴量記憶部22、変換モデル記憶部23、および疑似特徴量記憶部24を例えば含む。
第一実施形態の音響モデル適応装置2は、図1に示すように、音響特徴量変換装置1の各構成部に加えて、音響モデル学習部17を例えば含む。図1では、音響モデル適応装置2に音響特徴量変換装置1のすべての構成部が含まれる構成を例示したが、外部の音響特徴量変換装置1の出力を記憶させた特徴量記憶部22と疑似特徴量記憶部17のみを含む構成とすることも可能である。
音響特徴量変換装置1および音響モデル適応装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音響特徴量変換装置1および音響モデル適応装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響特徴量変換装置1および音響モデル適応装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音響特徴量変換装置1および音響モデル適応装置2の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
音響特徴量変換装置1および音響モデル適応装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音響特徴量変換装置1および音響モデル適応装置2が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
図2を参照して、第一実施形態の音響特徴量変換方法の処理手続きを説明する。
ステップS10において、音響特徴量変換装置1の入力端子10へ、学習データとする音響信号が入力される。学習データには、認識対象タスクに関する音声信号(以下、対象音声信号と呼ぶ)と、対象音声信号と同一の発話内容で音響的特徴が異なる音声信号(以下、参照音声信号と呼ぶ)が含まれる。入力される音声信号は、マイクロホン等の収音手段を入力端子10へ接続してリアルタイムに人間の発話を収音したものであってもよいし、あらかじめ人間の発話をICレコーダーやスマートフォンの録音機能のような録音手段で不揮発性メモリやハードディスクドライブのような記録媒体へ録音し、入力端子10へ接続した再生手段により再生することで入力してもよい。
ステップS11において、音声信号取得部11は、アナログの入力音声信号をディジタル信号に変換する。入力端子10からディジタルの音声信号が入力された場合には、音声信号取得部11は備えなくともよい。ディジタルの入力音声信号は、音声信号記憶部21へ記憶される。
ステップS12において、ラベル付与部12は、音声信号記憶部21に記憶された対象音声信号と参照音声信号を読み込み、それぞれの音声信号の音響的特徴を表すラベルを付与する。ラベルを付与された対象音声信号と参照音声信号は、特徴量抽出部13へ送られる。音響的特徴とは、認識対象タスクによって必要とされる音声信号の属性であり、例えば、話者や雑音タイプ、喋り方などが挙げられる。ラベルの付与方法としては、例えば、(1)あらかじめ音声を収録する際の利用シーンをユーザが指定する方法、(2)ログイン認証や使用アプリケーション等による自動獲得、(3)クラスタリングによる自動分類による自動獲得が挙げられる。
(1)ユーザが指定する方法は、音声を収録する際に、話者であれば「誰が発話するか(例えば、性別、年齢、居住地、言語、個人名等の個人属性情報)」、雑音タイプであれば「どこで発話するか(例えば、車内、街中、会議室等の利用環境)」などをユーザ側で指定することで、対象となる音声信号に音響的特徴のラベルを付与する。
(2)アプリケーション等による自動獲得の方法は、以下のとおりである。話者であれば、例えば、音声を収録する前にユーザログイン認証を設けることで話者のラベルを付与する。また、雑音タイプであれば、使用アプリケーションの種類によってラベルを付与する。例えば、カーナビの音声認識であれば車内雑音、音声認識を利用したゲームであればテレビから発せられる雑音、などのラベルを付与することが考えられる。さらに、雑音タイプを使用アプリケーションから獲得した後、雑音レベルに応じてより細かく分類してもよい。雑音レベルは、例えば、サウンドレベルメータで測定する雑音の音圧レベルの絶対値や、収録音声と雑音のそれぞれの収録音圧レベルに基づくS/N比などを用いることができる。さらに、音声信号を収録した日時などの時間情報や地点などの空間情報を付与して細かく分類してもよい。
(3)クラスタリングによる自動獲得の方法は、話者、収録環境、喋り方等を、例えば、公知のK-means法などでクラスタリングし、ラベルとして「話者1」「話者2」「話者3」…や、「収録環境1」「収録環境2」「収録環境3」…や、「喋り方1」「喋り方2」「喋り方3」…として付与するものである。クラスタリングに用いる音響特徴量としては、例えば、音声信号の短時間フレーム分析に基づくメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficient)の1〜12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。このとき、話者に対するクラスタリングであれば、例えば、発話区間において上述の音響特徴量を発話区間単位で平均したものを抽出し、それを用いてクラスタリングを実行する。この場合、類似した音響特徴量を持つ話者は同一クラスタに分類されることがあるが、同傾向の話者として音響特徴量をまとめられるものであるため、後述の特徴量変換ニューラルネットの性能に影響を及ぼすことはない。雑音タイプに対するクラスタリングであれば、例えば、発話区間以外の区間(すなわち収録環境を表す区間)について、話者の場合と同様に音響特徴量を抽出し、発話区間以外の区間で平均した音響特徴量についてクラスタリングする。喋り方に対するクラスタリングであれば、例えば、事前に読み上げ口調と自由発話口調とに分類した上で、入力された音声がそのどちらなのかをGMM Supervectorを用いて自動分類するような方法などが挙げられる。このような喋り方に対するクラスタリングは「T. Asami, R. Masumura, H. Masataki, S. Sakauchi, “Read and Spontaneous Speech Classification Based on Variance of GMM Supervectors”, Interspeech 2014, pp. 2375-2379, 2014.(参考文献2)」に記載されている。上記のようなクラスタリングを実行すると、特定のクラスタが話者、収録環境、または喋り方と結びついていることになるので、当該クラスタと類似性の高い発話区間や、発話区間以外の区間、喋り方などに対応する音響信号を特定して、後述の特徴量抽出部13による音響特徴量を抽出するためのラベルを付与することができる。
上記(1)〜(3)のラベル付与方法を組み合わせて複数種類のラベルを付与してもよい。例えば、話者のラベルはユーザログイン認証で自動獲得して付与し、収録環境のラベルはユーザによる指定により付与し、喋り方のラベルはクラスタリングによる付与とすることができる。
ステップS13において、特徴量抽出部13は、ラベル付きの対象音声信号と参照音声信号とから、それぞれの音響特徴量を抽出し、ラベル付きの音響特徴量の系列を抽出する。ラベル付きの対象音響特徴量系列と参照音響特徴量系列とは、特徴量記憶部22へ記憶される。抽出する音響特徴量としては、例えば、音声信号の短時間フレーム分析に基づくメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficient)の1〜12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはケプストラム平均正規化(CMN: Cepstral Mean Normalization)処理を行ってもよい。抽出する音響特徴量は、MFCCやパワーに限定したものではなく、音声認識に用いられるパラメータを用いてもよい。
特徴量記憶部22は、ラベル付き対象音響特徴量系列およびラベル付き参照音響特徴量系列を蓄積する。上述のとおり、ラベル付き対象音響特徴量系列は、認識対象タスクに即した話者や雑音タイプ、喋り方などに相当する環境の下で収録された対象音声信号から抽出したラベル付き音響特徴量の系列である。また、ラベル付き参照音響特徴量系列は認識対象タスクではないが、音声の明瞭性が高く、大量のデータが取得可能な参照音声信号から抽出したラベル付き音響特徴量の系列である。ラベル付き参照音響特徴量系列は、例えば、音声認識で利用する本来の音響モデルを生成するために収録した音声信号に基づいた音響特徴量の系列などを用いることが考えられる。また、2つの音響特徴量系列には、同一単語の発話や同一単語ではないが類似音で発声する発話(例えば、「元気」と「天気」など)を多く含んでいることが望ましい。また、それぞれの音響特徴量系列における発話内容はすべて既知であることとする。
ステップS14において、特徴量照合部14は、特徴量記憶部22に記憶されたラベル付きの対象音響特徴量系列と参照音響特徴量系列との対応関係を、短時間フレーム単位の特徴量ごとの類似度の大きさに基づいて時系列上で照合する。照合済みの対象音響特徴量系列と参照音響特徴量系列とは、変換モデル生成部15へ送られる。ラベル付きの対象音響特徴量系列と参照音響特徴量系列とは、発話内容が同じだが、話者や雑音タイプ、喋り方などのラベルが異なるものである。一般的に、発話内容が同一であっても、発話時間の長さは異なる場合がある。ニューラルネットを学習するためには、同じ発話内容であってもフレーム単位で対応付ける必要があるため、音響特徴量を変換するニューラルネットを学習させる前に、時間軸において照合をしておく必要がある。照合方法については、公知の動的時間伸縮法等が挙げられる。動的時間伸縮法については、「内田誠一、“DPマッチング概説 〜 基本と様々な拡張 〜”、信学技報、PRMU2006-166、pp. 31-36、2006年(参考文献3)」に記載されている。当該処理によって照合された結果として生成されたDPパスに基づいて、2つのラベル付き音響特徴量系列に含まれる各特徴量について、類似性の高い特徴量同士の時系列的な対応関係が得られる。
ステップS15において、変換モデル生成部15は、照合済みの対象音響特徴量系列と参照音響特徴量系列とを用いて、入力された音響特徴量系列の音響的特徴を対象音響特徴量系列と参照音響特徴量系列との対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する。本形態では、この変換モデルはニューラルネットである。以下、この変換モデルを特徴量変換ニューラルネットと呼ぶ。特徴量変換ニューラルネットは、変換モデル記憶部23へ記憶される。ニューラルネットの学習方法は、例えば、公知の誤差逆伝搬法や確率的勾配降下法等が挙げられる。誤差逆伝搬法や確率的最急勾配法については、「荒木雅弘、“フリーソフトではじめる機械学習入門”、森北出版、2014年」に記載されている。
特徴量変換ニューラルネットの具体的な学習方法を説明する。例えば、話者Aから話者Bに変換する特徴量変換ニューラルネットであれば、話者Aの発話と話者Bの発話をそれぞれ照合済み音響特徴量系列に変換した後、話者Aの照合済み音響特徴量系列を入力とし、入力音響特徴量系列と時間軸上の対応関係が取れている話者Bの照合済み音響特徴量系列を出力として、特徴量変換ニューラルネットを学習する。他の音響的特徴(例えば、雑音タイプや喋り方等)についても同様にして特徴量変換ニューラルネットを学習する。例えば、雑音タイプであれば、雑音タイプAの下での発話と雑音タイプBの下での発話をそれぞれ照合済み音響特徴量系列に変換した後、それらの照合済み音響特徴量系列を学習し、特徴量変換ニューラルネットを生成する。また、上述では音響的特徴ごとに特徴量変換ニューラルネットを生成しているが、それらを複合的に変換する特徴量変換ニューラルネットを生成してもよい。つまり、話者Aが雑音タイプAの下で発話した音響特徴量系列を、話者Bが雑音タイプBの下で発話した音響特徴量系列に変換する特徴量変換ニューラルネットを生成してもよい。この場合には、話者Aと雑音タイプAのラベルが付与された照合済み音響特徴量系列を入力とし、時間軸上の対応関係が取れている話者Bと雑音タイプBのラベルが付与された照合済みラベル付き特徴量系列を出力として、特徴量変換ニューラルネットを学習すればよい。
ステップS16において、疑似特徴量生成部16は、認識対象タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列を、変換モデル記憶部23に記憶された特徴量変換ニューラルネットを用いて変換し、疑似音響特徴量を生成する。その際、入力された音響特徴量系列に対し、出力したい疑似音響特徴量に合致したタイプの特徴量変換ニューラルネットを選択する。例えば、話者Aから話者Bに音響的特徴を変換したいのであれば、話者Aから話者Bに音響的特徴を変換する特徴量変換ニューラルネットを選択する。生成した疑似音響特徴量系列は、疑似特徴量記憶部24へ記憶される。
引き続き、図2を参照して、第一実施形態の音響モデル適応方法の処理手続きを説明する。
特徴量記憶部22には、認識対象タスクに関する対象音声信号から上述の音響特徴量変換方法で生成された対象音響特徴量系列が記憶されている。
疑似特徴量記憶部24には、認識対象タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列を上述の音響特徴量変換方法により変換した疑似音響特徴量系列が記憶されている。
ステップS17において、音響モデル学習部17は、特徴量記憶部22に記憶された対象音響特徴量系列と疑似特徴量記憶部24に記憶された疑似音響特徴量系列とを利用して音響モデルを学習する。音声認識における音響モデルとしては、GMM-HMMなどが用いられており、音響モデルを認識対象タスクに適応させる手法は、例えば、「篠田浩一、“確率モデルによる音声認識のための話者適応化技術”、電子情報通信学会論文誌、J87-D-II(2)、pp. 371-386、2004年(参考文献4)」などに記載されている。
このように、第一実施形態の音響特徴量変換装置および方法は、認識対象タスクに関する音声信号を十分に用意できない場合であっても、認識対象タスクと音声的特徴が異なる音声信号の音響的特徴を変換することで疑似音響特徴量を生成することで、十分な学習データを用意することが可能となる。したがって、認識対象タスクに適応した音響モデルの認識率が向上する。
[第二実施形態]
第二実施形態は、完全なパラレルデータが存在しない場合に音響特徴量を変換するニューラルネットを学習し、そのニューラルネットを利用して疑似的な学習データを作成する音響特徴量変換装置および方法と、その学習データを利用して音響モデルの適応を行う音響モデル適応装置である。
第一実施形態では同じ発話内容で話者や雑音タイプ、喋り方などの音響的特徴が異なるパラレルデータを用いて特徴量変換ニューラルネットを学習したが、このようなパラレルデータが存在するケースは非常に稀であり、また存在していたとしても大量に集めることが難しいため、データスパースネスの問題も起こりうる。そこで、第二実施形態では非パラレルデータを用いる場合を考える。動的時間伸縮法等を用いた時間軸での対応付けは、発話内容が同一、すなわちパラレルデータを前提としている。そこで、非パラレルデータでは、あらかじめ各発話の分析フレーム毎の状態番号(後述の隠れマルコフモデル上の状態番号)を推定しておき、その状態番号同士を対応付けて特徴量変換ニューラルネットを生成する。そのため、第二実施形態では、特徴量照合部の処理が第一実施形態と異なることになる。
第二実施形態の音響特徴量変換装置3は、図3に示すように、入力端子10、音声信号取得部11、ラベル付与部12、特徴量抽出部13、変換モデル生成部15、疑似特徴量生成部16、音響モデル学習部17、音声信号記憶部21、特徴量記憶部22、変換モデル記憶部23、および疑似特徴量記憶部24を第一実施形態と同様に含み、発話強制アラインメント部18および特徴量照合部19を例えば含む。
図4を参照して、第二実施形態の音響特徴量変換方法を説明する。以下では、上述の第一実施形態との相違点を中心に説明する。
ステップS18において、発話強制アラインメント部18は、特徴量記憶部22に記憶された対象音響特徴量系列と参照音響特徴量系列とから、強制アラインメントを実行することでアラインメント済みの対象音響特徴量系列と参照音響特徴量系列を生成する。生成したアラインメント済みの対象音響特徴量系列と参照音響特徴量系列は、特徴量照合部19へ送られる。強制アラインメントとは、音響特徴量系列の発話内容が既知である前提で、その発話内容に一致する正解テキストに対する音声認識を実行し、認識処理過程における状態遷移を観測することで、入力した分析フレーム毎の特徴量に対応する隠れマルコフモデル(HMM: Hidden Markov Model)の状態番号を割り当てる処理である。なお、音声認識ではしばしば音素認識のために隠れマルコフモデルを用い、状態番号はトライフォン(triphone)までを考える。トライフォンは分類すべき音素の前後の音素関係も含めた音素の3つ組みである。トライフォンでは、例えば「a-k-a」のように3音素を1つの状態番号として考える。なお、モノフォン(monophone)は音素1つ、バイフォン(biphone)は音素2つの組を1つの状態番号として考える。強制アラインメントは正解テキストを用いてビタビアルゴリズム等を利用して実行される。なお、音声認識における隠れマルコフモデルやビタビアルゴリズムについては「鹿野他、“IT Text 音声認識システム”、オーム社、2001年」に記載されている。
ステップS19において、特徴量照合部19は、アラインメント済みの対象音響特徴量系列と参照音響特徴量系列とを、それぞれに割り当てられた状態番号同士で照合する。照合済みの対象音響特徴量系列と参照音響特徴量系列は、変換モデル生成部15へ送られる。例えば,話者Aのアラインメント済み音響特徴量系列と話者Bのアラインメント済み音響特徴量系列とにおいて、発話内容は異なるが状態番号が同じである分析フレームを照合済みの音響特徴量系列として出力する。例えば、話者Aが発話した「天気」と話者Bが発話した「元気」とを音素レベルで比較した場合、発話内容は異なるが「g/e/ng/k/i」と「t/e/ng/k/i」では「ng」などは同じ音素であり、前後の音素関係も同じであるため、同じ状態番号が付与されている。
特徴量照合部19では、発話全体ではないものの、状態遷移のアラインメントが一致した2つの照合済み音響特徴量系列を得ることができる。状態遷移のアラインメントは時間軸上の対応関係とは必ずしも同一の物理量とは限らないが、2つの音響特徴量系列の対応関係を記したものとして時間軸上の対応関係と同様に取り扱うことができる。
このように、第二実施形態の音響特徴量変換装置および方法は、パラレルデータを十分に用意できない場合であっても、強制アラインメントにより状態遷移のアラインメントが一致する照合済み音響特徴量系列を用いることができるため、第一実施形態の音響特徴量変換装置および方法と同様の疑似音響特徴量系列を得ることができる。したがって、第一実施形態と同様に、認識対象タスクに適応した音響モデルの認識率が向上する。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1、3 音響特徴量変換装置
2 音響モデル適応装置
10 入力端子
11 音声信号取得部
12 ラベル付与部
13 特徴量抽出部
14、19 特徴量照合部
15 変換モデル生成部
16 疑似特徴量生成部
17 音響モデル学習部
18 発話強制アラインメント部
21 音声信号記憶部
22 特徴量記憶部
23 変換モデル記憶部
24 疑似特徴量記憶部

Claims (8)

  1. 認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列と上記対象音声信号と発話内容が対応する参照音声信号から抽出した参照音響特徴量系列とを生成する特徴量抽出部と、
    上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係を特徴量ごとの類似度に基づいて照合した照合済み対象音響特徴量系列と照合済み参照音響特徴量系列とを生成する特徴量照合部と、
    上記照合済み対象音響特徴量系列と上記照合済み参照音響特徴量系列とを用いて、入力音響特徴量の音響的特徴を上記対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する変換モデル生成部と、
    上記変換モデルを用いて上記タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を生成する疑似特徴量生成部と、
    を含む音響特徴量変換装置。
  2. 請求項1に記載の音響特徴量変換装置であって、
    上記特徴量照合部は、上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係を短時間フレーム単位の特徴量ごとの類似度の大きさに基づいて時系列上で照合するものである
    音響特徴量変換装置。
  3. 請求項1に記載の音響特徴量変換装置であって、
    上記対象音響特徴量系列と上記参照音響特徴量系列とに対して確率モデルに基づく音声認識を行い、上記確率モデルの状態番号を割り当てる発話強制アラインメント部をさらに含み、
    上記特徴量照合部は、上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係を上記状態番号の遷移が一致する音素列に基づいて照合するものである
    音響特徴量変換装置。
  4. 請求項1から3のいずれかに記載の音響特徴量変換装置であって、
    上記変換モデルは、上記入力音響特徴量の音響的特徴を上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係に基づいて変換するニューラルネットである
    音響特徴量変換装置。
  5. 認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列を記憶する音響特徴量記憶部と、
    請求項1から4のいずれかに記載の音響特徴量変換装置が生成した変換モデルを用いて、上記タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を記憶する疑似音響特徴量記憶部と、
    上記対象音響特徴量系列と上記疑似音響特徴量系列とを用いて音響モデルを学習する音響モデル学習部と、
    を含む音響モデル適応装置。
  6. 特徴量抽出部が、認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列と上記対象音声信号と発話内容が対応する参照音声信号から抽出した参照音響特徴量系列とを生成する特徴量抽出ステップと、
    特徴量照合部が、上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係を特徴量ごとの類似度に基づいて照合した照合済み対象音響特徴量系列と照合済み参照音響特徴量系列とを生成する特徴量照合ステップと、
    変換モデル生成部が、上記照合済み対象音響特徴量系列と上記照合済み参照音響特徴量系列とを用いて、入力音響特徴量の音響的特徴を上記対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する変換モデル生成ステップと、
    疑似特徴量生成部が、上記変換モデルを用いて上記タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を生成する疑似特徴量生成ステップと、
    を含む音響特徴量変換方法。
  7. 音響特徴量記憶部に、認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列が記憶されており、
    疑似音響特徴量記憶部に、請求項6に記載の音響特徴量変換方法で生成した変換モデルを用いて、上記タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列が記憶されており、
    音響モデル学習部が、上記対象音響特徴量系列と上記疑似音響特徴量系列とを用いて音響モデルを学習する音響モデル学習ステップと、
    を含む音響モデル適応方法。
  8. 請求項1から4のいずれかに記載の音響特徴量変換装置もしくは請求項5に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。
JP2014236637A 2014-11-21 2014-11-21 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム Active JP6189818B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014236637A JP6189818B2 (ja) 2014-11-21 2014-11-21 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014236637A JP6189818B2 (ja) 2014-11-21 2014-11-21 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016099507A true JP2016099507A (ja) 2016-05-30
JP6189818B2 JP6189818B2 (ja) 2017-08-30

Family

ID=56077786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014236637A Active JP6189818B2 (ja) 2014-11-21 2014-11-21 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6189818B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018167900A1 (ja) * 2017-03-16 2018-09-20 日本電気株式会社 ニューラルネットワーク学習装置、方法、およびプログラム
JP2019144402A (ja) * 2018-02-20 2019-08-29 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
JP2020027211A (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
JP2021033315A (ja) * 2019-08-13 2021-03-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2021117245A (ja) * 2020-01-22 2021-08-10 クリスタルメソッド株式会社 学習方法、評価装置、データ構造、及び評価システム
JPWO2020183845A1 (ja) * 2019-03-08 2021-11-25 日本電気株式会社 音響処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008026489A (ja) * 2006-07-19 2008-02-07 Asahi Kasei Corp 音声信号変換装置
JP2014219605A (ja) * 2013-05-09 2014-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008026489A (ja) * 2006-07-19 2008-02-07 Asahi Kasei Corp 音声信号変換装置
JP2014219605A (ja) * 2013-05-09 2014-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018167900A1 (ja) * 2017-03-16 2018-09-20 日本電気株式会社 ニューラルネットワーク学習装置、方法、およびプログラム
JPWO2018167900A1 (ja) * 2017-03-16 2019-11-07 日本電気株式会社 ニューラルネットワーク学習装置、方法、およびプログラム
US11580383B2 (en) 2017-03-16 2023-02-14 Nec Corporation Neural network learning device, method, and program
JP2019144402A (ja) * 2018-02-20 2019-08-29 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
JP2020027211A (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
WO2020035999A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
JPWO2020183845A1 (ja) * 2019-03-08 2021-11-25 日本電気株式会社 音響処理方法
US11996115B2 (en) 2019-03-08 2024-05-28 Nec Corporation Sound processing method
JP2021033315A (ja) * 2019-08-13 2021-03-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7326983B2 (ja) 2019-08-13 2023-08-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP2021117245A (ja) * 2020-01-22 2021-08-10 クリスタルメソッド株式会社 学習方法、評価装置、データ構造、及び評価システム

Also Published As

Publication number Publication date
JP6189818B2 (ja) 2017-08-30

Similar Documents

Publication Publication Date Title
Li et al. Cn-celeb: multi-genre speaker recognition
US10347244B2 (en) Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
JP6189818B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
Ghai et al. Literature review on automatic speech recognition
JP7243760B2 (ja) 音声特徴補償装置、方法およびプログラム
US10013973B2 (en) Speaker-adaptive speech recognition
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Marasek et al. System for automatic transcription of sessions of the Polish senate
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
KR101598950B1 (ko) 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
Mandava et al. An investigation of LSTM-CTC based joint acoustic model for Indian language identification
JP6114210B2 (ja) 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム
Vlasenko et al. Determining the smallest emotional unit for level of arousal classification
Kilgour et al. The 2013 KIT IWSLT Speech-to-Text Systems for German and English
JP5703747B2 (ja) 音声認識装置,および音声認識プログラム
WO2023135788A1 (ja) 音声処理学習方法、音声処理学習装置、およびプログラム
Gref Robust Speech Recognition via Adaptation for German Oral History Interviews
JP7353839B2 (ja) 話者識別装置、話者識別方法、及び、プログラム
Hemakumar et al. Speaker Independent Isolated Kannada Word Recognizer
WO2022034630A1 (ja) 音声処理装置、音声処理方法、記録媒体、および音声認証システム
Kamath et al. Automatic Speech Recognition

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170803

R150 Certificate of patent or registration of utility model

Ref document number: 6189818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150