JP2004198456A

JP2004198456A - 音響モデル学習装置

Info

Publication number: JP2004198456A
Application number: JP2002363376A
Authority: JP
Inventors: Ryuta Terajima; 立太寺嶌; Toshihiro Wakita; 敏裕脇田
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2002-12-16
Filing date: 2002-12-16
Publication date: 2004-07-15

Abstract

【課題】実発声データを用いなくとも、様々な声質で様々な内容を発声したのと同等の学習データを用いての学習を可能とする音響モデル学習装置を提供する。
【解決手段】音声を所定の単位毎に音響特徴量の統計値としてモデル化した第１音響モデル３１を基に、その統計値を所定の手続によって変換する際の変化量を定めた合成パラメータメモリ２０から受け取った合成パラメータと第１音響モデル３１で想定する単位を表すシンボル系列を生成する単位系列生成器４０から受け取ったシンボル系列を用いて、音響特徴量列を合成し、合成した音響特徴量列を用いて特徴量学習器５０において、第２音響モデル３２の学習を行う。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識において、特に、音声の特徴量を統計値として表現した音響モデルについて、音響モデルを学習する音響モデル学習装置に関するものである。
【０００２】
【従来の技術】
従来、音声を学習する装置において、単語文または文節である複数の発声内容を、複数の話者の音声波形信号に基づいて選択的に音声合成する手段と、音声合成された話者の音声信号を用いて音響モデルを学習する学習器とを用いることで、発声データを用いずに音響モデルを学習する音声認識装置の学習装置が公知である（特許文献１）。
【０００３】
【特許文献１】
特開２００１−１３４２８４号公報
【０００４】
【発明が解決しようとする課題】
しかしながら、従来技術においては、次のような問題点があった。
１．合成のために複数の話者の音声波形信号を格納しなければならないため、合成品質の高い合成音声を得るためには大容量の記憶装置が必要となる。
２．収録された音声波形信号を基にしているため、性質の異なる音声を学習データとして用いることができない。例えば、男性の声を基にして女性用の音響モデルを学習できない。
本発明は上記課題を解決するものであって、少量のメモリ量で大量の学習データを得ることができ、また様々な声質の音声に相当する学習データを学習することができる音響モデル学習装置を提供することを目的とする。
【０００５】
【課題を解決するための手段】
本願の請求項１に記載の音響モデル学習装置は、音声を所定の単位毎に音響特徴量の統計値としてモデル化した第１の音響モデルと、前記統計値を変換するための変化量を定める合成パラメータと、前記第１の音響モデルにおける所定の単位をあらわすシンボルの系列とを用いて特徴量列を合成する特徴量合成手段と、前記合成した特徴量列を用いて学習を行い第２の音響モデルを生成する学習手段とを有することを特徴とする。
【０００６】
【発明の作用及び効果】
本発明の音響モデル学習装置は、模擬音声である擬似学習データを自動生成する特徴量合成手段を有している。特徴量合成手段には様々な声質を生成するために基準となる音声を変換するための合成パラメータが与えられる。また、言語的に様々な発声内容を網羅するためにテキスト列に相当するシンボルの系列をパラメータとして与える。これにより本発明の音響モデル学習装置は、様々な声質で様々な内容を発声したのと同等の学習データを用いて学習が可能となる。
また、本発明によれば実発声データを用いずとも大量の学習データを用いたのと同等の効果を得ることができる。
【０００７】
【発明の実施の形態】
以下に図面を参照して本発明の実施の形態を説明する。
（実施の形態）
図１は本発明の実施の形態の音響モデル学習装置の構成を示すブロック図である。本実施の形態の音響モデル学習装置は、特徴量合成器１０とそれに接続された合成パラメータメモリ２０、第１音響モデル３１、単位系列生成器４０及び特徴量学習器５０と第２音響モデル３２とからなる。ここで、音響モデルとは、音響特徴量（例えば音韻的特徴パラメータ等）を統計的に表現したモデルであり、用途によって「音素」「音節」「単語」等の単位でモデル化されているものである。本実施の形態では音素単位にモデル化されているものとする。
【０００８】
本実施の形態においては、文献１（沢辺敦他、”ＨＭＭ音声合成におけるスペクトル・ピッチへの固有声手法の適用”、電子情報通信学会技術研究報告、SP2001-72、p.65-72、Sept.2001）に記載されている固有声手法による音響特徴量合成を利用する。この合成手法は文献２（徳田恵一他、”動的特徴を用いたＨＭＭからの音声パラメータ生成アルゴリズム”、日本音響学会誌、vol.53、no.3、1997）に記載の音声合成手法を応用したもので、合成に用いる音響特徴量に主成分分析を施すことによって得られる固有ベクトルに、重み係数を乗じて得られるベクトルと平均ベクトルとの和を計算することによって様々な特徴の音声をパラメトリック合成できる手法である。具体的には、重み係数を変化させることによって声質を変化させることができる。文献１の実験結果によると第一主成分の重みを変化させることにより男性的な小声から女性的な大声へと連続的に声質を変化させることができる。
【０００９】
図２に特徴量合成器の処理の流れをフローチャートで示す。はじめに音響特徴量合成のための第１音響モデル３１（初期音響モデル）を読み込む（Ｓ１０）。次に第１音響モデルを変換するための合成パラメータを合成パラメータメモリ２０から読み込む（Ｓ２０）。ここでは、文献１に記載されている実験のように第一主成分と第二主成分の重みを−３０〜３０の範囲で制御するようにその最大値３０、最小値−３０と増分値１を読み込む。次に、第一主成分における重みの最小値を変数ｗ１に格納し（Ｓ３０）、第二主成分における重みの最小値をｗ２に格納する（Ｓ４０）。
【００１０】
次に、単位系列生成器４０に対してシンボル系列（単位系列）を送信するようにリクエストを送信し、単位系列生成器４０からシンボル系列を受け取る（Ｓ５０）。次に、読み取った第１音響モデル、ｗ１及びｗ２、そして受け取ったシンボル系列にしたがって特徴量列を合成する（Ｓ６０）。ここでの合成方法は文献１に示されるアルゴリズムを用いる。
【００１１】
次に、ｗ２に所定の増分値ｗ２_stepを加算する（Ｓ７０）。ｗ２が与えられた値域で全ての値をとりうるまで処理を繰り返す（Ｓ８０）。ｗ２が与えられた最大値を超えた場合には、ｗ１に所定の増分値ｗ１_stepを加算し（Ｓ９０）、再びＳ４０〜Ｓ８０の処理を繰り返す。ｗ１が与えられた地域で全ての値を取りうるまで処理を繰り返す（Ｓ１１０）。例えば、ｗ１_min＝ｗ２_min＝−３０、ｗ１_max＝ｗ２_max＝３０、ｗ１_step＝ｗ２_step＝１の場合、６１×６１＝３７２１種類の声質の特徴量列を合成することができる。
【００１２】
次に、本実施の形態に係る単位系列生成器４０の処理のフローチャートを図３に示す。本実施の形態の単位系列生成器４０では、実行の前にあらかじめ第１音響モデル３１の音韻基本単位に従って合成内容の書き下し文が用意されている。例えば、「音素」を単位としたとき、「サクラサク」という文のシンボル系列を生成するには、／ｓａｋｕｒａｓａｋｕ／という書き下し文を収めたファイルが第１音響モデル３１に用意されている。
【００１３】
単位系列生成器４０は、はじめにファイルから書き下し文を全て読み込む（Ｓ５１）。次にカウンタｉの値を１に初期化する（Ｓ５２）。特徴量合成器１０からのシンボル系列の送信リクエストを待ち（Ｓ５３）、リクエストを受け取るとｉ番目の書き下し文を特徴量合成器１０へ送信する（Ｓ５４）。そして、カウンタｉに１を加算し（Ｓ５５）、再びＳ５３で特徴量合成器１０からのシンボル系列の送信リクエストを待つ。読み込んだ全ての書き下し文を送信した場合には（Ｓ５６）、カウンタｉを１にリセットして（Ｓ５７）、特徴量合成器１０からのシンボル系列の送信リクエストを待ち、Ｓ５３〜Ｓ５５の処理を繰り返す。
【００１４】
特徴量学習器５０は、特徴量合成器１０から合成した特徴量とそれに対応するシンボル系列の情報を受け取り、音響モデルを学習し、第２音響モデル３２として出力する。ここで、特徴量学習器５０での処理は一般によく知られている反復法により最適解を求めるＥＭアルゴリズム（例えば、文献３「Lawrence Rabinerand Biing-Hwang Juang, "Fundamentals of speech recognition", Prientice Hall」を参照）によって実現される。
尚、本発明の音響モデル学習装置は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
【図面の簡単な説明】
【図１】本発明の実施の形態の構成を示すブロック図。
【図２】本発明の実施の形態の特徴量合成器の処理を示すフローチャート。
【図３】本発明の実施の形態の単位系列生成器の処理を示すフローチャート。

Claims

音声認識に用いる音響モデルを学習するための音響モデル学習装置であって、
音声を所定の単位毎に音響特徴量の統計値としてモデル化した第１の音響モデルと、
前記統計値を変換するための変化量を定める合成パラメータと、
前記第１の音響モデルにおける所定の単位をあらわすシンボルの系列と
を用いて特徴量列を合成する特徴量合成手段と、
前記合成した特徴量列を用いて学習を行い第２の音響モデルを生成する学習手段と
を有することを特徴とする音響モデル学習装置。