JP5342621B2

JP5342621B2 - 音響モデル生成装置、音響モデル生成方法、プログラム

Info

Publication number: JP5342621B2
Application number: JP2011195854A
Authority: JP
Inventors: 秀之水野; 哲小橋川; 光昭磯貝
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-09-08
Filing date: 2011-09-08
Publication date: 2013-11-13
Anticipated expiration: 2031-09-08
Also published as: JP2013057789A

Description

本発明は男女声の識別のための統計的な音響モデルを生成する音響モデル生成装置、音響モデル生成方法、プログラムに関する。

入力された音声から話者の性別を識別する男女声識別技術は、単に性別を識別するためだけではなく、音声認識の高精度化のためにも重要な技術である（特許文献１参照）。図１、図２を参照して従来の男女声の識別が可能な音響モデル生成装置の例について説明する。図１は従来の音響モデル生成装置９００の構成例を示すブロック図である。図２は従来の音響モデル生成装置９００の動作例を示すフローチャートである。男女声の識別が可能な音響モデル生成装置の従来例である音響モデル生成装置９００は、データ記憶部９１０と、特徴量抽出部９３０と、モデル学習部９４０とを備える。データ記憶部９１０は男性音声データ記憶手段９１４ａと、女性音声データ記憶手段９１４ｂとを備える。男性音声データ記憶手段９１４ａには、男性が発話した音声のデータが大量に記憶されている。男性が発話した音声のデータには、会話と会話の間の部分、雑音部分など非音声部分が含まれている。女性音声データ記憶手段９１４ｂには、女性が発話した音声のデータが大量に記憶されている。女性が発話した音声のデータには、前述同様会話と会話の間の部分、雑音部分など非音声部分が含まれている。特徴量抽出部９３０は、データ記憶部９１０に記憶された男性音声データ、女性音声データ各々の音響特徴量を抽出する（Ｓ９３０）。モデル学習部９４０は、特徴量抽出部９３０が抽出した音響特徴量からＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）等の統計的なモデル化に基づいて、男声音響モデル、女声音響モデルを学習する（Ｓ９４０）。このようにして学習した男声音響モデル、女声音響モデルを用いて、ある音声データが男声、女声の何れであるか識別する際には、識別対象となる音声データを前記手順で作成された男声音響モデル、女声音響モデルにそれぞれあてはめて、識別対象となる音声データと男声音響モデル、識別対象となる音声データと女声音響モデルのどちらが適合性が高いか（統計的にはどちらがより高い尤度が得られるか）を調べ、男声音響モデルが適合性が高かった場合は当該音声データを男声と判断し、その逆に女声音響モデルが適合性が高かった場合は当該音声データを女声と判断していた。

特開２０１１−０１３５４３号公報特開２００９−０６３７００号公報

男性音声データのみから男声音響モデル、女性音声データのみから女声音響モデルを作成した場合、以下の三種類の問題が発生する。

＜第一の問題＞
男女識別の識別対象となる音声データには、入力時に音声のみしか入力されないような特段の工夫が存在しない場合、実際には音声がない無音区間や、音声以外の雑音が含まれる雑音区間（以下、これら音声でない区間を総称する場合に非音声区間という）が含まれる。したがって、音響モデルを学習する際には、音響モデル学習に用いられる音声データに含まれている非音声区間から非音声モデル、音声区間から音声モデルを学習しておく必要がある。識別の際には識別対象となる音声データ（非音声区間含む）に対して、男声音響モデル、女声音響モデルそれぞれの音声区間モデルと非音声区間モデルとの尤度の値に基づいて、男声か女声かを識別する方法が一般的である。しかし、前述のとおり男声音響モデルを学習する際に用いたデータと、女声音響モデルを学習する際に用いたデータとは異なるため、それぞれの非音声区間のデータも当然異なる。そのため男女識別を行う場合に、男声音響モデルの非音声区間モデルと識別対象となる音声データの非音声部分の尤度と、女声音響モデルの非音声区間モデルと当該非音声部分の尤度とはそれぞれ異なった値をとる。例えば識別対象となる音声データの音声区間について、男声音響モデルの音声区間モデルとの尤度が低い一方、女声音響モデルの音声区間モデルとの尤度が高い場合には、識別対象となる音声データは女声と識別すべきである。しかし、当該識別対象となる音声データに含まれている雑音の特徴が、偶然に男声音響モデルの非音声区間モデルと類似しており、当該雑音区間と男声音響モデルの非音声区間モデルとの尤度が高くなってしまった結果、識別対象全体の尤度の総合的な判断として男声と識別されてしまう可能性があり、問題である。

＜第二の問題＞
第一の問題を避けるため、従来の音声区間検出技術（特許文献２）を用いて識別対象となる音声データから音声区間のみを識別・分離し、分離された音声区間のみに対して男女識別を行う方法も考えられる。しかし、従来の音声区間検出技術（特許文献２）によっても、音声区間の識別誤りを完全には避けられないため、結局分離された音声区間に対しても、非音声区間が含まれることを前提に男女識別を行わざるを得ず、前述と同じ問題が生じる。

＜第三の問題＞
第一の問題を避けるため、例えば識別対象となる音声データのうち、音声区間として識別された区間の尤度のみに基づいて男女声を識別する方法も考えられる。しかし前述の問題から、男声音響モデルを用いた場合と、女声音響モデルを用いた場合では、音声区間と非音声区間の識別結果が異なる。そのため例えば男声音声が含まれる音声が識別対象として与えられた場合に、当該識別対象データの非音声区間と音声区間の境界付近の特定部分において、男声音響モデルの非音声区間モデルの尤度が音声区間モデルの尤度より高く非音声と判断される一方で、女声音響モデルの非音声区間モデルの尤度が音声区間モデルの尤度より低く、音声区間として判断されるような場合も生じる。そうすると女声音響モデルを用いた場合と、男声音響モデルを用いた場合で、尤度を求めるべき音声区間が異なることになる。一般的には男女声識別は一定長のフレーム単位で尤度を求め、その尤度の総和または平均値をスコアとし、男声音響モデルを用いた場合と女声音響モデルを用いた場合と、いずれがスコアが高いかで、男声か女声かを識別する。識別に用いる区間が異なるとスコアの基準が異なってしまうことになり、いずれか一方が優位に判定され、結果的に識別誤りが増えるといった問題が生じる。

そこで、本発明では、識別対象となるデータに含まれる非音声区間に影響を受けずに男女識別を行うことができる音響モデル生成装置を提供することを目的とする。

本発明の音響モデル生成装置は、男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる。本発明の音響モデル生成装置は、特徴量抽出部と、モデル学習部と、モデル統合部とを備える。特徴量抽出部は、音響モデルの生成に用いられるデータから特徴量を抽出する。モデル学習部は、男性音声データから抽出された特徴量から男性音声区間モデルを、女性音声データから抽出された特徴量から女性音声区間モデルを、非音声データから抽出された特徴量から非音声区間モデルを学習する。モデル統合部は、男性音声区間モデルと非音声区間モデルを統合して男声音響モデルを生成し、女性音声区間モデルと非音声区間モデルを統合して女声音響モデルを生成する。

本発明の音響モデル生成装置によれば、識別対象となるデータに含まれる非音声区間に影響を受けずに男女識別を行うことができる。

従来の音響モデル生成装置の構成を示すブロック図。従来の音響モデル生成装置の動作を示すフローチャート。実施例１の音響モデル生成装置の構成を示すブロック図。実施例２乃至５の音響モデル生成装置の構成を示すブロック図。実施例１乃至５の音響モデル生成装置の動作を示すフローチャート。変形例１の音響モデル生成装置の構成を示すブロック図。変形例２乃至５の音響モデル生成装置の構成を示すブロック図。変形例１乃至５の音響モデル生成装置の動作を示すフローチャート。実施例２のデータ生成部の構成を示すブロック図。実施例２のデータ生成部の動作を示すフローチャート。実施例３のデータ生成部の構成を示すブロック図。実施例３のデータ生成部の動作を示すフローチャート。実施例４のデータ生成部の構成を示すブロック図。実施例４のデータ生成部の動作を示すフローチャート。実施例５のデータ生成部の構成を示すブロック図。実施例５のデータ生成部の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図３、図５を参照して本発明の最も基本的な構成である実施例１の音響モデル生成装置について説明する。図３は本実施例の音響モデル生成装置１００の構成を示すブロック図である。図５は本実施例の音響モデル生成装置１００の動作を示すフローチャートである。図３に示す通り、本実施例の音響モデル生成装置１００は、データ記憶部１１０と、特徴量抽出部９３０と、モデル学習部９４０と、モデル統合部１５０とを備える。データ記憶部１１０は男性音声データ記憶手段１１４ａと、女性音声データ記憶手段１１４ｂと、非音声データ記憶手段１１４ｃとを備える。男性音声データ記憶手段１１４ａは男性が発話した音声のデータ（男性音声データ）を記憶している。女性音声データ記憶手段１１４ｂは女性が発話した音声のデータ（女性音声データ）を記憶している。非音声データ記憶手段１１４ｃは非音声区間のデータ（非音声データ）を記憶している。本実施例の音響モデル生成装置１００は、これらの記憶された男性音声データ、女性音声データ、非音声データを音響モデルの生成に用いる。これらの音響モデル生成に用いるデータは、予め何らかの方法で生成しておき、各データ記憶手段１１４ａ、１１４ｂ、１１４ｃに記憶しておけばよい。例えば、実施例２以下で説明するデータ生成部２１０、３１０、４１０、５１０により予め生成しておいた男性音声データ、女性音声データ、非音声データを各データ記憶手段１１４ａ、１１４ｂ、１１４ｃに記憶しておくこととしてもよい。特徴量抽出部９３０は、音響モデルの生成に用いられるデータ（男性音声データ、女性音声データ、非音声データ）から特徴量を抽出する（Ｓ９３０）。モデル学習部９４０は、男性音声データから抽出された特徴量から男性音声区間モデルを、女性音声データから抽出された特徴量から女性音声区間モデルを、非音声データから抽出された特徴量から非音声区間モデルを学習する（Ｓ９４０）。モデル統合部１５０は、男性音声区間モデルと非音声区間モデルを統合して男声音響モデルを生成し、女性音声区間モデルと非音声区間モデルを統合して女声音響モデルを生成する（Ｓ１５０）。

＜モデル学習部９４０＞
以下、モデル学習部９４０が行う男性（女性）音声区間モデル・非音声区間モデルの学習について、その具体的な方法を説明する。男女声の識別においては、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を用いて、学習と識別を行う。ＧＭＭとは以下のような式で表せるモデルである。

ｔ番目のフレームの尤度ｆ（ｔ）はＮ個のガウス分布それぞれのｔ番目のフレームの特徴量ベクトルｘの尤度の総和で表現される。また、このような混合ガウス分布の各パラメータλ、μ、σ（ｋ番目の混合ガウス分布の混合係数をλ_ｋ、平均値をμ_ｋ、分散をσ^２ _ｋと表記する）を学習データから推定する方法はＥＭアルゴリズムとしてよく知られている。混合数Ｎは任意の値にすることができるが、本方式では、音声区間では混合数を５０〜７０の値の範囲のいずれかとする。非音声区間は、想定される雑音のパターンに比例して決まる。後述する変形例１〜５においては、想定される雑音のバリエーション数をＸ、比例定数をαとして、混合数をＸα＋１（＋１は完全無音に対応）とし、αは５から１０の間の適切な値とする。

このように、本実施例の音響モデル生成装置１００によれば、男声音響モデルと女声音響モデルの非音声区間モデルを共通化することで、非音声区間における尤度（非音声区間モデルの尤度）が男声音響モデル、女声音響モデルのどちらを用いても同じ値となるため、非音声区間の尤度が最終的な識別結果に影響することがなくなり、音声区間の尤度のみに基づいて識別を行うことが可能となるため識別精度が向上する。

以下、図４、図５を参照して音響モデルの生成に用いるデータを生成するデータ生成部を付加した実施例の一つである実施例２の音響モデル生成装置２００について説明する。図４は本実施例の音響モデル生成装置２００の構成を示すブロック図である。図５は本実施例の音響モデル生成装置２００の動作を示すフローチャートである。図４に示す通り、本実施例の音響モデル生成装置２００は、データ生成部２１０と、特徴量抽出部９３０と、モデル学習部９４０と、モデル統合部１５０とを備える。本実施例の音響モデル生成装置２００と実施例１の音響モデル生成装置１００との違いは、実施例１のデータ記憶部１１０が本実施例においてデータ生成部２１０に変更されている点のみである。従って本実施例の音響モデル生成装置２００におけるデータ生成部２１０以外の構成部については実施例１の対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。以下、データ生成部２１０の動作について、図９、図１０を参照して説明する。図９は本実施例の音響モデル生成装置２００が備えるデータ生成部２１０の構成を示すブロック図である。図１０は本実施例の音響モデル生成装置２００が備えるデータ生成部２１０の動作を示すフローチャートである。図９に示す通り、本実施例の音響モデル生成装置２００が備えるデータ生成部２１０は、男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂと、音声区間検出手段２１２と、男性音声データ記憶手段２１４ａと、女性音声データ記憶手段２１４ｂと、非音声データ記憶手段２１４ｃとを備える。男性音声データ記憶手段２１１ａは、非音声データを含む男性音声データを予め記憶している。女性音声データ記憶手段２１１ｂは、非音声データを含む女性音声データを予め記憶している。図９では、記憶手段として男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂを設けているが、この二つの記憶手段（男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂ）を一つにまとめてデータ記憶手段として構成することもできる。

次に音声区間検出手段２１２は、データ記憶手段（男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂ）に記憶されたデータが非音声であることの尤度（以下、非音声尤度という）を予め定めた区間ごとに計算する。音声区間検出手段２１２は、記憶された非音声データを含む男性音声データの非音声尤度が予め定めた値以下となる区間のデータを音響モデルの生成に用いられる男性音声データと判定する（ＳＳ２１２ＡＹ）。音声区間検出手段２１２は、記憶された非音声データを含む女性音声データの非音声尤度が予め定めた値以下となる区間のデータを音響モデルの生成に用いられる女性音声データと判定する（ＳＳ２１２ＡＹ）。音声区間検出手段２１２は、記憶されたデータの非音声尤度が予め定めた値を超える区間のデータを音響モデルの生成に用いられる非音声データと判定する（ＳＳ２１２ＡＮ）。音声区間検出手段２１２は、このように、判定された男性音声データを男性音声データ記憶手段２１４ａに、女性音声データを女性音声データ記憶手段２１４ｂに、非音声データを非音声データ記憶手段２１４ｃにそれぞれ記憶する（ＳＳ２１２Ｂ、ＳＳ２１２Ｃ）。

＜音声区間検出手段２１２＞
音声区間検出手段２１２の具体的な実現方法について以下に説明する。音声区間検出手段２１２については、例えば特許文献２記載の音声信号区間推定装置をそのまま適応することができる。この場合、音声区間検出手段２１２は、第１音響信号分析手段と、第２音響信号分析手段と、重み算出手段と、音声確率／非音声確率算出手段と、音声信号区間推定手段とを備える。

第１音響信号分析手段は、音響信号（男性音声データ、女性音声データ）をフレーム単位に分割し、フレームの音響特徴量から、フレームの音声確率および非音声確率を求める。第２音響信号分析手段は、音響信号（男性音声データ、女性音声データ）をフレーム単位に分割し、フレームの基本周波数に含まれる周期性成分および非周期性成分から、フレームの音声確率および非音声確率を求める。重み算出手段は、第１音響信号分析手段によって得られたフレームの音声確率／非音声確率と、第２音響信号分析手段によって得られたフレームの音声確率／非音声確率とを用いて、それぞれに対して重み付けする重みを求める。音声確率／非音声確率算出手段は、第１音響信号分析手段によって得られたフレームの音声確率と、第２音響信号分析手段によって得られたフレームの音声確率とを、重み算出手段によって得られた重みによって重み付けして合成した音声合成確率と、第１音響信号分析手段によって得られたフレームの非音声確率と、第２音響信号分析手段によって得られたフレームの非音声確率とを、重み算出手段によって得られた重みによって重み付けして合成した非音声合成確率とを求め、音声合成確率と、非音声合成確率と、音声と非音声との間の状態遷移モデルとに基づき、フレームが音声に属する確率（音声尤度）とフレームが非音声に属する確率（非音声尤度）を求める。音声信号区間推定手段は、音声確率／非音声確率算出手段によって得られた音声尤度と非音声尤度から、フレームが音声信号区間であるか否かを判定する。

上述のように、音声区間検出手段２１２は、データ記憶手段（男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂ）に記憶されたデータについて、非音声尤度を予め定めた区間（フレーム）ごとに計算し、記憶された非音声データを含む男性（女性）音声データの非音声尤度から、フレームが音声信号区間であるか否かを判定する。

このように、本実施例の音響モデル生成装置２００によれば、実施例１の音響モデル生成装置１００の効果に加えて、音声区間検出手段２１２が記憶されたデータのうち非音声尤度が予め定めた値を超える区間のデータを男女の区別なく音響モデルの生成に用いられる非音声データと判定するため、男声音響モデル、女声音響モデルに共通して用いられる非音声区間モデルを偏りなく生成することができるため、認識精度の高い音響モデルを生成することができる。

以下、図１１、図１２を参照して実施例２のデータ生成部に尤度を再度判定する尤度判定手段を付加した実施例である実施例３の音響モデル生成装置３００について説明する。図１１は本実施例の音響モデル生成装置３００が備えるデータ生成部３１０の構成を示すブロック図である。図１２は本実施例の音響モデル生成装置３００が備えるデータ生成部３１０の動作を示すフローチャートである。図１１に示す通り、本実施例の音響モデル生成装置３００のデータ生成部３１０は、男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂと、音声区間検出手段２１２と、尤度判定手段３１３と、男性音声データ記憶手段２１４ａと、女性音声データ記憶手段２１４ｂと、非音声データ記憶手段２１４ｃとを備える。実施例２と同様に、男性音声データ記憶手段２１１ａは、非音声データを含む男性音声データを予め記憶している。女性音声データ記憶手段２１１ｂは、非音声データを含む女性音声データを予め記憶している。実施例２と同様に、男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂとを一つにまとめてデータ記憶手段として構成することもできる。本実施例の音響モデル生成装置３００と実施例２の音響モデル生成装置２００との違いは、実施例２のデータ生成部２１０に存在しない尤度判定手段３１３が本実施例においてデータ生成部３１０に付加されている点のみである。従って本実施例の音響モデル生成装置３００におけるデータ生成部３１０の尤度判定手段３１３以外の構成部については実施例２の対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。以下、尤度判定手段３１３の動作について説明する。

実施例２と同様に、音声区間検出手段２１２は、非音声尤度に基づいて、男性音声データ、女性音声データ、非音声データの別を判定する（ＳＳ２１２ＡＹ、Ｎ）。次に、尤度判定手段３１３は、音声区間検出手段２１２が音響モデルの生成に用いられる非音声データと判定したデータのうち、非音声尤度が予め定めたしきい値θを超えるデータのみを抽出して、当該抽出したデータを音響モデルの生成に用いる非音声データと再判定する（ＳＳ３１３ＡＹ）。尤度判定手段３１３によって音響モデルの生成に用いる非音声データと再判定されたデータは、非音声データ記憶手段２１４ｃに記憶される（ＳＳ３１３Ｂ）。一方、尤度判定手段３１３は、音声区間検出手段２１２が音響モデルの生成に用いられる非音声データと判定したデータのうち、非音声尤度がしきい値θ以下となるデータについては非音声データ記憶手段２１４ｃに記憶しない（ＳＳ３１３ＡＮ、エンド）。しきい値θは大きな値に設定しておくことが望ましい。

このように、本実施例の音響モデル生成装置３００によれば、実施例２の音響モデル生成装置２００の効果に加えて、非音声区間モデルを学習する際に、大量のデータ中から前述の音声区間検出法（特許文献２）に基づいて非常に高い（しきい値θを超過）尤度で非音声区間と判断されたデータ（音声区間とは厳密に区分された非音声区間のデータ）のみを用いることで、識別対象となるデータに対して、非音声区間では尤度が高く、音声区間では逆に尤度が低い値をとるような音響モデルを作成することができるため、認識精度を高めることができる。

以下、図４、図５を参照して音響モデルの生成に用いるデータを生成するデータ生成部を付加した実施例の一つである実施例４の音響モデル生成装置について説明する。図４は本実施例の音響モデル生成装置４００の構成を示すブロック図である。図５は本実施例の音響モデル生成装置４００の動作を示すフローチャートである。図４に示す通り、本実施例の音響モデル生成装置４００は、データ生成部４１０と、特徴量抽出部９３０と、モデル学習部９４０と、モデル統合部１５０とを備える。本実施例の音響モデル生成装置４００と実施例１の音響モデル生成装置１００との違いは、実施例１のデータ記憶部１１０が本実施例においてデータ生成部４１０に変更されている点のみである。従って本実施例の音響モデル生成装置４００におけるデータ生成部４１０以外の構成部については実施例１の対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。以下、データ生成部４１０の動作について、図１３、図１４を参照して説明する。図１３は本実施例の音響モデル生成装置４００が備えるデータ生成部４１０の構成を示すブロック図である。図１４は本実施例の音響モデル生成装置４００が備えるデータ生成部４１０の動作を示すフローチャートである。図１３に示す通り、本実施例の音響モデル生成装置４００が備えるデータ生成部４１０は、男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂと、初期識別手段４１５と、特徴量抽出手段４１６と、モデル学習統合手段４１７と、識別手段４１９と、男性音声データ記憶手段２１４ａと、女性音声データ記憶手段２１４ｂと、非音声データ記憶手段２１４ｃとを備える。実施例２、３と同様に、男性音声データ記憶手段２１１ａは、非音声データを含む男性音声データを予め記憶している。女性音声データ記憶手段２１１ｂは、非音声データを含む女性音声データを予め記憶している。実施例２、３と同様に、男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂとを一つにまとめてデータ記憶手段として構成することもできる。

初期識別手段４１５は、データ記憶手段に記憶されたデータが音声であるか非音声であるかを区間ごとに識別する（ＳＳ４１５）。ここで、初期識別手段４１５が行う初期音声／非音声識別については、一般的な音声認識技術を用いて音声認識を行って、音声として認識可能な区間を音声区間とし、それ以外の区間を非音声区間としてもよい。他にも、少量の音声・非音声区間を人手でラベルされたデータを用いて、式（１）で示すようなＧＭＭで音声区間と非音声区間を学習し、その尤度を用いて音声区間・非音声区間を識別するのでもよい。

次に、特徴量抽出手段４１６は、データ記憶手段に記憶されたデータから特徴量を抽出する（ＳＳ４１６）。モデル学習統合手段４１７は、記憶された非音声データを含む男性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮男性音声区間モデル４１８ａを、記憶された非音声データを含む女性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮女性音声区間モデル４１８ｂを、記憶されたデータのうち非音声と識別された区間のデータから抽出された特徴量から仮非音声区間モデル４１８ｃを学習し、仮男性音声区間モデル４１８ａと、仮非音声区間モデル４１８ｃを統合して仮男声音響モデルを生成し、仮女性音声区間モデル４１８ｂと、仮非音声区間モデル４１８ｃを統合して仮女声音響モデルを生成する（ＳＳ４１７）。識別手段４１９は、仮男声音響モデルと仮女声音響モデルとを用いて、記憶されたデータが音響モデルの生成に用いられる男性音声データ、女性音声データ、非音声データの何れに属するかを区間ごとに識別する（ＳＳ４１９）。

このように、本実施例の音響モデル生成装置４００によれば、実施例１の音響モデル生成装置１００の効果に加えて、初期識別手段４１５において初期識別されたデータに基づいてモデル学習統合手段４１７が仮の音響モデルを生成し、当該仮の音響モデルに基づいて、識別手段４１９が男性音声／女性音声／非音声の別を再度識別する二段階の識別を採用しているため、さらに高精度に音響モデルの生成に用いる男性音声データ、女性音声データ、非音声データを取得することができる。

以下、図４、図５を参照して音響モデルの生成に用いるデータを生成するデータ生成部を付加した実施例の一つである実施例５の音響モデル生成装置５００について説明する。図４は本実施例の音響モデル生成装置５００の構成を示すブロック図である。図５は本実施例の音響モデル生成装置５００の動作を示すフローチャートである。図４に示す通り、本実施例の音響モデル生成装置５００は、データ生成部５１０と、特徴量抽出部９３０と、モデル学習部９４０と、モデル統合部１５０とを備える。本実施例の音響モデル生成装置５００と実施例１の音響モデル生成装置１００との違いは、実施例１のデータ記憶部１１０が本実施例においてデータ生成部５１０に変更されている点のみである。従って本実施例の音響モデル生成装置５００におけるデータ生成部５１０以外の構成部については実施例１の対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。以下、データ生成部５１０の動作について、図１５、図１６を参照して説明する。図１５は本実施例の音響モデル生成装置５００が備えるデータ生成部５１０の構成を示すブロック図である。図１６は本実施例の音響モデル生成装置５００が備えるデータ生成部５１０の動作を示すフローチャートである。図１５に示す通り、本実施例の音響モデル生成装置５００が備えるデータ生成部５１０は、男性音声データ記憶手段２１１ａと、女性音声データ記憶手段２１１ｂと、混合音声データ記憶手段２１１ｃと、初期識別手段４１５と、男性音声データ記憶手段２１４ａと、女性音声データ記憶手段２１４ｂと、非音声データ記憶手段２１４ｃとを備える。実施例２、３、４と同様に、男性音声データ記憶手段２１１ａは、非音声データを含む男性音声データを予め記憶している。女性音声データ記憶手段２１１ｂは、非音声データを含む女性音声データを予め記憶している。混合音声データ記憶手段２１１ｃは、男性音声データ記憶手段２１１ａに記憶されている非音声データを含む男性音声データと、女性音声データ記憶手段２１１ｂに記憶されている非音声データを含む女性音声データとのすべてを混合した音声データ（以下、混合音声データという）を記憶している。なお、混合音声データとしては、必ずしも男性音声データ記憶手段２１１ａに記憶された男性音声データと、女性音声データ記憶手段２１１ｂに記憶された女性音声データとの混合である必要はなく、別途取得した男性、女性双方の発話データを適宜混合して生成してもよい。

初期識別手段４１５は、記憶されたデータが音声であるか非音声であるかを区間ごとに識別し、記憶された非音声データを含む男性音声データのうち音声であると識別された区間のデータを音響モデルの生成に用いられる男性音声データと判定し、記憶された非音声データを含む女性音声データのうち音声であると識別された区間のデータを音響モデルの生成に用いられる女性音声データと判定し、記憶された混合音声データのうち非音声であると識別された区間のデータを音響モデルの生成に用いられる非音声データと判定する（ＳＳ４１５）。ここで、初期識別手段４１５が行う初期音声／非音声識別については、実施例４と同様に、一般的な音声認識技術を用いて音声認識を行って、音声として認識可能な区間を音声区間とし、それ以外の区間を非音声区間としてもよいし、少量の音声・非音声区間を人手でラベルされたデータを用いて、ＧＭＭで音声区間と非音声区間を学習し、その尤度を用いて音声区間・非音声区間を識別するのでもよい。

サブステップＳＳ４１５において、音響モデルの生成に用いられる男性音声データ／女性音声データ／非音声データと判定されたデータはそれぞれ、男性音声データ記憶手段２１４ａと、女性音声データ記憶手段２１４ｂと、非音声データ記憶手段２１４ｃに記憶される。一方、非音声データを含む男性音声データのうち音声であると識別されなかったデータ、非音声データを含む女性音声データのうち音声であると識別されなかったデータ、混合音声データのうち非音声であると識別されなかったデータは全て破棄するなどして、男性音声データ記憶手段２１４ａと、女性音声データ記憶手段２１４ｂと、非音声データ記憶手段２１４ｃの何れにも記憶しない。

［変形例１〜５］
以下、図６、図７、図８を参照して実施例１〜５の変形例１〜５について説明する。図６は変形例１の音響モデル生成装置１００’の構成を示すブロック図である。図７は変形例２〜５の音響モデル生成装置２００’〜５００’の構成を示すブロック図である。図８は変形例１〜５の音響モデル生成装置１００’〜５００’の動作を示すフローチャートである。変形例１の音響モデル生成装置１００’は実施例１の音響モデル生成装置１００を変形したものである。変形例２の音響モデル生成装置２００’は実施例２の音響モデル生成装置２００を変形したものである。変形例３の音響モデル生成装置３００’は実施例３の音響モデル生成装置３００を変形したものである。変形例４の音響モデル生成装置４００’は実施例４の音響モデル生成装置４００を変形したものである。変形例５の音響モデル生成装置５００’は実施例５の音響モデル生成装置５００を変形したものである。

ここで、変形例１〜５の音響モデル生成装置１００’〜５００’は実施例１〜５の音響モデル生成装置１００〜５００のモデル学習部９４０をモデル学習部１４０に代替し、新たに雑音バリエーション記憶部１４５を設けたことを特徴とする。従って変形例１〜５の音響モデル生成装置１００’〜５００’が有するその他の構成部については対応する各実施例の音響モデル生成装置１００〜５００において対応する構成部と同じ番号を付し、同じ番号を付した各構成部の動作については同じ動作をするため説明を略する。

以下、雑音バリエーション記憶部１４５、モデル学習部１４０について説明する。モデル学習部１４０は、モデル学習部９４０と同様に、特徴量抽出部９３０が抽出した音響特徴量に基づいて、男性音声区間モデル、女性音声区間モデル、非音声区間モデルを学習するが、非音声区間モデルを学習する際には、雑音バリエーション記憶部１４５に予め記憶しておいた雑音のバリエーション数に比例した数よりも１大きい数の混合ガウス分布により非音声区間モデルを学習する（Ｓ１４０）。なお、雑音バリエーション記憶部１４５は必須の構成要素ではなく、ユーザ入力により直接モデル学習部１４０に雑音バリエーション数を入力するように構成することもできる。

このように、変形例１〜５の音響モデル生成装置１００’〜５００’によれば、音声データが目的に応じて収集されており、あらかじめデータ中に含まれる雑音の種別がわかっている場合に、非音声区間の学習において、ガウス分布の混合数を雑音のバリエーション数に比例した数＋１（完全無音部分）とすることで、音声に対する非音声区間モデルの尤度を非常に低い値に抑えることを可能とする一方で、非音声区間における非音声区間モデルの尤度をある程度高い値にすることが可能となり、非音声区間と音声区間の識別精度を向上させることができる。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータから特徴量を抽出する特徴量抽出部と、
前記男性音声データから抽出された特徴量から男性音声区間モデルを、前記女性音声データから抽出された特徴量から女性音声区間モデルを、前記非音声データから抽出された特徴量から非音声区間モデルを学習するモデル学習部と、
前記男性音声区間モデルと、前記非音声区間モデルを統合して男声音響モデルを生成し、前記女性音声区間モデルと、前記非音声区間モデルを統合して女声音響モデルを生成するモデル統合部と、
を備えることを特徴とする音響モデル生成装置。
請求項１に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと、非音声データを含む女性音声データを記憶するデータ記憶手段と、
前記記憶されたデータが非音声であることの尤度（以下、非音声尤度という）を予め定めた区間ごとに計算し、前記記憶された非音声データを含む男性音声データの非音声尤度が予め定めた値以下となる区間のデータを前記音響モデルの生成に用いられる男性音声データと判定し、前記記憶された非音声データを含む女性音声データの非音声尤度が予め定めた値以下となる区間のデータを前記音響モデルの生成に用いられる女性音声データと判定し、前記記憶されたデータの非音声尤度が予め定めた値を超える区間のデータを前記音響モデルの生成に用いられる非音声データと判定する音声区間検出手段と、
を備えることを特徴とする音響モデル生成装置。
請求項２に記載の音響モデル生成装置であって、
前記データ生成部が、
前記音声区間検出手段が前記音響モデルの生成に用いられる非音声データと判定したデータのうち、前記非音声尤度が予め定めたしきい値を超えるデータのみを抽出して、当該抽出したデータを前記音響モデルの生成に用いる非音声データと再判定する尤度判定手段をさらに備えること
を特徴とする音響モデル生成装置。
請求項１に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと、非音声データを含む女性音声データを記憶するデータ記憶手段と、
前記記憶されたデータが音声であるか非音声であるかを区間ごとに識別する初期識別手段と、
前記記憶されたデータから特徴量を抽出する特徴量抽出手段と、
前記記憶された非音声データを含む男性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮男性音声区間モデルを、前記記憶された非音声データを含む女性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮女性音声区間モデルを、前記記憶されたデータのうち非音声と識別された区間のデータから抽出された特徴量から仮非音声区間モデルを学習し、前記仮男性音声区間モデルと、前記仮非音声区間モデルを統合して仮男声音響モデルを生成し、前記仮女性音声区間モデルと、前記仮非音声区間モデルを統合して仮女声音響モデルを生成するモデル学習統合手段と、
前記仮男声音響モデルと前記仮女声音響モデルとを用いて、前記記憶されたデータが前記音響モデルの生成に用いられる男性音声データ、女性音声データ、非音声データの何れに属するかを区間ごとに識別する識別手段と、
を備えることを特徴とする音響モデル生成装置。
請求項１に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと非音声データを含む女性音声データとを混合した混合音声データと、前記非音声データを含む男性音声データと、前記非音声データを含む女性音声データと、を記憶するデータ記憶手段と、
前記記憶されたデータが音声であるか非音声であるかを区間ごとに識別し、前記記憶された非音声データを含む男性音声データのうち音声であると識別された区間のデータを前記音響モデルの生成に用いられる男性音声データと判定し、前記記憶された非音声データを含む女性音声データのうち音声であると識別された区間のデータを前記音響モデルの生成に用いられる女性音声データと判定し、前記記憶された混合音声データのうち非音声であると識別された区間のデータを前記音響モデルの生成に用いられる非音声データと判定する初期識別手段と、
を備えることを特徴とする音響モデル生成装置。
請求項１から５の何れかに記載の音響モデル生成装置であって、
前記モデル学習部が、雑音のバリエーション数に比例した数よりも１大きい数の混合ガウス分布により非音声区間モデルを学習すること
を特徴とする音響モデル生成装置。
男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる音響モデル生成方法であって、
前記音響モデルの生成に用いられるデータから特徴量を抽出する特徴量抽出ステップと、
前記男性音声データから抽出された特徴量から男性音声区間モデルを、前記女性音声データから抽出された特徴量から女性音声区間モデルを、前記非音声データから抽出された特徴量から非音声区間モデルを学習するモデル学習ステップと、
前記男性音声区間モデルと、前記非音声区間モデルを統合して男声音響モデルを生成し、前記女性音声区間モデルと、前記非音声区間モデルを統合して女声音響モデルを生成するモデル統合ステップと、
を備えることを特徴とする音響モデル生成方法。
コンピュータを、請求項１から６の何れかに記載の音響モデル生成装置として機能させるためのプログラム。