JP6220733B2

JP6220733B2 - 音声分類装置、音声分類方法、プログラム

Info

Publication number: JP6220733B2
Application number: JP2014117840A
Authority: JP
Inventors: 太一浅見; 亮増村; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-06-06
Filing date: 2014-06-06
Publication date: 2017-10-25
Anticipated expiration: 2034-06-06
Also published as: JP2015230455A

Description

本発明は、入力された音声の口調を判定して分類する音声分類装置、音声分類方法、プログラムに関する。

入力された音声信号が、原稿を読み上げた口調（以降、「読み上げ口調」と書く）であるか、あるいは自然な会話における口調（以降、「会話口調」と書く）であるかを自動的に識別する方法が非特許文献１に開示されている。この方法は、入力された音声信号のうち人間が発声している区間（以降、「発話」と書く）をＶＡＤ（Voice Activity Detection）技術によって切り出し、切り出された各発話に対して以下の手順を実行し、当該発話が読み上げ口調か会話口調かを識別する。

当該発話から基本的な韻律情報を抽出する。抽出するのは、分析フレームごとのピッチ（Ｆ０）および高調波成分対雑音比（ＨＮＲ）の値の系列および隣接フレームとのデルタ（ΔＦ０、ΔＨＮＲ）の系列、当該発話内での無声区間／有声区間／無音区間それぞれの長さ、である。Ｆ０、ＨＮＲ、ΔＦ０、ΔＨＮＲの系列から、それぞれの値の当該発話内での平均と分散、無声区間／有声区間／無音区間それぞれの長さの当該発話の全長に対する割合などを算出し、算出された値を所定の順序で並べた韻律特徴ベクトルを求める。

当該発話に対して音素認識を行い、認識結果の各音素ごとの継続時間長と尤度からそれぞれの平均、分散などの統計量を算出し、音素特徴ベクトルを求める。

韻律特徴ベクトルと音素特徴ベクトルを連結した発話特徴ベクトルを識別器に入力し、当該発話が読み上げ口調であるか会話口調であるかを識別する。識別器として非特許文献１ではＳＶＭ（Support Vector Machine）が利用されており、ＳＶＭのモデルパラメータは読み上げ口調であるか会話口調であるかが分かっている多数の発話から上記と同じ手順で抽出した多数の発話特徴ベクトルを用いて事前に学習されている。

Arlindo Veiga, Dirce Celorico, Jorge Proenca, Sara Candeias and Fernando Perdigao, "Prosodic and Phonetic Features for Speaking Styles Classification and Detection," Advances in Speech and Language Technologies for Iberian Languages, Communications in Computer and Information Science, Volume 328, pp 89-98, 2012.

従来技術の識別精度は十分でない。非特許文献１のＴａｂｌｅ．４によれば、会話口調の発話のうち３割程度は読み上げ口調だと誤識別されている。そこで、本発明では、音声が読み上げ口調であるか会話口調であるかを高精度に分類することができる音声分類装置を提供することを目的とする。

本発明の音声分類装置は、音響特徴量抽出部と、ベース発話モデル記憶部と、混合正規分布適応部と、スーパーベクトル算出部と、分散算出部と、モデルパラメータ記憶部と、口調識別部とを含む。

Ｎを２以上の整数とし、音響特徴量抽出部は、Ｎ個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計Ｎ個の音響特徴量系列を抽出する。ベース発話モデル記憶部は、予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを記憶する。混合正規分布適応部は、Ｎ個の音響特徴量系列のそれぞれにベース発話モデルを適応させてＮ個の発話モデルを生成する。スーパーベクトル算出部は、発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルをＮ個の発話モデルのそれぞれから一つずつ生成し、合計Ｎ個の発話スーパーベクトルを出力する。分散算出部は、Ｎ個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する。モデルパラメータ記憶部は、予め用意した発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータを記憶する。口調識別部は、生成された発話変動ベクトルと、識別器のモデルパラメータに基づいて、Ｎ個の発話の口調識別結果を生成する。

本発明の音声分類装置によれば、音声が読み上げ口調であるか会話口調であるかを高精度に分類することができる。

実施例１の音声分類装置、ベース発話モデル生成装置、モデルパラメータ学習装置の構成を示すブロック図。実施例１の音声分類装置が実行する音声分類方法を示すフローチャート。実施例１のベース発話モデル生成装置の動作を示すフローチャート。実施例１のモデルパラメータ学習装置の動作を示すフローチャート。

本発明によって音声が読み上げ口調であるか会話口調であるかを高精度に識別することが可能になると、読み上げ口調と会話口調の音声が混在した音声データベースから、それぞれの口調の音声だけを選別することができる。例えばＷｅｂ上の動画データ中のナレーションの音声は読み上げ口調であることが多く、一方で日常会話のシーンの音声は会話口調となっており、動画データを収集したデータベースには両方の口調の音声が混在する。それぞれの口調の音声だけを選別することができれば、音声認識に用いる音響モデルとして、読み上げ口調専用の音響モデルと会話口調専用の音響モデルをそれぞれ別個に構築することができる。音響モデルを口調ごとに分けて構築すると、分けない場合よりも音声認識精度が向上するため、本発明によってこれまでよりも認識精度の高い音声認識システムが構築可能となり、音声認識システム利用者にとっての利便性が向上する。

従来技術（例えば前述した非特許文献１）では１つの発話から得られる様々な情報を抽出して韻律特徴ベクトルや音素特徴ベクトルを構成し、読み上げ口調か会話口調かを識別している。しかし、特に会話口調の発話では母音の無声化などの現象が増加するためＦ０やＨＮＲの推定誤差が大きくなり、また音素認識誤りも増加するため、正しい韻律／音素特徴ベクトルを得るのが難しくなる。このことが会話口調の発話の識別精度が低下する原因だと考えられる。本発明は従来技術とは異なり、韻律情報や音素情報は識別に用いない。そのため、Ｆ０やＨＮＲの推定誤差や音素認識誤りによって識別性能を低下させる心配はない。

本発明では、音声信号中に存在する複数の発話を見ることで初めて得られる情報を識別に用いる。具体的には、複数の発話間での音響特徴量の変動の度合いを定量化した発話変動ベクトルを用いて口調の識別を行う。読み上げ口調は発声の仕方のバリエーションが会話口調よりも少ないため、発話間の音響特徴量の変動は比較的小さくなり、逆に会話口調では発話間の音響特徴量の変動は大きくなる。本発明はこの現象を応用した装置／方法／プログラムである。

発話変動ベクトルは次のようにして算出される。まず、口調を識別したい対象の複数の発話それぞれに含まれる音響特徴量に混合正規分布を当てはめて、各発話の発話モデルを得る。得られた複数の発話モデルのモデルパラメータ（混合正規分布の平均ベクトル）それぞれの分散を計算し、それらを並べることで発話変動ベクトルを構築する。発話変動ベクトルは、発話と発話の間で音響特徴量がどのように変動しているか（発話間の変動が大きいか小さいか）を表すベクトルとなる。

発話変動ベクトルを識別器への入力とすることで、高精度に読み上げ口調と会話口調を識別することができる。識別器として３層パーセプトロンを利用し、混合正規分布の混合数を１２８とし、２０発話から求めた発話変動ベクトルで識別を行った場合、未知話者３０名の計５５８８８発話の口調を９６．５％の精度で識別可能であった。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１を参照して本発明の実施例１の音声分類装置１、音声分類装置１の動作に必要なデータを生成する装置であるベース発話モデル生成装置２、およびモデルパラメータ学習装置３について説明する。図１は、本実施例の音声分類装置１、ベース発話モデル生成装置２、モデルパラメータ学習装置３の構成を示すブロック図である。

図１に示すように、本実施例の音声分類装置１は、音響特徴量抽出部１０１と、混合正規分布適応部１０２と、スーパーベクトル算出部１０３と、分散算出部１０４と、口調識別部１０５と、ベース発話モデル記憶部１０６と、モデルパラメータ記憶部１０７を含む。ベース発話モデル生成装置２は、音響特徴量抽出部１０１と、混合正規分布当てはめ部１１０を含む。モデルパラメータ学習装置３は、音響特徴量抽出部１０１と、混合正規分布適応部１０２と、スーパーベクトル算出部１０３と、分散算出部１０４と、口調識別器学習部１２０を含む。

音響特徴量抽出部１０１と、混合正規分布適応部１０２と、スーパーベクトル算出部１０３と、分散算出部１０４については、図１に示された複数の装置間で共通して用いられる構成であって、その機能は同じである。ただし、後述するように各装置に対する入力は異なるため、共通する構成同士であってもその入出力は異なる。

本実施例の音声分類装置１への最初の入力であるＮ個の発話は、本実施例の音声分類装置１を利用するシステム（図示略）によって作成される。例えば、システムに入力された音声信号からＶＡＤ技術によって発話を切り出し、音声信号の冒頭からＮ個連続して切り出された発話を本実施例の音声分類装置１に入力する等の方法がある。Ｎは２以上の整数であり、通常は５〜２０程度の値を用いる。Ｎを大きくすれば分散算出部１０４で得られる発話変動ベクトルの正確性が向上するため識別精度が向上するが、動作するのに必要な発話数が増加するため遅延時間が増大するというトレードオフがある。本実施例の音声分類装置１ではＮ＝５としても十分な識別精度が得られることが確認されている。また、本発明では「Ｎ個の発話」単位で読み上げ口調か会話口調かを判定する。すなわち、音声分類装置１は、「Ｎ個の発話」が「全て読み上げ口調」であるか、あるいは「全て会話口調」であるかを判定する。そのため、「Ｎ個の発話」に複数の口調が混在していることは好ましくない。「Ｎ個の発話」に複数の口調が混在し得る場合は、Ｎを小さな値に設定することで「Ｎ個の発話」中に複数の口調が混在するケースを減らすことができるため、特にそのような場合ではＮを５程度の小さな値にするのが良い。

＜音響特徴量抽出部１０１＞
入力：Ｎ個の発話
出力：Ｎ個の音響特徴量系列（混合正規分布適応部１０２へ）
音響特徴量抽出部１０１は、入力されたＮ個の発話それぞれから、発話ごとの音響特徴量系列を抽出し、得られたＮ個の音響特徴量系列を混合正規分布適応部１０２へ出力する（Ｓ１０１）。別の表現では、音響特徴量抽出部１０１は、Ｎ個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計Ｎ個の音響特徴量系列を抽出する（Ｓ１０１）。

具体的には、音響特徴量抽出部１０１は、１つの発話を数十ｍｓｅｃの音響分析フレームに分割し、各音響分析フレームから音響特徴量を抽出し、各音響分析フレームの音響特徴量をフレームの時間順に並べた音響特徴量系列を取得する。音響特徴量は実数値ベクトルであり、ＭＦＣＣやＬＰＣケプストラムなど既存のいずれの手法で抽出しても構わない。なお、抽出誤差が口調の識別に悪影響を与えるおそれはあるものの、Ｆ０やＨＮＲなどの値を音響特徴量に含めてもよい。

＜混合正規分布適応部１０２＞
入力：Ｎ個の音響特徴量系列（音響特徴量抽出部１０１から）、ベース発話モデル
出力：Ｎ個の発話モデル（スーパーベクトル算出部１０３へ）
混合正規分布適応部１０２は、入力されたＮ個の音響特徴量系列それぞれに対してベース発話モデル（ベース発話モデル記憶部１０６に記憶されている、詳細は後述）を適応させてＮ個の発話モデルを生成し、得られたＮ個の発話モデルをスーパーベクトル算出部１０３へ出力する（Ｓ１０２）。

混合正規分布適応部１０２は、１つの音響特徴量系列へのベース発話モデルの適応には、例えば、参考非特許文献１に開示されている平均ベクトルのＭＡＰ推定を用いる。ベース発話モデルは混合正規分布であり、モデルパラメータとして、混合数M、混合数と同数の混合重みw_m(1≦m≦M)、混合数と同数の平均ベクトルμ_m(1≦m≦M)、混合数と同数の共分散行列Σ_m(1≦m≦M)、を持つ。ベース発話モデルの各モデルパラメータの値は事前に求めておく（方法は後述する）。ベース発話モデルの平均ベクトルμ_mを当該音響特徴量系列に適応させて得られる発話モデルも混合正規分布であり、平均ベクトル以外のモデルパラメータの値はベース発話モデルと同一である。発話モデルのm番目の平均ベクトルμ^_mは、文献２の式（１７）によって以下のように算出する。

τはベース発話モデルの平均ベクトルをどの程度重視するかを表す正の実数値であり、混合正規分布適応部１０２に事前に設定されている（通常は１とする）。Tは当該音響特徴量系列の音響分析フレーム数（音響特徴量の総数）である。x_tは当該音響特徴量系列のうち、t番目の音響特徴量である。c_mtはt番目の音響特徴量x_tがベース発話モデルのm番目の混合成分（正規分布）から出力される事後確率である。

以上の方法で得られる各発話の発話モデルは、当該発話における音響特徴量の分布を表す。ＭＡＰ推定を用いることにより、発話に含まれる音響特徴量の数が少ない（発話が短い）場合でも正確な分布を求めることができる。
（参考非特許文献１：篠田浩一,“確率モデルによる音声認識のための話者適応化技術,”電子情報通信学会論文誌.D-II,情報・システム,II-パターン処理,J87-D-II(2),pp.371-386, 2004-02-01.）

＜ベース発話モデル生成装置２＞
以下、引き続き図１、新たに図３を参照してベース発話モデル生成装置２について説明する。図３は、本実施例のベース発話モデル生成装置２の動作を示すフローチャートである。混合正規分布適応部１０２に入力されるベース発話モデルは以下に示す方法で、ベース発話モデル生成装置２により事前に作成される。まず、大量（数十〜百時間程度、所定量とも表現する）の発話を用意する。この大量（所定量）の発話をベース発話モデル生成装置２に入力する。ベース発話モデル生成装置２の音響特徴量抽出部１０１は、入力された発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、大量（所定量）の音響特徴量系列を抽出する（Ｓ１０１）。ベース発話モデル生成装置２の音響特徴量抽出部１０１は、抽出された大量（所定量）の音響特徴量系列を混合正規分布当てはめ部１１０に入力する。混合正規分布当てはめ部１１０は、大量（所定量）の音響特徴量系列からベース発話モデルを作成する（詳細は後述）。大量（所定量）の発話は複数人の話者によるものであることが好ましいが、１名でも構わない。また、大量（所定量）の発話の話者は音声分類装置１に入力されるＮ個の発話の話者と同じでも良いし異なっていても良い。

＜混合正規分布当てはめ部１１０＞
入力：大量（所定量）の音響特徴量系列、混合数
出力：ベース発話モデル
混合正規分布当てはめ部１１０は、入力された大量（所定量）の音響特徴量系列に対して、入力された混合数の混合正規分布を当てはめてベース発話モデルの各モデルパラメータの値を求め、得られたベース発話モデルを出力する（Ｓ１１０）。音響特徴量系列への混合正規分布の当てはめ（モデルパラメータの推定）には例えば参考非特許文献２などに記載されている一般的なＥＭ（Expectation Maximization）アルゴリズムを用いる。混合数は１以上の整数であり、大きくするとより精緻に音響特徴量の分布を捉えることができるが、モデルパラメータの数が増加するため推定に必要な音響特徴量の数が増加する。通常１２８程度の混合数を用いる。混合正規分布当てはめ部１１０は、生成したベース発話モデルをベース発話モデル記憶部１０６に記憶する。
（参考非特許文献２：C.M.ビショップ,“パターン認識と機械学習（下）,”pp.154-155,シュプリンガー・ジャパン株式会社,2008-07-01.）

＜ベース発話モデル記憶部１０６＞
ベース発話モデル記憶部１０６は、前述したように、予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを記憶している。

＜スーパーベクトル算出部１０３＞
入力：Ｎ個の発話モデル（混合正規分布適応部１０２から）
出力：Ｎ個の発話スーパーベクトル（分散算出部１０４へ）
次に、スーパーベクトル算出部１０３は、入力されたＮ個の発話モデルそれぞれから発話スーパーベクトルを算出し、得られたＮ個の発話スーパーベクトルを分散算出部１０４へ出力する（Ｓ１０３）。発話スーパーベクトルは、発話モデルが持つM個の平均ベクトル

を順に連結して作成したベクトル

である（「’」は行列およびベクトルの転置を表す）。以下の式のように混合重みと共分散行列を用いて正規化した平均ベクトルを連結して発話スーパーベクトルφを作成しても良い。

以上のように各発話の発話モデルから算出した発話スーパーベクトルは、当該発話の音響特徴量の分布を表すベクトルである。各発話の音響特徴量系列にベース発話モデル（混合正規分布）を適応させて発話モデルを作成し、作成した発話モデルから発話スーパーベクトルを得ることにより、それぞれ長さの異なる発話を決まった次元数のベクトルで表現することができる。なお、発話スーパーベクトルの次元数は音響特徴量の次元数×混合数となり、一般的な３８次元の音響特徴量を用いて、発話モデル（混合正規分布）の混合数を１２８とした場合は３８×１２８＝４８６４次元となる。

ステップＳ１０３は、以下のようにも表現できる。すなわち、スーパーベクトル算出部１０３は、発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルをＮ個の発話モデルのそれぞれから一つずつ生成し、合計Ｎ個の発話スーパーベクトルを出力する（Ｓ１０３）。

＜分散算出部１０４＞
入力：Ｎ個の発話スーパーベクトル（スーパーベクトル算出部１０３から）
出力：発話変動ベクトル（口調識別部１０５へ）
分散算出部１０４は、入力されたＮ個の発話スーパーベクトルから発話変動ベクトルを算出し、口調識別部１０５へ出力する。発話変動ベクトルはＮ個の発話スーパーベクトルの各次元の値の分散を並べたベクトルであり、発話スーパーベクトルと同一の次元数を持つ（発話変動ベクトルおよび発話スーパーベクトルの次元数をDと書く）。発話変動ベクトルψは以下の式により算出される。

μ^〜 _ndは入力されたＮ個の発話スーパーベクトルのうちn番目の発話スーパーベクトルのd次元目の値である。

発話変動ベクトルは、入力されたＮ個の発話スーパーベクトルの各次元の値がどの程度バラついているかを表すベクトルであり、読み上げ口調のようにＮ個の発話のいずれも発声の仕方が似ている場合には各次元の値が小さくなり、会話口調のように発話ごとに発声の仕方が異なる場合には各次元の値が大きくなる傾向がある。

ステップＳ１０４は、以下のようにも表現できる。分散算出部１０４は、Ｎ個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する（Ｓ１０４）。

＜口調識別部１０５＞
入力：発話変動ベクトル（分散算出部１０４から）、識別器のモデルパラメータ
出力：口調識別結果
口調識別部１０５は、入力された発話変動ベクトルを識別器に入力し、得られた口調識別結果（最初に入力されたＮ個の発話が読み上げ口調であるか会話口調であるか）を出力する（Ｓ１０５）。識別器は同時に入力された識別器のモデルパラメータを用いて動作させる。識別器のモデルパラメータは事前に求めておく。識別器のモデルパラメータの生成方法については後述する。

識別器としては、実数ベクトルを少なくとも２値に分類することが可能であればいずれの手法を用いても良い。例えば入力ベクトルの各次元の値が所定の閾値以上か未満かによって分類を行う決定木でも良いし、入力ベクトルと所定の重みベクトルとの内積の符号によって分類する線形識別器でも良いし、サポートベクタマシンでも良いし、多層パーセプトロンでも良い。また、識別器を複数組み合わせて識別精度の高い１つの識別器を構成するバギングやブースティングなどの手法を用いても良い。

いずれの識別器を用いる場合でも、事前に識別器のモデルパラメータを学習しておく必要がある。読み上げ口調であるか会話口調であるか分かっている（口調ラベルが付与されている）Ｎ個の発話を大量に用いることで学習が可能である。

ステップＳ１０５は、以下のようにも表現できる。口調識別部１０５は、生成された発話変動ベクトルと、識別器のモデルパラメータに基づいて、Ｎ個の発話ごとに口調識別結果を生成する（Ｓ１０５）。

＜モデルパラメータ学習装置３＞
以下、引き続き図１、新たに図４を参照してモデルパラメータ学習装置３について説明する。図４は本実施例のモデルパラメータ学習装置３の動作を示すフローチャートである。まず、口調ラベルが付与されているＮ個の発話を大量に（通常は３０時間分程度、以下「所定量の組」とも表現する）用意し、モデルパラメータ学習装置３に入力する。モデルパラメータ学習装置３の音響特徴量抽出部１０１は、所定量の組のＮ個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計（所定量の組×Ｎ）個の音響特徴量系列を抽出する（Ｓ１０１）。モデルパラメータ学習装置３の混合正規分布適応部１０２は、Ｎ個の音響特徴量系列のそれぞれにベース発話モデルを適応させて（所定量の組×Ｎ）個の発話モデルを生成する（Ｓ１０２）。スーパーベクトル算出部１０３は、発話スーパーベクトルを（所定量の組×Ｎ）個の発話モデルのそれぞれから一つずつ生成し、合計（所定量の組×Ｎ）個の発話スーパーベクトルを出力する（Ｓ１０３）。分散算出部１０４は、Ｎ個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを組ごとに生成し、発話変動ベクトルを所定量の組数分生成する（Ｓ１０４）。このようにして、モデルパラメータ学習装置３はＮ個の発話から発話変動ベクトルを一つずつ算出する。分散算出部１０４は、得られた大量（所定量の組数）の発話変動ベクトルと口調ラベルのペアを口調識別器学習部１２０に入力する。

＜口調識別器学習部１２０＞
入力：発話変動ベクトルと口調ラベルのペアの集合（所定量の組）
出力：識別器のモデルパラメータ
口調識別器学習部１２０は、入力された発話変動ベクトルと口調ラベルのペアの集合に対して、識別精度を最大化する識別器のモデルパラメータを算出し、出力する（Ｓ１２０）。

例えば識別器として多層パーセプトロンを用いる場合は、各層と層の間の結合重み行列がモデルパラメータであり、識別精度を最大化するモデルパラメータは例えば参考非特許文献３などに記載されている一般的な誤差逆伝播法などで算出する。口調識別器学習部１２０は、算出した識別器のモデルパラメータをモデルパラメータ記憶部１０７に記憶する。
（参考非特許文献３：Anil K. Jain, Mao Jianchang, and K. M. Mohiuddin, "Artificial Neural Networks: A Tutorial," IEEE computer, vol.29, no.3, pp.31-44, 1996.）

＜モデルパラメータ記憶部１０７＞
前述したように、モデルパラメータ記憶部１０７は、予め用意した発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータを記憶する。

以上のように、本発明で口調の識別に用いる発話変動ベクトルは、Ｆ０やＨＮＲなどの韻律情報や音素認識結果から得られる音素情報を用いずに算出することができる。発話変動ベクトルは読み上げ口調と会話口調それぞれの特徴を良く表現しており、かつ韻律情報や音素情報の抽出エラーが識別精度に与える悪影響とは無縁なため、口調識別部１０５において高精度な口調の識別が可能である。

本発明では発話変動ベクトルを読み上げ口調か会話口調かの識別のために利用しているが、発話間の音響的な変動を特徴として捉えて利用したい他の処理にも活用できる。例えば、発話者の感情認識や、問診の受け答えの発話から抑うつ状態かどうかを推定するような医療向け用途への応用なども考えられる。

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｎを２以上の整数とし、
Ｎ個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計Ｎ個の前記音響特徴量系列を抽出する音響特徴量抽出部と、
予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを記憶するベース発話モデル記憶部と、
前記Ｎ個の音響特徴量系列のそれぞれに前記ベース発話モデルを適応させてＮ個の発話モデルを生成する混合正規分布適応部と、
前記発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルを前記Ｎ個の発話モデルのそれぞれから一つずつ生成し、合計Ｎ個の前記発話スーパーベクトルを出力するスーパーベクトル算出部と、
前記Ｎ個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する分散算出部と、
予め用意した前記発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータを記憶するモデルパラメータ記憶部と、
前記生成された発話変動ベクトルと、前記識別器のモデルパラメータに基づいて、前記Ｎ個の発話ごとに口調識別結果を生成する口調識別部と、
を含む音声分類装置。
請求項１に記載の音声分類装置であって、
前記Ｎを２０以下の整数とする
音声分類装置。
請求項２に記載の音声分類装置であって、
前記Ｎを５とする
音声分類装置。
請求項１から３の何れかに記載の音声分類装置であって、
前記音響特徴量系列は、音響特徴量として、ＭＦＣＣ、ＬＰＣケプストラム、分析フレームごとのピッチ、高調波成分対雑音比のいずれかを含む
音声分類装置。
Ｎを２以上の整数とし、
Ｎ個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計Ｎ個の前記音響特徴量系列を抽出する音響特徴量抽出ステップと、
予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを、前記Ｎ個の音響特徴量系列のそれぞれに適応させてＮ個の発話モデルを生成する混合正規分布適応ステップと、
前記発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルを前記Ｎ個の発話モデルのそれぞれから一つずつ生成し、合計Ｎ個の前記発話スーパーベクトルを出力するスーパーベクトル算出ステップと、
前記Ｎ個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する分散算出ステップと、
予め用意した前記発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータと、前記生成された発話変動ベクトルに基づいて、前記Ｎ個の発話ごとに口調識別結果を生成する口調識別ステップと、
を含む音声分類方法。
請求項５に記載の音声分類方法であって、
前記Ｎを２０以下の整数とする
音声分類方法。
請求項６に記載の音声分類方法であって、
前記Ｎを５とする
音声分類方法。
コンピュータを、請求項１から４の何れかに記載の音声分類装置として機能させるためのプログラム。