JP6220733B2 - 音声分類装置、音声分類方法、プログラム - Google Patents

音声分類装置、音声分類方法、プログラム Download PDF

Info

Publication number
JP6220733B2
JP6220733B2 JP2014117840A JP2014117840A JP6220733B2 JP 6220733 B2 JP6220733 B2 JP 6220733B2 JP 2014117840 A JP2014117840 A JP 2014117840A JP 2014117840 A JP2014117840 A JP 2014117840A JP 6220733 B2 JP6220733 B2 JP 6220733B2
Authority
JP
Japan
Prior art keywords
utterance
tone
acoustic feature
model
utterances
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014117840A
Other languages
English (en)
Other versions
JP2015230455A (ja
Inventor
太一 浅見
太一 浅見
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014117840A priority Critical patent/JP6220733B2/ja
Publication of JP2015230455A publication Critical patent/JP2015230455A/ja
Application granted granted Critical
Publication of JP6220733B2 publication Critical patent/JP6220733B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力された音声の口調を判定して分類する音声分類装置、音声分類方法、プログラムに関する。
入力された音声信号が、原稿を読み上げた口調(以降、「読み上げ口調」と書く)であるか、あるいは自然な会話における口調(以降、「会話口調」と書く)であるかを自動的に識別する方法が非特許文献1に開示されている。この方法は、入力された音声信号のうち人間が発声している区間(以降、「発話」と書く)をVAD(Voice Activity Detection)技術によって切り出し、切り出された各発話に対して以下の手順を実行し、当該発話が読み上げ口調か会話口調かを識別する。
当該発話から基本的な韻律情報を抽出する。抽出するのは、分析フレームごとのピッチ(F0)および高調波成分対雑音比(HNR)の値の系列および隣接フレームとのデルタ(ΔF0、ΔHNR)の系列、当該発話内での無声区間/有声区間/無音区間それぞれの長さ、である。F0、HNR、ΔF0、ΔHNRの系列から、それぞれの値の当該発話内での平均と分散、無声区間/有声区間/無音区間それぞれの長さの当該発話の全長に対する割合などを算出し、算出された値を所定の順序で並べた韻律特徴ベクトルを求める。
当該発話に対して音素認識を行い、認識結果の各音素ごとの継続時間長と尤度からそれぞれの平均、分散などの統計量を算出し、音素特徴ベクトルを求める。
韻律特徴ベクトルと音素特徴ベクトルを連結した発話特徴ベクトルを識別器に入力し、当該発話が読み上げ口調であるか会話口調であるかを識別する。識別器として非特許文献1ではSVM(Support Vector Machine)が利用されており、SVMのモデルパラメータは読み上げ口調であるか会話口調であるかが分かっている多数の発話から上記と同じ手順で抽出した多数の発話特徴ベクトルを用いて事前に学習されている。
Arlindo Veiga, Dirce Celorico, Jorge Proenca, Sara Candeias and Fernando Perdigao, "Prosodic and Phonetic Features for Speaking Styles Classification and Detection," Advances in Speech and Language Technologies for Iberian Languages, Communications in Computer and Information Science, Volume 328, pp 89-98, 2012.
従来技術の識別精度は十分でない。非特許文献1のTable.4によれば、会話口調の発話のうち3割程度は読み上げ口調だと誤識別されている。そこで、本発明では、音声が読み上げ口調であるか会話口調であるかを高精度に分類することができる音声分類装置を提供することを目的とする。
本発明の音声分類装置は、音響特徴量抽出部と、ベース発話モデル記憶部と、混合正規分布適応部と、スーパーベクトル算出部と、分散算出部と、モデルパラメータ記憶部と、口調識別部とを含む。
Nを2以上の整数とし、音響特徴量抽出部は、N個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計N個の音響特徴量系列を抽出する。ベース発話モデル記憶部は、予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを記憶する。混合正規分布適応部は、N個の音響特徴量系列のそれぞれにベース発話モデルを適応させてN個の発話モデルを生成する。スーパーベクトル算出部は、発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルをN個の発話モデルのそれぞれから一つずつ生成し、合計N個の発話スーパーベクトルを出力する。分散算出部は、N個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する。モデルパラメータ記憶部は、予め用意した発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータを記憶する。口調識別部は、生成された発話変動ベクトルと、識別器のモデルパラメータに基づいて、N個の発話の口調識別結果を生成する。
本発明の音声分類装置によれば、音声が読み上げ口調であるか会話口調であるかを高精度に分類することができる。
実施例1の音声分類装置、ベース発話モデル生成装置、モデルパラメータ学習装置の構成を示すブロック図。 実施例1の音声分類装置が実行する音声分類方法を示すフローチャート。 実施例1のベース発話モデル生成装置の動作を示すフローチャート。 実施例1のモデルパラメータ学習装置の動作を示すフローチャート。
本発明によって音声が読み上げ口調であるか会話口調であるかを高精度に識別することが可能になると、読み上げ口調と会話口調の音声が混在した音声データベースから、それぞれの口調の音声だけを選別することができる。例えばWeb上の動画データ中のナレーションの音声は読み上げ口調であることが多く、一方で日常会話のシーンの音声は会話口調となっており、動画データを収集したデータベースには両方の口調の音声が混在する。それぞれの口調の音声だけを選別することができれば、音声認識に用いる音響モデルとして、読み上げ口調専用の音響モデルと会話口調専用の音響モデルをそれぞれ別個に構築することができる。音響モデルを口調ごとに分けて構築すると、分けない場合よりも音声認識精度が向上するため、本発明によってこれまでよりも認識精度の高い音声認識システムが構築可能となり、音声認識システム利用者にとっての利便性が向上する。
従来技術(例えば前述した非特許文献1)では1つの発話から得られる様々な情報を抽出して韻律特徴ベクトルや音素特徴ベクトルを構成し、読み上げ口調か会話口調かを識別している。しかし、特に会話口調の発話では母音の無声化などの現象が増加するためF0やHNRの推定誤差が大きくなり、また音素認識誤りも増加するため、正しい韻律/音素特徴ベクトルを得るのが難しくなる。このことが会話口調の発話の識別精度が低下する原因だと考えられる。本発明は従来技術とは異なり、韻律情報や音素情報は識別に用いない。そのため、F0やHNRの推定誤差や音素認識誤りによって識別性能を低下させる心配はない。
本発明では、音声信号中に存在する複数の発話を見ることで初めて得られる情報を識別に用いる。具体的には、複数の発話間での音響特徴量の変動の度合いを定量化した発話変動ベクトルを用いて口調の識別を行う。読み上げ口調は発声の仕方のバリエーションが会話口調よりも少ないため、発話間の音響特徴量の変動は比較的小さくなり、逆に会話口調では発話間の音響特徴量の変動は大きくなる。本発明はこの現象を応用した装置/方法/プログラムである。
発話変動ベクトルは次のようにして算出される。まず、口調を識別したい対象の複数の発話それぞれに含まれる音響特徴量に混合正規分布を当てはめて、各発話の発話モデルを得る。得られた複数の発話モデルのモデルパラメータ(混合正規分布の平均ベクトル)それぞれの分散を計算し、それらを並べることで発話変動ベクトルを構築する。発話変動ベクトルは、発話と発話の間で音響特徴量がどのように変動しているか(発話間の変動が大きいか小さいか)を表すベクトルとなる。
発話変動ベクトルを識別器への入力とすることで、高精度に読み上げ口調と会話口調を識別することができる。識別器として3層パーセプトロンを利用し、混合正規分布の混合数を128とし、20発話から求めた発話変動ベクトルで識別を行った場合、未知話者30名の計55888発話の口調を96.5%の精度で識別可能であった。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1を参照して本発明の実施例1の音声分類装置1、音声分類装置1の動作に必要なデータを生成する装置であるベース発話モデル生成装置2、およびモデルパラメータ学習装置3について説明する。図1は、本実施例の音声分類装置1、ベース発話モデル生成装置2、モデルパラメータ学習装置3の構成を示すブロック図である。
図1に示すように、本実施例の音声分類装置1は、音響特徴量抽出部101と、混合正規分布適応部102と、スーパーベクトル算出部103と、分散算出部104と、口調識別部105と、ベース発話モデル記憶部106と、モデルパラメータ記憶部107を含む。ベース発話モデル生成装置2は、音響特徴量抽出部101と、混合正規分布当てはめ部110を含む。モデルパラメータ学習装置3は、音響特徴量抽出部101と、混合正規分布適応部102と、スーパーベクトル算出部103と、分散算出部104と、口調識別器学習部120を含む。
音響特徴量抽出部101と、混合正規分布適応部102と、スーパーベクトル算出部103と、分散算出部104については、図1に示された複数の装置間で共通して用いられる構成であって、その機能は同じである。ただし、後述するように各装置に対する入力は異なるため、共通する構成同士であってもその入出力は異なる。
本実施例の音声分類装置1への最初の入力であるN個の発話は、本実施例の音声分類装置1を利用するシステム(図示略)によって作成される。例えば、システムに入力された音声信号からVAD技術によって発話を切り出し、音声信号の冒頭からN個連続して切り出された発話を本実施例の音声分類装置1に入力する等の方法がある。Nは2以上の整数であり、通常は5〜20程度の値を用いる。Nを大きくすれば分散算出部104で得られる発話変動ベクトルの正確性が向上するため識別精度が向上するが、動作するのに必要な発話数が増加するため遅延時間が増大するというトレードオフがある。本実施例の音声分類装置1ではN=5としても十分な識別精度が得られることが確認されている。また、本発明では「N個の発話」単位で読み上げ口調か会話口調かを判定する。すなわち、音声分類装置1は、「N個の発話」が「全て読み上げ口調」であるか、あるいは「全て会話口調」であるかを判定する。そのため、「N個の発話」に複数の口調が混在していることは好ましくない。「N個の発話」に複数の口調が混在し得る場合は、Nを小さな値に設定することで「N個の発話」中に複数の口調が混在するケースを減らすことができるため、特にそのような場合ではNを5程度の小さな値にするのが良い。
<音響特徴量抽出部101>
入力:N個の発話
出力:N個の音響特徴量系列(混合正規分布適応部102へ)
音響特徴量抽出部101は、入力されたN個の発話それぞれから、発話ごとの音響特徴量系列を抽出し、得られたN個の音響特徴量系列を混合正規分布適応部102へ出力する(S101)。別の表現では、音響特徴量抽出部101は、N個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計N個の音響特徴量系列を抽出する(S101)。
具体的には、音響特徴量抽出部101は、1つの発話を数十msecの音響分析フレームに分割し、各音響分析フレームから音響特徴量を抽出し、各音響分析フレームの音響特徴量をフレームの時間順に並べた音響特徴量系列を取得する。音響特徴量は実数値ベクトルであり、MFCCやLPCケプストラムなど既存のいずれの手法で抽出しても構わない。なお、抽出誤差が口調の識別に悪影響を与えるおそれはあるものの、F0やHNRなどの値を音響特徴量に含めてもよい。
<混合正規分布適応部102>
入力:N個の音響特徴量系列(音響特徴量抽出部101から)、ベース発話モデル
出力:N個の発話モデル(スーパーベクトル算出部103へ)
混合正規分布適応部102は、入力されたN個の音響特徴量系列それぞれに対してベース発話モデル(ベース発話モデル記憶部106に記憶されている、詳細は後述)を適応させてN個の発話モデルを生成し、得られたN個の発話モデルをスーパーベクトル算出部103へ出力する(S102)。
混合正規分布適応部102は、1つの音響特徴量系列へのベース発話モデルの適応には、例えば、参考非特許文献1に開示されている平均ベクトルのMAP推定を用いる。ベース発話モデルは混合正規分布であり、モデルパラメータとして、混合数M、混合数と同数の混合重みwm(1≦m≦M)、混合数と同数の平均ベクトルμm(1≦m≦M)、混合数と同数の共分散行列Σm(1≦m≦M)、を持つ。ベース発話モデルの各モデルパラメータの値は事前に求めておく(方法は後述する)。ベース発話モデルの平均ベクトルμmを当該音響特徴量系列に適応させて得られる発話モデルも混合正規分布であり、平均ベクトル以外のモデルパラメータの値はベース発話モデルと同一である。発話モデルのm番目の平均ベクトルμ^mは、文献2の式(17)によって以下のように算出する。
Figure 0006220733
τはベース発話モデルの平均ベクトルをどの程度重視するかを表す正の実数値であり、混合正規分布適応部102に事前に設定されている(通常は1とする)。Tは当該音響特徴量系列の音響分析フレーム数(音響特徴量の総数)である。xtは当該音響特徴量系列のうち、t番目の音響特徴量である。cmtはt番目の音響特徴量xtがベース発話モデルのm番目の混合成分(正規分布)から出力される事後確率である。
以上の方法で得られる各発話の発話モデルは、当該発話における音響特徴量の分布を表す。MAP推定を用いることにより、発話に含まれる音響特徴量の数が少ない(発話が短い)場合でも正確な分布を求めることができる。
(参考非特許文献1:篠田浩一,“確率モデルによる音声認識のための話者適応化技術,”電子情報通信学会論文誌.D-II,情報・システム,II-パターン処理,J87-D-II(2),pp.371-386, 2004-02-01.)
<ベース発話モデル生成装置2>
以下、引き続き図1、新たに図3を参照してベース発話モデル生成装置2について説明する。図3は、本実施例のベース発話モデル生成装置2の動作を示すフローチャートである。混合正規分布適応部102に入力されるベース発話モデルは以下に示す方法で、ベース発話モデル生成装置2により事前に作成される。まず、大量(数十〜百時間程度、所定量とも表現する)の発話を用意する。この大量(所定量)の発話をベース発話モデル生成装置2に入力する。ベース発話モデル生成装置2の音響特徴量抽出部101は、入力された発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、大量(所定量)の音響特徴量系列を抽出する(S101)。ベース発話モデル生成装置2の音響特徴量抽出部101は、抽出された大量(所定量)の音響特徴量系列を混合正規分布当てはめ部110に入力する。混合正規分布当てはめ部110は、大量(所定量)の音響特徴量系列からベース発話モデルを作成する(詳細は後述)。大量(所定量)の発話は複数人の話者によるものであることが好ましいが、1名でも構わない。また、大量(所定量)の発話の話者は音声分類装置1に入力されるN個の発話の話者と同じでも良いし異なっていても良い。
<混合正規分布当てはめ部110>
入力:大量(所定量)の音響特徴量系列、混合数
出力:ベース発話モデル
混合正規分布当てはめ部110は、入力された大量(所定量)の音響特徴量系列に対して、入力された混合数の混合正規分布を当てはめてベース発話モデルの各モデルパラメータの値を求め、得られたベース発話モデルを出力する(S110)。音響特徴量系列への混合正規分布の当てはめ(モデルパラメータの推定)には例えば参考非特許文献2などに記載されている一般的なEM(Expectation Maximization)アルゴリズムを用いる。混合数は1以上の整数であり、大きくするとより精緻に音響特徴量の分布を捉えることができるが、モデルパラメータの数が増加するため推定に必要な音響特徴量の数が増加する。通常128程度の混合数を用いる。混合正規分布当てはめ部110は、生成したベース発話モデルをベース発話モデル記憶部106に記憶する。
(参考非特許文献2:C.M.ビショップ,“パターン認識と機械学習(下),”pp.154-155,シュプリンガー・ジャパン株式会社,2008-07-01.)
<ベース発話モデル記憶部106>
ベース発話モデル記憶部106は、前述したように、予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを記憶している。
<スーパーベクトル算出部103>
入力:N個の発話モデル(混合正規分布適応部102から)
出力:N個の発話スーパーベクトル(分散算出部104へ)
次に、スーパーベクトル算出部103は、入力されたN個の発話モデルそれぞれから発話スーパーベクトルを算出し、得られたN個の発話スーパーベクトルを分散算出部104へ出力する(S103)。発話スーパーベクトルは、発話モデルが持つM個の平均ベクトル
Figure 0006220733

を順に連結して作成したベクトル
Figure 0006220733

である(「’」は行列およびベクトルの転置を表す)。以下の式のように混合重みと共分散行列を用いて正規化した平均ベクトルを連結して発話スーパーベクトルφを作成しても良い。
Figure 0006220733
以上のように各発話の発話モデルから算出した発話スーパーベクトルは、当該発話の音響特徴量の分布を表すベクトルである。各発話の音響特徴量系列にベース発話モデル(混合正規分布)を適応させて発話モデルを作成し、作成した発話モデルから発話スーパーベクトルを得ることにより、それぞれ長さの異なる発話を決まった次元数のベクトルで表現することができる。なお、発話スーパーベクトルの次元数は音響特徴量の次元数×混合数となり、一般的な38次元の音響特徴量を用いて、発話モデル(混合正規分布)の混合数を128とした場合は38×128=4864次元となる。
ステップS103は、以下のようにも表現できる。すなわち、スーパーベクトル算出部103は、発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルをN個の発話モデルのそれぞれから一つずつ生成し、合計N個の発話スーパーベクトルを出力する(S103)。
<分散算出部104>
入力:N個の発話スーパーベクトル(スーパーベクトル算出部103から)
出力:発話変動ベクトル(口調識別部105へ)
分散算出部104は、入力されたN個の発話スーパーベクトルから発話変動ベクトルを算出し、口調識別部105へ出力する。発話変動ベクトルはN個の発話スーパーベクトルの各次元の値の分散を並べたベクトルであり、発話スーパーベクトルと同一の次元数を持つ(発話変動ベクトルおよび発話スーパーベクトルの次元数をDと書く)。発話変動ベクトルψは以下の式により算出される。
Figure 0006220733
μ ndは入力されたN個の発話スーパーベクトルのうちn番目の発話スーパーベクトルのd次元目の値である。
発話変動ベクトルは、入力されたN個の発話スーパーベクトルの各次元の値がどの程度バラついているかを表すベクトルであり、読み上げ口調のようにN個の発話のいずれも発声の仕方が似ている場合には各次元の値が小さくなり、会話口調のように発話ごとに発声の仕方が異なる場合には各次元の値が大きくなる傾向がある。
ステップS104は、以下のようにも表現できる。分散算出部104は、N個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する(S104)。
<口調識別部105>
入力:発話変動ベクトル(分散算出部104から)、識別器のモデルパラメータ
出力:口調識別結果
口調識別部105は、入力された発話変動ベクトルを識別器に入力し、得られた口調識別結果(最初に入力されたN個の発話が読み上げ口調であるか会話口調であるか)を出力する(S105)。識別器は同時に入力された識別器のモデルパラメータを用いて動作させる。識別器のモデルパラメータは事前に求めておく。識別器のモデルパラメータの生成方法については後述する。
識別器としては、実数ベクトルを少なくとも2値に分類することが可能であればいずれの手法を用いても良い。例えば入力ベクトルの各次元の値が所定の閾値以上か未満かによって分類を行う決定木でも良いし、入力ベクトルと所定の重みベクトルとの内積の符号によって分類する線形識別器でも良いし、サポートベクタマシンでも良いし、多層パーセプトロンでも良い。また、識別器を複数組み合わせて識別精度の高い1つの識別器を構成するバギングやブースティングなどの手法を用いても良い。
いずれの識別器を用いる場合でも、事前に識別器のモデルパラメータを学習しておく必要がある。読み上げ口調であるか会話口調であるか分かっている(口調ラベルが付与されている)N個の発話を大量に用いることで学習が可能である。
ステップS105は、以下のようにも表現できる。口調識別部105は、生成された発話変動ベクトルと、識別器のモデルパラメータに基づいて、N個の発話ごとに口調識別結果を生成する(S105)。
<モデルパラメータ学習装置3>
以下、引き続き図1、新たに図4を参照してモデルパラメータ学習装置3について説明する。図4は本実施例のモデルパラメータ学習装置3の動作を示すフローチャートである。まず、口調ラベルが付与されているN個の発話を大量に(通常は30時間分程度、以下「所定量の組」とも表現する)用意し、モデルパラメータ学習装置3に入力する。モデルパラメータ学習装置3の音響特徴量抽出部101は、所定量の組のN個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計(所定量の組×N)個の音響特徴量系列を抽出する(S101)。モデルパラメータ学習装置3の混合正規分布適応部102は、N個の音響特徴量系列のそれぞれにベース発話モデルを適応させて(所定量の組×N)個の発話モデルを生成する(S102)。スーパーベクトル算出部103は、発話スーパーベクトルを(所定量の組×N)個の発話モデルのそれぞれから一つずつ生成し、合計(所定量の組×N)個の発話スーパーベクトルを出力する(S103)。分散算出部104は、N個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを組ごとに生成し、発話変動ベクトルを所定量の組数分生成する(S104)。このようにして、モデルパラメータ学習装置3はN個の発話から発話変動ベクトルを一つずつ算出する。分散算出部104は、得られた大量(所定量の組数)の発話変動ベクトルと口調ラベルのペアを口調識別器学習部120に入力する。
<口調識別器学習部120>
入力:発話変動ベクトルと口調ラベルのペアの集合(所定量の組)
出力:識別器のモデルパラメータ
口調識別器学習部120は、入力された発話変動ベクトルと口調ラベルのペアの集合に対して、識別精度を最大化する識別器のモデルパラメータを算出し、出力する(S120)。
例えば識別器として多層パーセプトロンを用いる場合は、各層と層の間の結合重み行列がモデルパラメータであり、識別精度を最大化するモデルパラメータは例えば参考非特許文献3などに記載されている一般的な誤差逆伝播法などで算出する。口調識別器学習部120は、算出した識別器のモデルパラメータをモデルパラメータ記憶部107に記憶する。
(参考非特許文献3:Anil K. Jain, Mao Jianchang, and K. M. Mohiuddin, "Artificial Neural Networks: A Tutorial," IEEE computer, vol.29, no.3, pp.31-44, 1996.)
<モデルパラメータ記憶部107>
前述したように、モデルパラメータ記憶部107は、予め用意した発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータを記憶する。
以上のように、本発明で口調の識別に用いる発話変動ベクトルは、F0やHNRなどの韻律情報や音素認識結果から得られる音素情報を用いずに算出することができる。発話変動ベクトルは読み上げ口調と会話口調それぞれの特徴を良く表現しており、かつ韻律情報や音素情報の抽出エラーが識別精度に与える悪影響とは無縁なため、口調識別部105において高精度な口調の識別が可能である。
本発明では発話変動ベクトルを読み上げ口調か会話口調かの識別のために利用しているが、発話間の音響的な変動を特徴として捉えて利用したい他の処理にも活用できる。例えば、発話者の感情認識や、問診の受け答えの発話から抑うつ状態かどうかを推定するような医療向け用途への応用なども考えられる。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. Nを2以上の整数とし、
    N個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計N個の前記音響特徴量系列を抽出する音響特徴量抽出部と、
    予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを記憶するベース発話モデル記憶部と、
    前記N個の音響特徴量系列のそれぞれに前記ベース発話モデルを適応させてN個の発話モデルを生成する混合正規分布適応部と、
    前記発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルを前記N個の発話モデルのそれぞれから一つずつ生成し、合計N個の前記発話スーパーベクトルを出力するスーパーベクトル算出部と、
    前記N個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する分散算出部と、
    予め用意した前記発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータを記憶するモデルパラメータ記憶部と、
    前記生成された発話変動ベクトルと、前記識別器のモデルパラメータに基づいて、前記N個の発話ごとに口調識別結果を生成する口調識別部と、
    を含む音声分類装置。
  2. 請求項1に記載の音声分類装置であって、
    前記Nを20以下の整数とする
    音声分類装置。
  3. 請求項2に記載の音声分類装置であって、
    前記Nを5とする
    音声分類装置。
  4. 請求項1から3の何れかに記載の音声分類装置であって、
    前記音響特徴量系列は、音響特徴量として、MFCC、LPCケプストラム、分析フレームごとのピッチ、高調波成分対雑音比のいずれかを含む
    音声分類装置。
  5. Nを2以上の整数とし、
    N個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計N個の前記音響特徴量系列を抽出する音響特徴量抽出ステップと、
    予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを、前記N個の音響特徴量系列のそれぞれに適応させてN個の発話モデルを生成する混合正規分布適応ステップと、
    前記発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルを前記N個の発話モデルのそれぞれから一つずつ生成し、合計N個の前記発話スーパーベクトルを出力するスーパーベクトル算出ステップと、
    前記N個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する分散算出ステップと、
    予め用意した前記発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータと、前記生成された発話変動ベクトルに基づいて、前記N個の発話ごとに口調識別結果を生成する口調識別ステップと、
    を含む音声分類方法。
  6. 請求項5に記載の音声分類方法であって、
    前記Nを20以下の整数とする
    音声分類方法。
  7. 請求項6に記載の音声分類方法であって、
    前記Nを5とする
    音声分類方法。
  8. コンピュータを、請求項1から4の何れかに記載の音声分類装置として機能させるためのプログラム。
JP2014117840A 2014-06-06 2014-06-06 音声分類装置、音声分類方法、プログラム Active JP6220733B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014117840A JP6220733B2 (ja) 2014-06-06 2014-06-06 音声分類装置、音声分類方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014117840A JP6220733B2 (ja) 2014-06-06 2014-06-06 音声分類装置、音声分類方法、プログラム

Publications (2)

Publication Number Publication Date
JP2015230455A JP2015230455A (ja) 2015-12-21
JP6220733B2 true JP6220733B2 (ja) 2017-10-25

Family

ID=54887233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014117840A Active JP6220733B2 (ja) 2014-06-06 2014-06-06 音声分類装置、音声分類方法、プログラム

Country Status (1)

Country Link
JP (1) JP6220733B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930301B1 (en) * 2019-08-27 2021-02-23 Nec Corporation Sequence models for audio scene recognition

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005221679A (ja) * 2004-02-04 2005-08-18 Advanced Telecommunication Research Institute International 発話スタイル評価装置及び発話スタイル分類装置
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
JP2007219286A (ja) * 2006-02-17 2007-08-30 Tokyo Institute Of Technology 音声のスタイル検出装置、その方法およびそのプログラム

Also Published As

Publication number Publication date
JP2015230455A (ja) 2015-12-21

Similar Documents

Publication Publication Date Title
JP5768093B2 (ja) 音声処理システム
Lozano-Diez et al. An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
US9058811B2 (en) Speech synthesis with fuzzy heteronym prediction using decision trees
EP3469582A1 (en) Neural network-based voiceprint information extraction method and apparatus
JP2017032839A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
US20230343319A1 (en) speech processing system and a method of processing a speech signal
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP2018081169A (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP7332024B2 (ja) 認識装置、学習装置、それらの方法、およびプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
CN111599339A (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
US11398239B1 (en) ASR-enhanced speech compression
CN112686041A (zh) 一种拼音标注方法及装置
Lopez-Otero et al. Compensating Gender Variability in Query-by-Example Search on Speech Using Voice Conversion.
JP2020129099A (ja) 推定装置、推定方法、及びプログラム
JP2020129051A (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
JP2020067500A (ja) パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171002

R150 Certificate of patent or registration of utility model

Ref document number: 6220733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150