JP2007219286A - 音声のスタイル検出装置、その方法およびそのプログラム - Google Patents

音声のスタイル検出装置、その方法およびそのプログラム Download PDF

Info

Publication number
JP2007219286A
JP2007219286A JP2006041172A JP2006041172A JP2007219286A JP 2007219286 A JP2007219286 A JP 2007219286A JP 2006041172 A JP2006041172 A JP 2006041172A JP 2006041172 A JP2006041172 A JP 2006041172A JP 2007219286 A JP2007219286 A JP 2007219286A
Authority
JP
Japan
Prior art keywords
style
speech
vector
acoustic feature
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006041172A
Other languages
English (en)
Inventor
Takao Kobayashi
隆夫 小林
Junichi Yamagishi
順一 山岸
Takashi Nose
隆 能勢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Institute of Technology NUC
Original Assignee
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Institute of Technology NUC filed Critical Tokyo Institute of Technology NUC
Priority to JP2006041172A priority Critical patent/JP2007219286A/ja
Publication of JP2007219286A publication Critical patent/JP2007219286A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】人間の発話音声に含まれる発話様式や感情表現などの複数のスタイルの表出度合いを同時に検出することを目的とする。
【解決手段】音声のスタイル検出装置10は、発話音声から音響特徴パラメータを抽出する音響分析手段11と、音響特徴パラメータに「丁寧」「ぞんざい」「楽しげ」「悲嘆」といった発話様式・感情表現を表わす多次元のスタイルベクトルを付与して学習データを生成するスタイルベクトル付与手段12と、スタイルベクトルを付与した学習データを用いて音声単位HMM(隠れマルコフモデル)15を学習する音声単位HMM学習手段14と、学習した音声単位HMM15と発話音声から抽出した音響特徴パラメータとを用いてスタイルベクトルを推定するスタイルベクトル推定手段16とから構成される。
【選択図】図1

Description

本発明は、隠れマルコフモデル(Hidden Markov Model, HMM)を用いて、発話音声を音響分析して得た特徴量に基づき、その発話音声に含まれる発話様式や感情表現の表現度合いを検出する技術に関する。
音声合成や音声認識を含む近年のヒューマン・コンピュータ・インタラクション(Human-Computer Interaction, HCI) の実現において、感情を伴う音声のモデル化が重要な問題となってきている。これは、実際の人間同士の音声によるコミュニケーションにはしばしば多様な感情表現や発話様式が現れ、このようなパラ言語あるいは非言語情報により、HCIシステムの性能が向上する可能性があるからである。
感情音声の認識の研究分野では、これまで数多くの手法が提案されているが、それらの多くは感情音声の識別に焦点を置いている。これに対して、コールセンタでのトリアージ(優先順位決定) のようなアプリケーションでは利用者の感情の状態を知るのと同様に、その表出や強調の度合いを正確に把握することがしばしば重要である。しかし一般的に、従来のパターン識別のアプローチに基づくこれらの手法では、「少しイライラしている」あるいは「非常にイライラしている」などの特定の感情の状態の程度を高精度に定量化することが困難であった。さらに、話者の感情の状態は発話中に変化することもあり、問題はさらに難しくなる。
音声から感情等を認識する手法として、例えば、特許文献1〜5、非特許文献1が知られている。
特許文献1では、音声の発生速度、音声ピッチ周波数、音量を特徴量とし、個人毎または多くの人が普通に喋ったときの上記特徴量を標準値として記憶しておき、この標準値に対する入力音声の特徴量を3段階のレベルで判定し、それぞれの特徴量の判定結果と単語音声認識結果とをあわせて、所定のルールによって感情を判断する感性情報入力処理装置が開示されている。
特許文献2では、音声継続時間、フォルマント周波数、スペクトル強度、信号の立ち上り等を特徴量とし、基準となる音声信号と入力信号との前記特徴量に関する「正規化ズレ量」を検出して、ファジイ推論により感情状態を判断する感情認識装置が開示されている。
特許文献3では、感情を表現する単語、あるいは感情が現れる単語を対象とし、音声パワーおよび音声認識で通常用いられる音響特徴量を用い、この単語の音声パワーを適当な閾値を設定してレベル分けし、この単語に関して通常発声および感情をこめて発声した音声を隠れマルコフモデル(HMM)でモデル化して音声認識を行い、出力される確率値を適当な閾値を設定してレベル分けし、この閾値処理で得られたレベル(N段階)で感情の度合いを判定する音声感情認識方法が開示されている。
特許文献4では、音声の強度・テンポ・抑揚それぞれの時間軸方向の変化量を特徴量とし、これらの変化量パターンと感情状態とを関連づける感情パターンデータベースを保持しておき、これを参照して入力音声の変化量から感情状態を表す信号を生成する感情検出方法が開示されている。
特許文献5では、音高、音高範囲、イントネーション傾向、声の大きさ、発話速度、音韻継続長、スペクトル傾斜、フォルマント等の韻律的特徴に基づいて複数の感情・情動(覚醒度,快度等)に対応する特徴量をそれぞれ個別に求め、この複数の特徴量を因子とする多次元空間において感情状態を表現する感情検出方法が開示されている。
また、非特許文献1では、多空間確率分布隠れマルコフモデル(Multi-Space probability Distribution ? Hidden Markov Model, MSD−HMM)を用いて音素単位の音響モデルを作成し、スタイル毎にHMMをモデル化してスタイル識別する手法が提案されている。
これらの従来技術では、感情の度合いを間接的に表す特徴量を個別に定量化し、経験則に基づいた閾値処理などで感情の度合いを判定するものである。また、音声のスペクトル、ピッチ(基本周波数)、音韻継続長等の特徴量を用いるものであっても、それぞれの特徴量を個別に検出してモデル化しており、音素単位ないしそれより短い時間単位における音声のスペクトル、基本周波数、音韻継続長の各特徴量相互に関連する情報の利用がなされていない。したがって、これらの従来技術においては、感情表現・発話様式(以下、スタイルと呼ぶ)が含まれる発話音声から高精度にそのスタイルを定量的に検出することが困難であった。非特許文献1においては、スタイル毎に個別のHMMをモデル化し、モデル毎にスタイル識別対象となる発話音声の尤度を算出して、尤度の最も高いスタイルをその発話音声のスタイルであると決定する。しかし、算出される尤度とスタイルの表出度合いの間に定量的な関係を求めることは困難であった。更に、複数のスタイルが混在する場合においては、一つのモデルから同時に複数のスタイルを検出することはできず、スタイル間の相対的な表出度合いを定量的に比較することも困難であった。
特開平9−22296号公報(段落0037〜段落0059、図1) 特開平5−12023号公報(段落0010〜段落0024、図2) 特開平11−119791号公報(段落0026、図1) 特開平2002−91482号公報(段落0042〜段落0045、図1) 特開2003−162294号公報(段落0025〜段落0029、図2) 川島啓吾,山岸順一,小林隆夫,"MSD-HMMを用いた音声のスタイル識別の検討,"日本音響学会2005年秋期研究発表会講演論文集,1,1-P-24,pp.199-200(2005.9)
そこで本発明は、発話音声に現れる「楽しげ」「悲嘆」「いらだち」「怒り」といった感情表現のみならず、「丁寧」「ぞんざい」「フォーマル」「カジュアル」といった発話様式も検出可能とし、発話音声に対してスタイル(発話様式・感情表現)の表出度合いを定量的に検出することができる音声のスタイル検出装置、その方法およびそのプログラムを提供することを目的とする。
また、発話音声に対して複数のスタイルの表出度合いを、スタイル毎に定量的に、かつ同時に検出することができる音声のスタイル検出装置、その方法およびそのプログラムを提供することを目的とする。
更に、発話音声に現れるスタイルの識別を行うことができる音声のスタイル検出装置を提供することを目的とする。
本発明は前記した目的を達成するためになされたものであり、請求項1に記載の音声のスタイル検出装置は、音声単位HMMを用いて発話音声からスタイルを検出するために、発話音声の音響特徴量を分析フレーム毎に抽出し音響特徴パラメータを作成する音響分析手段と、前記音響特徴パラメータに、そのスタイルを表わすN次元のスタイル空間(Nは1以上の整数)におけるスタイルベクトルを前記音響特徴パラメータに付与するスタイルベクトル付与手段と、前記スタイルベクトルを付与された音響特徴パラメータを学習データとして、音声単位毎に前記音声単位HMMを学習する音声単位HMM学習手段と、前記音響分析手段によってスタイル検出の対象となる発話音声から作成した音響特徴パラメータと、前記音声単位HMMとを用いて、前記スタイル検出の対象となる発話音声のスタイルベクトルを推定するスタイルベクトル推定手段と、を備える。
かかる構成によれば、発話音声からメルケプストラム係数またはケプストラム係数に代表されるスペクトルパラメータ、ピッチパラメータ(基本周波数またはその対数値)などの音響特徴量を分析フレーム毎に抽出して音響特徴パラメータを作成する。この音響特徴パラメータに、スタイルを表わすN次元(Nは1以上の整数)のスタイル空間におけるスタイルベクトルを音響特徴パラメータに付与して音声単位HMMをモデル化するための学習データを生成し、この学習データを用いて音声単位HMMのモデル化を行う。そして、スタイル識別を行いたい対象の発話音声から音響特徴量をフレーム毎に抽出して音響特徴パラメータを作成し、作成した識別対象の音響特徴パラメータとモデル化した音声単位HMMとを用いて、EMアルゴリズム(Expectation Maximization Algorithm)に代表される最尤推定法などの推定法によってスタイルベクトルの推定を行う。それぞれ対応するスタイルの表出度合いは、この推定されたスタイルベクトルの各要素の値として得ることができる。
請求項2に記載の音声のスタイル検出装置は、請求項1に記載の音声のスタイル検出装置において、音声単位HMMとして隠れセミマルコフモデル(HSMM)を用い、出力確率分布と状態継続長確率分布とを同時にモデル化することを特徴とする。
かかる構成によれば、音声単位HMMとしてHSMMを用いるため、音韻継続長を明示的なモデル化の対象として音声単位HMMのモデル化を行うことができる。
請求項3に記載の音声のスタイル検出装置は、請求項1または請求項2に記載の音声のスタイル検出装置において、前記音響分析手段は、少なくともスペクトルパラメータとピッチパラメータとを含む音響特徴パラメータを作成し、前記音声単位HMMは、音声単位毎にスペクトルパラメータとピッチパラメータとを含む音響特徴パラメータを多空間確率分布隠れマルコフモデル(MSD−HMM)により同時にモデル化することを特徴とする。
かかる構成によれば、音声単位HMMとしてMSD−HMMを用いるため、常に連続値を持つスペクトルパラメータと、有声音区間では連続値を持つが無声音区間で値を持たないピッチパラメータとを、音素または音節などの音声単位毎に同時にモデル化することができる。
請求項4に記載の音声のスタイル検出装置は、請求項1ないし請求項3の何れか一項に記載の音声のスタイル検出装置において、前記音声単位HMMは、前記特徴パラメータの出力確率分布をガウス分布とし、そのガウス分布の平均ベクトルを前記スタイルベクトルの重回帰によってモデル化することを特徴とする。
かかる構成によれば、スペクトルパラメータ、ピッチパラメータ、音韻継続長などの特徴パラメータの出力確率分布の平均ベクトルをスタイルベクトルの重回帰によってモデル化するため、スタイルの表出度合いを低次元のベクトル空間上で表現することができる。
請求項5に記載の音声のスタイル検出装置は、請求項1ないし請求項4の何れか一項に記載の音声のスタイル検出装置において、推定したスタイルベクトルに基づいて、スタイルの識別を行うことを特徴とする。
かかる構成によれば、推定したスタイルベクトルの各成分の値は各スタイルの表出度合いを示し、どのスタイルの表出度合いが大きいかを定量的に相対比較することができる。したがって、推定されたスタイルベクトルの値の大きな成分を取り出すことにより、スタイルの識別を行うことができる。あるいは、スタイルベクトルの値に応じてクラスタリング手法やパターンマッチング手法、パターン識別手法等の処理を行うことによって、スタイルがどのカテゴリに属するかの識別を行うこともできる。
請求項6に記載の音声のスタイル検出方法は、音声単位HMMを用いて発話音声からスタイルを検出するために、発話音声の音響特徴量を分析フレーム毎に抽出し音響特徴パラメータを作成する音響分析ステップと、前記音響特徴パラメータに、そのスタイルを表わすN次元のスタイル空間(Nは1以上の整数)におけるスタイルベクトルを前記音響特徴パラメータに付与するスタイルベクトル付与ステップと、前記スタイルベクトルを付与された音響特徴パラメータを学習データとして、音声単位毎に前記音声単位HMMを学習する音声単位HMM学習ステップと、前記音響分析手段によってスタイル検出の対象となる発話音声から作成した音響特徴パラメータと、前記音声単位HMMとを用いて、前記スタイル検出の対象となる発話音声のスタイルベクトルを推定するスタイルベクトル推定ステップと、を含む。
かかる手順によれば、発話音声からメルケプストラム係数またはケプストラム係数に代表されるスペクトルパラメータ、ピッチパラメータおよび音韻継続長などの音響特徴量を分析フレーム毎に抽出して音響特徴パラメータを作成する。この音響特徴パラメータに、スタイルを表わす多次元のスタイル空間におけるスタイルベクトルを音響特徴パラメータに付与して音声単位HMMのモデル化用の学習データを生成し、この学習データを用いて音声単位HMMのモデル化を行う。そして、スタイル識別を行いたい対象の発話音声から音響特徴量をフレーム毎に抽出し、抽出した識別対象の音響特徴量とモデル化した音声単位HMMとを用いて、EMアルゴリズムなどの推定法によってスタイルベクトルの推定を行う。
請求項7に記載の音声のスタイル検出プログラムは、音声単位HMMを用いて発話音声からスタイルを検出するために、コンピュータを、発話音声の音響特徴量を分析フレーム毎に抽出し音響特徴パラメータを作成する音響分析手段、前記音響特徴パラメータに、そのスタイルを表わすN次元のスタイル空間(Nは1以上の整数)におけるスタイルベクトルを前記音響特徴パラメータに付与するスタイルベクトル付与手段、前記スタイルベクトルを付与された音響特徴パラメータを学習データとして、音声単位毎に前記音声単位HMMを学習する音声単位HMM学習手段、前記音響分析手段によってスタイル検出の対象となる発話音声から作成した音響特徴パラメータと、前記音声単位HMMとを用いて、前記スタイル検出の対象となる発話音声のスタイルベクトルを推定するスタイルベクトル推定手段、として機能させる。
かかる構成によれば、コンピュータは、発話音声からメルケプストラム係数またはケプストラム係数に代表されるスペクトルパラメータ、ピッチパラメータおよび音韻継続長などの音響特徴量を分析フレーム毎に抽出して音響特徴パラメータを作成する。この音響特徴パラメータに、スタイルを表わす多次元のスタイル空間におけるスタイルベクトルを音響特徴パラメータに付与して音声単位HMMのモデル化用の学習データを生成し、この学習データを用いて音声単位HMMのモデル化を行う。そして、スタイル識別を行いたい対象の発話音声から音響特徴量をフレーム毎に抽出し、抽出した識別対象の音響特徴量とモデル化した音声単位HMMとを用いて、EMアルゴリズムなどの推定法によってスタイルベクトルの推定を行う。
請求項1、請求項6または請求項7に記載の発明によれば、音声の音響特徴パラメータを、発話音声のスタイル(発話様式・感情表現)を表すN次元のスタイル空間上で音声単位HMMをモデル化したため、モデル化した音声単位HMMを用いて入力音声からスタイルベクトルを推定することで、音声に含まれるスタイルの表出度合いを定量的に検出することができる。更にNが2以上である場合、音声に含まれる複数のスタイルの表出度合いを一つのモデルから同時に検出できるとともに、スタイル間の相対的な表出度合いを定量的に評価することができる。
請求項2に記載の発明によれば、音声のスタイルに密接に関連する特徴量である音韻継続長を明示的なモデル化の対象として音声単位HMMのモデル化を行ったため、音韻継続長の情報も利用して精度よくスタイル検出を行うことができる。
請求項3に記載の発明によれば、音声のスタイルに密接に関連する特徴量であるスペクトルパラメータとピッチパラメータとを同時にモデル化したため、これらの各特徴量相互に関連する情報を利用して精度よくスタイルの検出を行うことができる。
請求項4に記載の発明によれば、スタイルの表出度合いを低次元のベクトル空間上で表現することができるため、複数のスタイルの表出度合いが同時に数値データとして表わされ、それぞれのスタイル表出度合いを直観的に認識することができる。
請求項5に記載の発明によれば、推定したスタイルベクトルの各成分の値が、各スタイルの表出度合いを定量的に表すため、このスタイルベクトルの成分の値に基づいてスタイルの識別を適切に行うことができる。
以下、発明を実施するための最良の形態について適宜図面を参照して説明する。
<装置の構成>
まず、図1を参照して、本発明による音声のスタイル検出装置の実施の形態の全体構成について説明する。ここで、図1は、音声のスタイル検出装置の構成を示すブロック図である。
音声のスタイル検出装置10は、入力される発話音声から音響的な分析によって音響特徴量を抽出し、この音響特徴量からスペクトルパラメータ、ピッチパラメータなどの音響特徴パラメータを作成する音響分析手段11と、音響分析手段11で作成した音響特徴パラメータに発話様式・感情表現などのスタイルを表わすスタイルベクトルを付与し、音声単位HMM15を多次元のスタイル空間上でモデル化するための学習データを生成するスタイルベクトル付与手段12と、スタイルベクトル付与手段12で生成した学習データを記憶する学習データ記憶手段13と、学習データ記憶手段13に記憶された学習データを用いて、音声単位HMM15を学習しモデル化する音声単位HMM学習手段14と、多次元スタイル空間上でモデル化される音声単位HMM15と、音響分析手段11によって作成された音響特徴パラメータと音声単位HMM15とを用いて、音声のスタイルを表わすスタイルベクトルを推定するスタイルベクトル推定手段16と、スタイルベクトル推定手段16で推定されたスタイルベクトルに基づき、スタイルの検出・識別結果を表示・印刷などの出力をするスタイル出力手段17と、から構成される。
以下、本実施の形態の各構成手段について説明する前に、本実施の形態において用いる音声単位HMMと、音声単位HMMとして用いる重回帰HSMMを学習(モデル化)する手法と、学習した重回帰HSMMを用いてスタイルの検出を行う手法について説明する。
隠れセミマルコフモデル(HSMM)は、各状態において状態遷移確率の代わりに明示的な状態継続長確率分布を持った隠れマルコフモデル(HMM)である。なお、通常のHMMは、状態継続長確率分布が幾何分布で表されたHSMMと解釈することもでき、同じ状態が継続する時間が短いほど確率が高くなることから、それぞれの音韻がある時間長継続するという音声信号の性質を正確にモデル化することができない。そこで、音声単位HMMを、より適切な状態継続長確率分布を持ったHSMMの枠組みでモデル化することで、スタイルに密接な関連がある音韻継続長を、より正確にモデル化することができる。
HSMMによる音声単位のモデル化の詳細については、本発明者らによる参考文献1を参照のこと。
(参考文献1)
全柄河,徳田恵一,益子貴史,小林隆夫,北村正,“HMM音声合成のための継続長分布付き再推定,"日本音響学会2004年春季研究発表会講演論文集,I,1-7-6,pp.223-224(20
04.3)
また、ピッチパターンは言語内容の認識にはそれほど重要ではないが、音声のスタイルを特徴付ける重要な要因である。したがって、ピッチパターン情報を利用することは音声のスタイル検出には有用である。従来のHMMの枠組みでは、有声音区間では連続値を持つが、無声区間では値を持たずに無声であることを表す離散シンボルとして観測されるピッチパラメータをモデル化することはできなかったが、発明者らが提案した多空間確率分布隠れマルコフモデル(MSD−HMM)を用いることで、スペクトルパラメータとピッチパラメータとを同時にモデル化することができる。
MSD−HMMの詳細については、参考文献2を参照のこと。
(参考文献2)
宮崎昇,徳田恵一,益子貴史,小林隆夫,“多空間上の確率分布に基づいたHMMとピッチパタンモデリングヘの応用,"電子情報通信学会技術研究報告,SP98-11,pp.19-26(1998.4)
ここで、用語の説明をする。
「音声単位」とは、音素、半音節、音節、あるいは単語等、音声処理(音声認識や音声合成等の処理)に用いる素片またはモデル化の最小構成要素である。更に前後の音韻環境を考慮したコンテキスト依存音素であるバイフォンやトライフォンを音声単位としてモデル化することもできる。また、音韻環境に加えて言語情報や韻律情報等の変動要因を考慮したコンテキスト依存音素を音声単位としても良い。
「スペクトルパラメータ」とは、音声のスペクトル形状すなわち主に声道特性を表わすパラメータであり、発声内容により時々刻々変化するスペクトルパラメータをある一定時間間隔で並べることで「スペクトルパラメータ系列」を構成する。
「ピッチパラメータ」とは、声の高さを表わす「基本周波数」を表すパラメータであり、スペクトルパラメータと同様に、時間変化する基本周波数をある一定の時間間隔で並べることで「ピッチパターン」を構成する。
「音韻継続長」とは、音声処理において、各音素がどれだけの時間継続するかを表す値である。
「分析フレーム」とは、音響分析時において、音響的特性がほぼ一定とみなせる短時間区間を、適当な窓関数(ハミング窓、ハニング窓、ブラックマン窓など)を用いて音声波形から、ある一定時間間隔で切り出した各波形である。
本実施の形態では、音素などの音声単位における音声のスペクトル、基本周波数(ピッチ)および音韻継続長の各特徴量相互に関連する情報を利用してスタイルの検出を行うために、多空間確率分布隠れセミマルコフモデル(Multi-Space probability Distribution -Hidden Semi-Markov Model, MSD−HSMM)により音素単位で音声をモデル化する。
MSD−HSMMは各状態に出力確率分布と状態継続長確率分布を持つ。出力確率分布はスペクトルと基本周波数の確率分布を表し、状態継続長確率分布は音韻継続長の確率分布を表す。これらの分布にガウス分布を仮定する。ガウス分布は平均と分散(平均ベクトルと共分散行列)により特徴付けられる。
ここで、音声に含まれる「楽しげ」「悲嘆」「いらだち」「怒り」「丁寧」「ぞんざい」「フォーマル」「カジュアル」等の発話様式・感情表現のそれぞれを一つのスタイルと呼ぶ。また、各スタイルの表出度合いを数値として持つ座標軸を仮定し、これらの軸から構成される空間をスタイル空間と呼ぶ。スタイル空間の原点は「平静・読上げ」スタイルに相当する。
MSD−HSMMの各状態の出力確率分布および状態継続長確率分布の平均を、各スタイルの表出度合いを説明変数とする重回帰式によって表す。確率分布の平均が重回帰式により表されたHSMMを重回帰HSMMと呼ぶ。重回帰HSMMの確率分布は、平均の代わりにスタイル空間の座標(スタイルベクトル)と回帰行列により特徴付けられる。
検出あるいは識別したいスタイルとその表出度合いが既知の様々な音声を用いて、各音声単位を重回帰HSMMによりモデル化する。すなわち音声の音響特徴量(スペクトルパラメータおよびピッチパラメータ)とスタイル空間上の座標(スタイルベクトル)を与えてモデル学習を行う。重回帰HSMMのモデルパラメータである回帰行列は、通常のHSMMの他のパラメータと同様、EM(Expectation Maximization)アルゴリズムに基づいた推定法により求めることができる。
なお、重回帰HSMMの詳細については、参考文献3を参照のこと。
(参考文献3)
能勢隆,山岸順一,小林隆夫,“重回帰HSMMを用いた音声のスタイル制御法の検討,"日本音響学会2005年秋期研究発表会講演論文集,I,2-6-13,pp.287-288(2005.9)
<重回帰HSMMに基づくスタイルのモデル化>
次に、重回帰HSMMに基づくスタイルのモデル化手法について説明する。
HSMMは各状態において出力の確率分布および状態継続長の確率分布を持つ。ここで、HSMMが第i番目の状態において、出力ベクトル(観測ベクトル)oを出力する確率分布を表わす出力確率分布bi(o)および状態iが時間dだけ継続する確率分布を表わす状態継続長確率分布pi(d)が、それぞれ式(1)、式(2)のようにガウス分布で与えられるものとする。ここで、音声単位を音素とした場合、音声単位の各状態の状態継続長の和がその音素の音韻継続長に相当する。なお、状態継続長確率分布はガウス分布に限定されるものではなく、ガンマ分布など、他の分布を仮定しても良い。
Figure 2007219286
ここでo,μi およびΣi はそれぞれ観測ベクトル、出力確率分布の平均ベクトルおよび共分散行列であり、d, miおよびσi 2 はそれぞれ状態継続長、状態継続長確率分布の平均および分散である。重回帰HSMMでは、各状態における出力確率分布および状態継続長確率分布の平均が、それぞれ式(3)、式(4)のような重回帰式で表されるものとする。
Figure 2007219286
である。
スタイルベクトルvの各要素{vk}は、ある一つの発話様式や感情の状態を表し、音声の音響特徴に影響を与える説明変数である。HbiおよびHpiはM×(L+1)および1×(L+1)次元の回帰行列であり、Mはμiの次元である。
このとき、状態iにおける出力確率分布および状態継続長確率分布を表わす確率分布関数はそれぞれ式(6)、式(7)で与えられる。
Figure 2007219286
学習データ(観測データ){O(1),・・・,O(K)}および対応するスタイルベクトル{v(1),・・・,v(K)}が与えられたとき、重回帰HSMMのモデルパラメータHbi、Σi、Hpiおよびσi 2のEMアルゴリズムに基づく再推定式は式(8)から式(11)のように導出される。
Figure 2007219286
ここで、Kは観測系列の総数、T(n)は第n番目の観測系列O(n)のフレーム数、
s (n)はO(n)の時刻s における観測ベクトル、γt d(i) は状態iにおいて観測系列ot-d+1 (n),・・・,ot (n)を出力する確率であり、式(12)で定義される。
Figure 2007219286
ここで、αt(i)およびβt(i)はそれぞれ前向きおよび後向き確率であり、それぞれ式(13)および式(14)で表わされる。ただし、aijは、状態iから状態jへ遷移する状態遷移確率を表し、直列的に接続された状態間の遷移がスキップなしのleft-to-right型のHSMMでは、その値は1である。また、P(O(n)|λ)は、HSMMが現モデルのパラメータλのときに、第n番目の観測系列O(n)が出力される確率を表す。
Figure 2007219286
ただし、α0(i)=πi、βT(i)=1である。ここで、πiは状態iの初期状態確率であり、直列的に接続された状態間の遷移がスキップなしのleft-to-right型のHSMMでは、その値は1である。
以上説明した手法により、重回帰HSMMに基づいてスタイルのモデル化を行うことができる。
<重回帰HSMMに基づくスタイルベクトル推定>
次に、学習した(モデル化した)重回帰HSMMを用いて、新たに観測した入力音声のスタイルを検出(スタイルベクトルを推定)する手法について説明する。
学習した重回帰HSMMが与えられ、モデルパラメータHbi、Σ、Hpiおよびσi 2が固定されているときに、観測系列O=(o1,・・・,oT)に対して、スタイルベクトルvを推定する問題として考える。式(3)は式(15)のように変形できる。
Figure 2007219286
および(バーvi)は状態iにおいて推定されるスタイルベクトルである。
EMアルゴリズムによる最尤推定における補助関数は式(19)で与えられる。
Figure 2007219286
補助関数を(バーvi)に関して微分して0とおくことにより式(21)が得られる。
Figure 2007219286
一般的に、与えられるデータ量は限られているので、常に全ての分布についてそれぞ れスタイルベクトルを推定できるとは限らない。したがって、推定するパラメータを減 らすために何らかのパラメータ共有が必要である。そこで、モデルの分布を共有するた めに重回帰HSMMの学習時に木構造を構築し、これを用いてスタイルベクトルの共有 化を行う。スタイルベクトル(バーv)をR個の分布で共有すると、式(21) は式 (22)のようになる。
Figure 2007219286
結果として、出力確率分布に対するスタイルベクトルの再推定式は式(23)で与えられる。
Figure 2007219286
推定により得られたスタイルベクトルの値は、それぞれのスタイル成分がどの程度スペクトルおよび韻律情報(ピッチおよび音韻継続長)を含む音響特徴量に影響を与えるかを最尤基準により表している。したがって、結果的に、スタイルベクトルの推定値は音声におけるスタイルの推定(検出・識別)に利用することができる。
次に、図1に示した音声のスタイル検出装置の各構成手段について詳細に説明する。
(音響分析手段)
音響分析手段11は、音声波形データとして入力される発話音声に対して音声処理の分野で公知の分析手法を用いて、種々の音響特徴量の抽出を行い、ベクトル化した音響特徴パラメータを作成する。作成した音響特徴パラメータは、入力された発話音声が音声単位HMM15の学習用音声の場合は、スタイルベクトル付与手段12に供給され、発話音声がスタイルの検出対象として入力された場合は、スタイルベクトル推定手段16に供給される。
音響分析手段11の詳細な構成について、図2を参照して説明する。ここで、図2は、音響分析手段11の構成を示すブロック図である。
音響分析手段11は、フレーム化処理手段111と、音響特徴量抽出手段112と、音響特徴パラメータ作成手段113と、音響特徴パラメータ記憶手段114と、から構成される。
音響分析手段11は、まず、フレーム化処理手段111を用いて、入力された発話音声の音声波形に窓関数をかけることでフレーム化された波形を抽出する。次に、音響特徴量抽出手段112を用いて、そのフレーム化された波形(分析フレーム)をスペクトル分析することで、分析フレーム毎にスペクトルパラメータ、ピッチパラメータ等の特徴量を抽出する。本実施の形態では、スペクトルパラメータとしてメルケプストラム係数(Mel-Cepstrum Coefficient)、ピッチパラメータとして対数基本周波数を抽出する。
そして、音響特徴パラメータ作成手段113を用いて、音響特徴量抽出手段112で抽出された静的パラメータであるメルケプストラム係数および対数基本周波数に加えて、動的パラメータとしてこれらの静的パラメータの一次時間微分、二次時間微分に相当するデルタパラメータおよびデルタデルタパラメータを算出して音響特徴パラメータ(パラメータをまとめて観測ベクトルとする)を作成する。更に、個々の音響特徴パラメータに対して、対応する音声単位のラベルを付与する。音声単位のラベルとは、例えば音声単位が音素単位であれば、/a/,/i/,/u/,/e/,/o/,/k/,/s/,/t/ 等の音素の種類を表す発音記号が相当する。このラベル情報は、音響分析手段11に入力された発話音声に対応する文章(テキスト)と発話音声の音声波形データを対比することで得ることができる。
また、スタイル検出対象として入力される発話音声の場合は、発話音声に対応するテキスト情報を取得せず、学習済みの音声単位HMMを用いて音素認識を行い、推定した音素系列をラベル情報とすることもできる。
音響特徴パラメータ作成手段113で作成された音響特徴パラメータは、音響特徴パラメータ記憶手段114に記憶される。
なお、スペクトルパラメータは直線周波数上で定義されたケプストラム係数を用いても良いし、対数基本周波数の代わりに基本周波数を用いても良い。また動的パラメータはデルタパラメータだけを用いても良いし、動的パラメータを用いないで構成しても良い。
また、音響特徴パラメータ記憶手段114は処理の効率化を図るために設けたが、音響特徴パラメータ記憶手段114を設けず、入力される発話音声を、フレーム化処理手段111、音響特徴量抽出手段112および音響特徴パラメータ作成手段113によって逐次処理を行うことで得られる分析フレーム毎の音響特徴パラメータを、次段のスタイルベクトル付与手段12に順次出力するように構成しても良い。
なお、本発明による音声のスタイル検出は、音声単位HMM15の学習あるいはスタイルベクトル推定に用いる発話音声は、感情を表すような特定の意味を持つ単語やフレーズである必要はなく、任意の単語、フレーズ、文章を用いることができる。
また、言語の意味内容に依らない検出法であるため、感情表現のみならず、「丁寧」「ぞんざい」「フォーマル」「カジュアル」といった発話様式も検出することができる。
(スタイルベクトル付与手段)
図1に戻って、スタイルベクトル付与手段12は、音響分析手段11で作成した音響特徴パラメータに対し、対応するスタイルを表すスタイルベクトルを付与して、音声単位HMM15をモデル化するための学習データを生成する。生成した学習データは、学習データ記憶手段13に記憶される。
音響特徴パラメータに付与するスタイルベクトルは、発話音声データとともに入力され、音響特徴パラメータに対して学習用に取得した発話音声データの文章毎に同じ値を与える。
なお、スタイルベクトルの付与は、文章毎でなく、フレーズ、単語あるいは音韻毎に異なる値を与えても良い。また、スタイルベクトルの各成分の値は、対応するスタイルの表出度合いに関わらず一定値(たとえば1.0)としても良いし、聴取実験に基づいて文章毎あるいはフレーズ、単語、音韻毎にスタイル表出度合いを数量化し、その平均値を1に正規化した値を用いても良い。
更に、スタイル空間は、図5(a)に示すように、一つの軸の正負に「楽しげ」と「悲嘆」、「フォーマル」と「カジュアル」のように対立するスタイルを設定しても良いし、図5(b)に示すように、一つの軸に一つのスタイルを設定しても良い。
(学習データ記憶手段)
図1に戻って、学習データ記憶手段13は、スタイルベクトル付与手段12で生成された学習データを記憶する。学習データ記憶手段13は、音声単位HMM学習手段14が音声単位HMM15を学習するときに、音声単位HMM学習手段14の要求に応じて適宜学習データを読み出して音声単位HMM学習手段14に供給する。
なお、スタイルベクトル付与手段12で生成した学習データは、学習データ記憶手段13に記憶することなく、直接音声単位HMM学習手段14に供給し、音声単位HMM15を学習するように構成しても良い。
(音声単位HMM学習手段)
音声単位HMM学習手段14は、学習データを適宜学習データ記憶手段13から読み出し、前記した重回帰HSMMに基づくスタイルのモデル化手法にしたがって音声単位HMM15のモデル化(学習)を行い、音声単位HMM15のモデルパラメータを設定する。
音声単位HMM15の学習においては、音響分析手段11とスタイルベクトル付与手段12とによって、検出したいスタイルと、その表出度合いが既知の様々な音声とから作成した学習データを用いる。
本実施の形態では、音声単位HMM15を構成する各状態の出力確率分布、状態継続長確率分布をガウス分布で表し、これらのガウス分布を特徴付ける平均ベクトルおよび共分散行列を、前記した学習データを用いてEMアルゴリズムに基づき推定する。なお、本実施の形態においては、これらの平均ベクトルはスタイルベクトルの重回帰式で表されるため、平均ベクトルに代えて回帰行列を前記したモデル化手法にしたがって推定する。
学習により得られた音声単位HMM15は、スタイル毎に別々のモデルを持っているのではなく、学習データに含まれるすべてのスタイルを一つのモデルで表現する。あるスタイルに対応するモデルは、その多次元のスタイル空間の座標(重回帰モデルの説明変数の値)を与えることにより、各状態の確率分布の平均が重回帰式から決定される。
本実施の形態では、「音声単位」は音素単位とし、音素単位のMSD−HSMMの枠組みでモデルを構築する。なお、音声単位は音素を単位とする他に、前記した音節、形態素、ハーフフォン等としても良い。また、音素環境を考慮しないモノフォン、前または後ろの一方を考慮するバイフォン、前後の音素環境を考慮したトライフォン等としても良い。
また、重回帰モデルは状態ごとに異なっていても良く、いくつかの状態を共有してその中で共通のモデルを用いても良い。
また、一つの学習データについて一回の学習によりモデルパラメータの設定を行うだけでも良いが、一つの学習データを繰り返し用い、再学習するようにしても良い。以下、再学習の手順について説明する。
スタイルベクトルが付与された学習データを用いて学習した音声単位HMM15を用いて、その学習に用いた発話音声(音響特徴パラメータ)に対し、後記するスタイルベクトル推定手段16を用いてスタイルベクトルを推定する。推定したスタイルベクトルを新たなスタイルベクトル(の初期値)としてこの音響特徴パラメータに付与し、新たな学習データとする。そして、この新たな学習データを用いて音声単位HMM学習手段14により音声単位HMM15を再学習する。この再学習のステップを、1回ないし数回程度繰り返して音声単位HMM15のモデルパラメータを設定するようにしても良い。
このように再学習を繰り返すことで、スタイルベクトルの各成分の値と実際の発話音声のスタイルとの対応関係をより精密に表すことができる。この再学習によって、スタイルベクトルが未知の発話音声に対するスタイルベクトルを推定したときの信頼性が向上する。
(音声単位HMM)
音声単位HMM15は、音声単位HMM学習手段14によってモデル化される。モデル化された音声単位HMM15は、スタイルベクトル推定手段16によって、スタイルの検出対象として入力された発話音声のスタイルの検出を行う際に用いられる。
音声単位HMM15は、音声単位HMM学習手段14によって前記したモデル化手法にしたがって設定される平均ベクトルまたは回帰行列、および共分散行列などのモデルパラメータを記憶する。スタイルベクトルを推定するときには、スタイルベクトル推定手段16によってこれらのモデルパラメータが読み出される。
(スタイルベクトル推定手段)
スタイルベクトル推定手段16は、モデル化された音声単位HMM15と、スタイルの検出対象として入力された発話音声に対する音響特徴パラメータとを用い、EMアルゴリズムにより発話音声に含まれるスタイルベクトルの推定を行う。推定した(検出した)スタイルベクトルに基づいて、スタイルの識別を行う。
なお、スタイルベクトルの推定で用いる音響特徴パラメータは、音声単位HMM15の学習で用いた音響特徴パラメータと同じ構成のパラメータを用いる。
また、推定方法はEMアルゴリズムに限るものではなく、事後確率最大法や他の推定方法を用いても良い。
ここで、推定されたスタイルベクトルの各成分の値は、各スタイルの表出度合いを直接表している。例えば、重回帰HSMMによりスタイルをモデル化するときに、あるスタイルの平均的な表出度合いを1と設定した場合、推定されたベクトルの成分の値が1より大きければ、その軸に対応するスタイルの平均的な表出度合いに比べて強調されていることを示し、また1より小さく0に近ければ表出度合いは小さく、平静あるいは読上げ調に近いと判断することができる。
前記したように、本発明で用いる音声単位HMM15は、一つのモデルで検出したいスタイルをすべて表現できるため、スタイルベクトルを一度推定するだけで、スタイル空間に現れるすべてのスタイルの表出度合いを同時に推定することができる。
また、各スタイルの表出度合いを示すベクトルの各成分の値を用いて、どのスタイルの表出度合いが大きいかを定量的に相対比較することができる。したがって、推定されたスタイルベクトルの値の大きな成分を取り出すことにより、スタイルの識別を行うことができる。例えば、予め設定した値以上の最も大きな成分を取り出すといった簡単な方法でスタイルの識別を行うことができる。あるいは、単にベクトル成分の最大値を検出するのではなく、スタイルベクトルの値に応じて公知のクラスタリング手法、パターンマッチング手法やパターン識別手法等の処理を行うことによって、スタイルがどのカテゴリに属するかの識別を行うこともできる。
(スタイル出力手段)
スタイル出力手段17は、スタイルベクトル推定手段16によって、推定されたスタイルベクトルに基づいて求められたスタイルの検出・識別結果を図示しない液晶ディスプレイなどの表示手段に表示する。
表示内容は、スタイルベクトルの各要素値を数値で表示する。また、図6に示すようにスタイル空間を表示したグラフ上に検出した(推定した)スタイルベクトルをプロットすることもできる。図6の例では、複数の発話音声に対する検出結果を同時に表示したものである。
また、検出するベクトルのうち最も大きなベクトル要素値に対応するスタイルをその発話のスタイルと識別し、識別したスタイルを表示することもできる。例えば、図6に示したスタイルベクトルは、「楽しげ」、「悲嘆」、「ぞんざい」の3つのスタイル軸を有するスタイルベクトルであるから、検出したスタイルベクトルに対して、最大の要素値に対応するスタイル、すなわち「楽しげ」「悲嘆」「ぞんざい」の何れかを表示する。
なお、出力手段としては画像表示装置に限らず、プリンタを用いて検出・識別結果を印刷するように構成しても良いし、スピーカ等の発話手段を用いて音声にて出力するように構成しても良い。
以上説明したスタイルの識別装置は、一般的なコンピュータプログラムを実行させ、コンピュータ内の演算装置、記憶装置、入力装置、画像表示装置などを動作させることにより実現することもできる。このプログラム(音声のスタイルの識別プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
<装置の動作>
(装置全体の動作)
次に、図3を参照して音声のスタイル検出装置10の動作を説明する。ここで、図3は、図1に示した音声のスタイル検出装置10の処理の流れを示すフロー図である。
音声のスタイル検出装置10は、音声単位HMM15のモデルパラメータの学習を行うかどうかを確認する(ステップS10)。音声単位HMM15が未学習の場合あるいは追加学習を行う場合は(ステップS10でYes)、音声単位HMM15を学習するためのステップS11からステップS16を実行する。
これらのステップでは、まず、図示しないマイクロホンまたは音声データベースなどから学習用の発話音声データを発話単位(文章単位)で取得する(ステップS11)。取得した学習用の発話音声データに対して、音響分析手段11を用いて分析フレーム毎にスペクトル分析を行い、音響特徴パラメータ(観測ベクトル)を作成する(ステップ12)。音響分析の詳細は後記する。作成された音響特徴パラメータに対し、スタイルベクトル付与手段12を用いて、取得した発話音声のスタイルを表すスタイルベクトルを付与し、学習データを生成する(ステップS13)。生成した学習データは、学習データ記憶手段13に記憶(蓄積)する(ステップS14)。他の学習データを生成する場合は(ステップS15でYes)、次の発話音声(文章)を取得して(ステップS11)、音響分析(ステップS12),スタイルベクトル付与(ステップS13),学習データ記憶(ステップS14)の処理を繰り返す。学習データを生成すべき発話音声データがなくなった場合は(ステップS15でNo)、音声単位HMM学習手段14は、学習データ記憶手段13に蓄積した学習データを用いて音声単位HMM15の学習を行い、モデルパラメータを設定する(ステップS16)。学習のステップは、1回で完了することもできるが、複数回に分けて行うこともでき、必要に応じて前記した音声単位HMM15を学習するためのステップを繰り返す。
音声単位HMM15の学習が完了し、学習の必要がない場合は(ステップS10でNo)、スタイルの検出を行うかどうかを確認し、スタイルの検出を行う場合は(ステップS17でYes)、スタイル検出(スタイルベクトル推定)のためのステップS18からステップS21を実行する。
これらのステップでは、まずスタイルの検出対象となる発話音声データを、図示しないマイクロホンあるいは予め録音した記憶装置などから取得すると(ステップS18)、音響分析手段11を用いて、学習のためのステップS12と同じ手順で音響特徴パラメータを作成する。音響特徴パラメータが作成されると、この音響特徴パラメータを観測ベクトルとして、スタイルベクトル推定手段16は、モデル化された(学習済みの)音声単位HMM15を用いてスタイルベクトルを推定するとともに、推定したスタイルベクトルに基づいてスタイルの識別を行う(ステップS20)。スタイル出力手段17は、推定されたスタイルベクトルをスタイルの検出結果として、数値データあるいは図5のようにグラフ化して図示しない画像表示装置に表示するとともに、スタイルの識別結果を表示する(ステップS21)。次のスタイル検出対象があるかどうかを確認し、検出対象がある場合は(ステップS17でYes)、次の発話音声を取得し(ステップS18)、音響分析(ステップS19)、スタイルベクトル推定(ステップS20)、スタイルの出力(ステップS21)の処理を繰り返す。スタイルの検出対象がなくなると(ステップS17でNo)、処理を終了する。
(音響分析手段の動作)
次に、音響分析手段11の動作について、図4を参照して説明する。ここで、図4は、図2に示す音響分析手段11の処理の流れを示すフロー図であり、図3に示すフロー図のステップS12およびステップS19に該当する。
音響分析手段11は、発話単位(文章単位)で発話音声データ(波形データ)が入力されると(ステップS30)、まず、フレーム化処理手段111を用いて、分析フレームの抽出を行う(ステップS31)。抽出された分析フレーム(波形データ)に対して、音響特徴量抽出手段112を用いてスペクトル分析を行い、メル周波数ケプストラム係数および基本周波数を含む静的な音響特徴量を抽出する(ステップS32)。そして音響特徴パラメータ作成手段113を用いて、静的な音響特徴量に基づいて、動的な音響特徴量である、これらの静的な音響特徴量のデルタおよびデルタデルタパラメータを算出し、静的および動的な音響特徴量から音響特徴パラメータ(観測ベクトル)を作成する(ステップS33)。作成した音響特徴パラメータは、音響特徴パラメータ記憶手段114に記憶(蓄積)される(ステップS34)。入力された発話音声データから抽出される分析フレームが残っていると(ステップS35でYes)、次の分析フレームに対してフレーム化処理(ステップS31)、音響特徴量抽出(ステップS32)、音響特徴パラメータ作成(ステップS33)、音響特徴パラメータ記憶(ステップS34)の処理を繰り返す。処理すべき分析フレームがなくなると(ステップS35でNo)、音響分析処理を終了する。
<実験例>
本発明による音声のスタイル検出方法により、スタイル検出の実験を行った結果を示す。
(実験条件:音声単位HMMの学習)
「平静(読上げ)」「楽しげ」「悲嘆」「ぞんざい」の4つのスタイルで発声した音声を使用した。音声データベースには、男性のプロのナレータによりそれぞれのスタイルで発声されたATR(株式会社国際電気通信基礎技術研究所)の日本語音韻バランス文503文章を用いた。音声データベースに含まれる音素境界情報と言語・音韻情報に基づき、無音とポーズを含む42種類の音素を単位として、コンテキスト依存ラベルを作成した。
サンプリングレート16kHzの音声信号に対し、フレーム長25ms、フレーム周期5msのブラックマン窓を用いてメルケプストラム分析を行った。0次から24次のメルケプストラム係数と、対数基本周波数と、これらのデルタおよびデルタデルタパラメータとを加えて78次元の音響特徴パラメータとした。
HSMMは、音声単位は音素単位のトライフォン、5状態でスキップなしのleft-to-right型モデルとし、各スタイル450文章、計1800文章を用いて学習を行った。
「平静(読上げ)」スタイルをスタイル空間の原点とし、3次元のスタイル空間を仮定した。各スタイルのすべての学習データに対して、「平静」(O,O,0)、「悲嘆」(1,0,O)、「楽しげ」(0,1,0)、「ぞんざい」(O,0,1)とスタイルベクトルを一律に設定した。
(実験条件:スタイルベクトルの推定)
サンプルとして各スタイルのデータベースから学習データに含まれない53文章を使用し、学習用音声を収録したときの話者により、それぞれ「平静」「楽しげ」「悲嘆」「ぞんざい」の各スタイルで発声された音声を取得した。スタイルベクトルの推定実験においては使用した文章のテキスト情報を用いず、発話音声に対して音素認識を行って音素系列を推定し、その結果に基づいて文章単位でスタイルベクトルを推定した。
(実験結果:スタイルの検出(スタイルベクトルの推定))
実際の音声サンプルに対して、スタイルベクトルの推定を行った結果を図6に示す。
前記したように、推定されたスタイルベクトルは感情の表現度合いを表すと考えられる。実際の音声の音響特徴に現れる感情の表現度合いは一定ではないので、推定されたスタイルベクトルは学習データのスタイルベクトルの周りに分布している。しかし、各スタイルで発話された音声から推定したスタイルベクトルの分布はそれぞれ他のスタイルと分離していることがわかる。
(実験結果:スタイルの識別)
次に、図6に示したスタイルベクトルの検出結果に基づき、スタイルの識別を行った。識別基準として次のような基準を用いた。すべてのスタイルベクトルの要素が0.5(学習データに使用された値の半分)以下であれば、入力音声は「平静」であるとし、スタイルベクトルのいずれかの要素が0.5より大きい場合、最も値が大きい要素のスタイルを識別結果とした。表1 にスタイルの識別結果を示す。
識別基準が単純であるにも関わらず、結果は満足できるものであった。「平静」スタイルに識別された「ぞんざい」スタイルの4つの音声に対するスタイルベクトルの値は(0.09,0.07,0.49),(0.28,0.24,0.34),(0.26,0.18,0.47)および(0.10,0.29,0.48)であった。別途行った聴取試験により、これらの4つの音声は「ぞんざい」よりも「平静」に聞こえることを確認した。これは本発明による識別法が主観評価の結果に合う感情表現の度合いを与えることを示している。
Figure 2007219286
実施の形態に係る音声のスタイル検出装置の構成を示すブロック図である。 実施の形態に係る音響分析手段の構成を示すブロック図である。 実施の形態に係る音声のスタイル検出装置の処理の流れを示すフロー図である。 実施の形態に係る音響分析手段の処理の流れを示すフロー図である。 実施の形態に係る音声のスタイル検出装置によるスタイル検出結果の表示様式の例を示す図である。 実施の形態に係る音声のスタイル検出装置によるスタイル検出結果の例を示す図である。
符号の説明
10 音声のスタイル検出装置
11 音響分析手段
12 スタイルベクトル付与手段
13 学習データ記憶手段
14 音声単位HMM学習手段
15 音声単位HMM
16 スタイルベクトル推定手段
17 スタイル出力手段

Claims (7)

  1. 音声単位毎にモデル化される隠れマルコフモデル(音声単位HMM)を用いて、発話音声からそれに現れるスタイル(発話様式・感情表現)を検出する音声のスタイル検出装置であって、発話音声の音響特徴量を分析フレーム毎に抽出し音響特徴パラメータを作成する音響分析手段と、
    前記音響特徴パラメータに、そのスタイルを表わすN次元のスタイル空間(Nは1以上の整数)におけるスタイルベクトルを前記音響特徴パラメータに付与するスタイルベクトル付与手段と、
    前記スタイルベクトルを付与された音響特徴パラメータを学習データとして、音声単位毎に前記音声単位HMMを学習する音声単位HMM学習手段と、
    前記音響分析手段によってスタイル検出の対象となる発話音声から作成した音響特徴パラメータと、前記音声単位HMMとを用いて、前記スタイル検出の対象となる発話音声のスタイルベクトルを推定するスタイルベクトル推定手段と、
    を備えたことを特徴とする音声のスタイル検出装置。
  2. 前記音声単位HMMは、隠れセミマルコフモデル(HSMM)を用い、出力確率分布と状態継続長確率分布とを同時にモデル化することを特徴とする請求項1に記載の音声のスタイル検出装置。
  3. 前記音響分析手段は、少なくともスペクトルパラメータとピッチパラメータとを含む音響特徴パラメータを作成し、
    前記音声単位HMMは、音声単位毎に前記したスペクトルパラメータとピッチパラメータとを含む音響特徴パラメータを多空間確率分布隠れマルコフモデル(MSD−HMM)により同時にモデル化することを特徴とする請求項1または請求項2に記載の音声のスタイル検出装置。
  4. 前記音声単位HMMは、前記音響特徴パラメータの出力確率分布をガウス分布とし、該ガウス分布の平均ベクトルを前記スタイルベクトルの重回帰によってモデル化することを特徴とする請求項1ないし請求項3の何れか一項に記載の音声のスタイル検出装置。
  5. 前記推定したスタイルベクトルに基づいて、スタイルの識別を行うことを特徴とする請求項1ないし請求項4の何れか一項に記載の音声のスタイル検出装置。
  6. 音声単位毎にモデル化される隠れマルコフモデル(音声単位HMM)を用いて、発話音声からそれに現れるスタイルを検出する音声のスタイル検出方法であって、
    発話音声の音響特徴量を分析フレーム毎に抽出し音響特徴パラメータを作成する音響分析ステップと、
    前記音響特徴パラメータに、そのスタイルを表わすN次元のスタイル空間(Nは1以上の整数)におけるスタイルベクトルを前記音響特徴パラメータに付与するスタイルベクトル付与ステップと、
    前記スタイルベクトルを付与された音響特徴パラメータを学習データとして、音声単位毎に前記音声単位HMMを学習する音声単位HMM学習ステップと、
    前記音響分析手段によってスタイル検出の対象となる発話音声から作成した音響特徴パラメータと、前記音声単位HMMとを用いて、前記スタイル検出の対象となる発話音声のスタイルベクトルを推定するスタイルベクトル推定ステップと、
    を含むことを特徴とする音声のスタイル検出方法。
  7. 音声単位毎にモデル化される隠れマルコフモデル(音声単位HMM)を用いて、発話音声からそれに現れるスタイルを検出するために、コンピュータを、
    発話音声の音響特徴量を分析フレーム毎に抽出し音響特徴パラメータを作成する音響分析手段、
    前記音響特徴パラメータに、そのスタイルを表わすN次元のスタイル空間(Nは1以上の整数)におけるスタイルベクトルを前記音響特徴パラメータに付与するスタイルベクトル付与手段、
    前記スタイルベクトルを付与された音響特徴パラメータを学習データとして、音声単位毎に前記音声単位HMMを学習する音声単位HMM学習手段、
    前記音響分析手段によってスタイル検出の対象となる発話音声から作成した音響特徴パラメータと、前記音声単位HMMとを用いて、前記スタイル検出の対象となる発話音声のスタイルベクトルを推定するスタイルベクトル推定手段、
    として機能させることを特徴とする音声のスタイル検出プログラム。
JP2006041172A 2006-02-17 2006-02-17 音声のスタイル検出装置、その方法およびそのプログラム Pending JP2007219286A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006041172A JP2007219286A (ja) 2006-02-17 2006-02-17 音声のスタイル検出装置、その方法およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006041172A JP2007219286A (ja) 2006-02-17 2006-02-17 音声のスタイル検出装置、その方法およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2007219286A true JP2007219286A (ja) 2007-08-30

Family

ID=38496653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006041172A Pending JP2007219286A (ja) 2006-02-17 2006-02-17 音声のスタイル検出装置、その方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2007219286A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2013045363A (ja) * 2011-08-25 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム
JP2015082093A (ja) * 2013-10-24 2015-04-27 富士通株式会社 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
JP2015219480A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
JP2015230455A (ja) * 2014-06-06 2015-12-21 日本電信電話株式会社 音声分類装置、音声分類方法、プログラム
JP2017058513A (ja) * 2015-09-16 2017-03-23 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
WO2018006470A1 (zh) * 2016-07-07 2018-01-11 深圳狗尾草智能科技有限公司 人工智能处理方法及装置
WO2021171552A1 (ja) * 2020-02-28 2021-09-02 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
US11335337B2 (en) 2018-12-27 2022-05-17 Fujitsu Limited Information processing apparatus and learning method
US11640819B2 (en) 2019-12-24 2023-05-02 Fujitsu Limited Information processing apparatus and update method

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2013045363A (ja) * 2011-08-25 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム
JP2015082093A (ja) * 2013-10-24 2015-04-27 富士通株式会社 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
JP2015219480A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
JP2015230455A (ja) * 2014-06-06 2015-12-21 日本電信電話株式会社 音声分類装置、音声分類方法、プログラム
JP2017058513A (ja) * 2015-09-16 2017-03-23 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US10540956B2 (en) 2015-09-16 2020-01-21 Kabushiki Kaisha Toshiba Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus
WO2018006470A1 (zh) * 2016-07-07 2018-01-11 深圳狗尾草智能科技有限公司 人工智能处理方法及装置
US11335337B2 (en) 2018-12-27 2022-05-17 Fujitsu Limited Information processing apparatus and learning method
US11640819B2 (en) 2019-12-24 2023-05-02 Fujitsu Limited Information processing apparatus and update method
WO2021171552A1 (ja) * 2020-02-28 2021-09-02 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
JP7420211B2 (ja) 2020-02-28 2024-01-23 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム

Similar Documents

Publication Publication Date Title
Lorenzo-Trueba et al. Investigating different representations for modeling and controlling multiple emotions in DNN-based speech synthesis
Zen et al. Hidden semi-Markov model based speech synthesis.
Ten Bosch Emotions, speech and the ASR framework
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
JP4085130B2 (ja) 感情認識装置
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
JP2007219286A (ja) 音声のスタイル検出装置、その方法およびそのプログラム
US20080059190A1 (en) Speech unit selection using HMM acoustic models
Sharma et al. Acoustic model adaptation using in-domain background models for dysarthric speech recognition
JP5007401B2 (ja) 発音評定装置、およびプログラム
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
Middag et al. Robust automatic intelligibility assessment techniques evaluated on speakers treated for head and neck cancer
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Ramteke et al. Phoneme boundary detection from speech: A rule based approach
Hoffmann et al. Analysis of verbal and nonverbal acoustic signals with the Dresden UASR system
Tzudir et al. Analyzing RMFCC feature for dialect identification in Ao, an under-resourced language
JP4716125B2 (ja) 発音評定装置、およびプログラム
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Noroozi et al. A study of language and classifier-independent feature analysis for vocal emotion recognition
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
JP2011180308A (ja) 音声認識装置及び記録媒体
Bhardwaj et al. A Study of Methods Involved In Voice Emotion Recognition
Sethu Automatic emotion recognition: an investigation of acoustic and prosodic parameters
Huckvale 14 An Introduction to Phonetic Technology