JP2005221679A6 - 発話スタイル評価装置及び発話スタイル分類装置 - Google Patents

発話スタイル評価装置及び発話スタイル分類装置 Download PDF

Info

Publication number
JP2005221679A6
JP2005221679A6 JP2004028543A JP2004028543A JP2005221679A6 JP 2005221679 A6 JP2005221679 A6 JP 2005221679A6 JP 2004028543 A JP2004028543 A JP 2004028543A JP 2004028543 A JP2004028543 A JP 2004028543A JP 2005221679 A6 JP2005221679 A6 JP 2005221679A6
Authority
JP
Japan
Prior art keywords
utterance
utterances
category
style
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004028543A
Other languages
English (en)
Other versions
JP2005221679A5 (ja
JP2005221679A (ja
Inventor
昌英 水島
寿幸 竹澤
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004028543A priority Critical patent/JP2005221679A/ja
Priority claimed from JP2004028543A external-priority patent/JP2005221679A/ja
Publication of JP2005221679A publication Critical patent/JP2005221679A/ja
Publication of JP2005221679A5 publication Critical patent/JP2005221679A5/ja
Publication of JP2005221679A6 publication Critical patent/JP2005221679A6/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】
【解決手段】 発話スタイル評価装置100は、自然発話音響モデル162及び朗読発話音響モデル164を記憶する記憶装置124と、発話の各々の特徴量を抽出する特徴量抽出部130と、発話の各々について最尤の音響モデルを選択する最尤モデル選択部132と、選択された最尤の音響モデルに対応する発話スタイルのカテゴリを決定する判定部134と、複数の発話に対して決定されたカテゴリを統計処理する統計処理部136と、統計処理部136による統計処理の結果を表示する表示部138とを含む。
【選択図】 図2

Description

この発明は、人間の話し方が特定の目的に対してどの程度好適であるかを測定するための装置に関し、特に、特定の発話スタイルを目標として、その目標に対しどの程度適合した話し方をしているかを評価するための発話スタイル評価装置、及び発話スタイルを種々のカテゴリに分類するための発話スタイル分類装置に関する。
音声翻訳システム実現のためには、大規模な音声コーパスを構築することが必要である。特に音声翻訳システムは対話形式で使用されることが想定されるため、対話形式に固有の発話様式に対応することが必要である。これに関し、例えば通訳者を介した間接対話音声は、同一母語話者による直接対話音声と比較すると、「朗読調」の発話が増えることが分かっている。
例えば、後掲の非特許文献1では、音響モデルとして自然発話モデルと朗読発話モデルとを予め準備し、これらの音響モデルから、試験音声の発話ごとに最尤なモデルを動的に選択することで、試験音声が「朗読発話」に近いのか「自然発話」に近いのかを発話単位で推定している。
実際の音声翻訳システムでは、認識誤りや翻訳誤りが多少なりとも発生する。従ってそうしたシステムで人間が発声する対話音声は、通訳者を介した対話音声とは相違があることが予想される。音声認識装置は、そのような音声の相違に対応可能であることが望ましいが、実際にはそれは困難である。そこで、次善の策として、音声翻訳システムに対し発声するときの人間の声を、音声翻訳に適したものにすることが考えられる。つまり、できるだけ音声認識誤りが少なくなるような発声を人間が身につければ、音声認識を用いた対話システムを実用化できる可能性が高くなる。
タケザワ 他、「人間対人間、及び人間対機械の対話音声を使用した、音響学的及び言語学的な特徴に関する比較研究」、ICSLP2000論文集、第3巻522頁〜525頁、2000年(Takezawa et al.,"A Comparative Study on Acoustic and Linguistic Characteristics Using Speech of Human−to−Human and Human−to−Machine Conversations" ICSLP2000,Vol.3,pp.522−525,2000)
しかし、どのようにすれば音声翻訳に適した音声で発声することができるかを人間が知ることは困難である。同様の問題は、他の場面でも発生し得る。例えば、テレビジョン放送、ラジオ放送のアナウンサーなど、明瞭に話すことが要求されている職業の場合、そうした話し方を身に付けることが望ましい。しかも番組の内容により、視聴者に好感を与える話し方は異なる。しかし従来は、そうした話し方の教育は経験に基づくものであり、教師による主観的評価に基づくものであった。教師なしでは自己の発話スタイルを評価することは難しく、したがって目標となる発話スタイルを学習することは困難である。
それ以外にも、例えば人にものを案内する時の音声、人から情報を収集する際に好ましい音声、多人数を相手に講義をしたり講演をしたりする際に好ましい音声など、様々な状況にあわせて望ましい発話スタイルがあると思われる。しかしながら従来は、そのようなある目的に照らして好ましい発話スタイルを身に付けるために、発話スタイルを評価したり、分類したりする装置は存在していなかった。
それゆえにこの発明の目的は、目標となる発話スタイルに近い発話スタイルで発話できているか否かを評価することが可能な発話スタイル評価装置、及び発話スタイルを分類するための発話スタイル分類装置を提供することである。
本発明の第1の局面に係る発話スタイル評価装置は、第1のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第1の音響モデル、及び第2のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第2の音響モデルを記憶するための音響モデル記憶手段と、与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、複数の発話の各々について、特徴量抽出手段により抽出された特徴量に対する最尤のモデルを第1及び第2の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、最尤モデル選択手段により選択されたモデルの各々が属する音響モデル群に対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、カテゴリ決定手段により決定されたカテゴリを、複数の発話に対して統計処理するための統計処理手段と、統計処理手段による統計処理の結果を出力するための出力手段とを含む。
発話の各々について、第1及び第2の音響モデルの中から最尤のモデルを選択する。そのモデルがいずれの音響モデルに属するかによって、当該発話が第1及び第2の音響モデルに対応するカテゴリのいずれに属するかを決定する。複数の発話についてこのようにカテゴリを決定し、その結果を統計処理することで、複数の発話が第1のカテゴリと第2のカテゴリとに関しどのような関係にあるかを判定できる。判定結果を被験者に提示することにより、被験者は自己の発話スタイルが第1及び第2のカテゴリのいずれに近いかを知ることができ、発話スタイルをいずれかのカテゴリに近づけて発話するようなフィードバックが可能になる。
好ましくは、統計処理手段は、複数の発話の合計数に対する、第2のカテゴリに属すると決定手段により決定された発話数の割合を算出するための手段を含む。
被験者は、この割合を見ることにより、自己の発話スタイルが第1のカテゴリに近いのか、第2のカテゴリに近いのかを判断できる。その結果、例えば第2のカテゴリにより近づくように発話スタイルを変更するようなフィードバックが可能になる。
好ましくは、発話スタイル評価装置はさらに、複数の発話のテキストを記憶するための発話テキスト記憶手段と、発話テキスト記憶手段に記憶された複数の発話のテキストを所定の方法により決定される順番で選択し、被験者に提示するための発話テキスト提示手段と、発話テキスト提示手段により被験者に発話のテキストが提示されるごとに、特徴量抽出手段、最尤モデル選択手段、及びカテゴリ決定手段を制御して、被験者の発話の属する発話カテゴリを決定するための制御手段とをさらに含む。
発話スタイル評価装置が自動的に発話のテキストを選択して被験者に提示することにより、どの被験者に対しても一様な発話スタイルの評価が可能になる。所望の発話スタイルの学習を行なう場合、指導者がいなくても発話スタイル評価装置のみで発話スタイルの学習を行なうことが可能になる。
例えば第1のカテゴリは自然発話、第2のカテゴリは朗読発話である。
朗読発話に属する発話の割合が高くなるように発話スタイルの学習を行なうことにより、当該被験者の発話を音声認識したときの認識精度を高くすることができる。
本発明の第2の局面に係る発話カテゴリ分類装置は、それぞれ異なるカテゴリに属する発話スタイルの発話の音声認識のためにそれぞれ最適化された複数の音響モデルを記憶するための音響モデル記憶手段と、与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、複数の発話の各々について、特徴量抽出手段により抽出された特徴量に対する最尤のモデルを複数の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、最尤モデル選択手段により選択されたモデルの各々が属する音響モデル群に対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、カテゴリ決定手段により決定されたカテゴリを、複数の発話に対して統計処理することにより、複数の発話の発話カテゴリを分類するためのカテゴリ分類手段とを含む。
発話の各々について、複数の音響モデル群の中から最尤の音響モデルを選択する。その音響モデルがいずれの音響モデル群に属するかによって、当該発話がこれら複数の音響モデルに対応するカテゴリのいずれに属するかを決定する。複数の発話についてこのようにカテゴリを決定したのち、その結果を統計処理することで、複数の発話が全体としてどのカテゴリに属するかを分類できる。
−前提となる実験−
本願発明者は、環境により発話スタイルがどのように変化するか、及び発話スタイルによって単語認識誤り率がどのように変化するかを知るために、以下のような実験を行なった。
実験では、以下の4種類の対話コーパスを使用した。
(1)第1の対話音声コーパス
日本人話者同士の非対面模擬旅行対話音声である。分析対象となる発話セットは話者42名による計551発話である。
(2)第2の対話音声コーパス
通訳者を介した非対面模擬旅行対話音声である。分析対象は、日本人話者23名による計330発話である。
(3)第3の対話音声コーパス
日本人の海外渡航者向けの例文集にあるような旅行会話文の日英対訳の一部の日本語文を、男女各20名が読んだ音声である。この発話セットは発話者1人当たり約100発話、計4072発話を含む。
(4)第4の対話音声コーパス
翻訳システムを介した対面型の模擬旅行対話音声である。この発話セットは、日本人話者12名による計502発話を含む。
実験では、上に述べた4つの対話音声の発話スタイルを調べるために、異なる発話スタイルの音響モデルを使用した認識実験を行なった。第1の音響モデルは、音素バランス文を読み上げた音声により学習した「朗読発話モデル」である。第2の音響モデルは、日本人話者同士の対話音声(第1の対話音声コーパスを含む、より多数の発話からなる対話音声コーパス)を用いて学習した「自然発話モデル」である。非特許文献1に記載されたのと同様に、これらの音響モデルから、発話ごとに最尤なモデルを動的に選択し、自然発話モデルに属するモデルが選択される率と、その結果得られた単語認識の単語認識誤り率との関係を調べた。結果を図1に示す。
図1において、横軸は自然発話モデルが選択された率を表し、縦軸は単語認識結果の誤り率を示す。図1に示すように、自然発話モデル選択率が下がるほど単語認識誤り率は下がり、認識精度は高くなる。
本願発明者は、この実験結果から、自然発話モデル選択率が低くなるような発話スタイルを学習した話者であれば、音声認識装置による音声認識結果の精度を高くできる可能性が高いことに着目した。その結果、音声認識に適した発話スタイルを身に付けるために、発話スタイルを評価するための装置の発想を得た。以下に、そうした装置の実施の形態について説明する。
−構成−
図2は、本願発明の一実施の形態に係る発話スタイル評価装置のブロック図である。図2を参照して、発話スタイル評価装置100は、スピーカ102、マイクロフォン104、及び表示装置106とともに使用する装置である。発話スタイル評価装置100は、自然発話音響モデル162、朗読発話音響モデル164、及び発話スタイルの学習に用いる発話テキスト160を格納した記憶装置124を含む。音響モデル162及び164は、いずれもHMM(隠れマルコフモデル)を用いたものであり、その音響特徴量としてはMFCC(メル周波数ケプストラム係数)を用いている。
発話スタイル評価装置100はさらに、マイクロフォン104から与えられる音声信号をデジタル化し、データ処理可能な形式にするための音声入力部128と、音声入力部128により入力された音声データから、音声認識のための特徴量を抽出するための特徴量抽出部130と、特徴量抽出部130により抽出された音声の特徴量に対し、自然発話音響モデル162及び朗読発話音響モデル164を適用し最尤の音響モデルを選択するための最尤モデル選択部132と、最尤モデル選択部132により選択された音響モデルが、自然発話音響モデル162に属するものか、朗読発話音響モデル164に属するものかを判定するための判定部134と、判定部134による判定結果に対し統計処理を行なうための統計処理部136とを含む。
発話スタイル評価装置100はさらに、統計処理部136が使用する、第1のカウンタ140及び第2のカウンタ142と、統計処理部136による統計処理結果を、表示装置106上に表示する処理を行なうための表示制御部138とを含む。第1のカウンタ140は、自然発話音響モデル162に属するモデルが最尤モデルとして選択された発話の数C1を計数するためのカウンタである。第2のカウンタ142は、朗読発話音響モデル164に属するモデルが最尤モデルとして選択された発話の数C2を計数するためのカウンタである。
発話スタイル評価装置100は、発話テキスト160に含まれる各発話テキストを順に被験者に合成音声で提示し、被験者がその音声合成により示される発話を繰返すことにより、被験者の発話が音声認識に適したものであるか否かを判定するためのものである。
発話スタイル評価装置100はさらに、被験者に提示する発話テキストを繰返し選択するための繰返し制御部126と、繰返し制御部126により選択された発話テキストを記憶装置124から読み出すための発話選択部122と、発話選択部122により選択された発話に基づいて音声合成を行ない、合成音声をスピーカ102に与えるための音声合成部120とを含む。
[コンピュータによる実現および動作]
この実施の形態の発話スタイル評価装置100は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現可能である。図3は、この発話スタイル評価装置100を実現するためのコンピュータシステム330の外観を示す図である。図4はコンピュータシステム330の内部構成を示す。
図3を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図4を参照して、コンピュータ340は、FDドライバ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライバ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に上記した発話スタイル評価装置として動作させるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶されており、その記憶内容はハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。なお、プログラムはハードディスク354を経由することなくCD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にロードされてもよい。
このプログラムは、コンピュータ340にこの実施の形態の発話スタイル評価装置としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した発話スタイル評価装置を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
図5は、図2に示す発話スタイル評価装置100の各機能を、図3及び図4に示すコンピュータシステム330を用いて実現するためのコンピュータソフトウェアのフローチャートを示す。図5を参照して、この処理はステップ400で始まり、ステップ400では第1のカウンタ及び第2のカウンタの値C1およびC2にそれぞれ初期値として0を代入する。続いてステップ402で、以下の繰返しのための繰返し制御変数iに初期値0を代入する。
ステップ404で繰返し制御変数iに1を加算する。ステップ406でこの変数iの値が、最大値iMAXを超えたか否かを判定する。最大値iMAXは、図2に示す発話テキスト160に含まれる発話テキストの総数である。変数iの値が最大値iMAXを超えていれば繰返し制御は終了し、制御はステップ422に進む。それ以外の場合には制御はステップ408に進む。
ステップ408では、記憶装置124に記憶されている発話テキストのうち、i話目の発話を選択する。ステップ410ではこの選択された発話に基づいて音声合成を行ない、合成音声を出力する。被験者は、この合成音声により指示された発話を、できるだけ明瞭な形で(音声認識に適した形で)発音することを試みる。
ステップ412では、被験者の発話をデジタル化し、特徴量を抽出する。ステップ414では、この特徴量に基づいて、自然発話音響モデル162及び朗読発話音響モデル164を用いた音声認識と同様の処理を行ない、被験者の発話から抽出された特徴量により尤度が最大となる音響モデル(最尤モデル)を決定する。
ステップ416では、この最尤モデルが自然発話音響モデル162に属するモデルか否かを判定する。判定結果YESであればステップ418でカウンタC1の値に1を加算する。さもなければステップ420でカウンタC2の値を1加算する。この後、処理はステップ404に戻り、変数iに1を加算して上述した処理を繰返す。
一方、ステップ406で変数iの値が最大値iMAXを超えたと判定された場合、ステップ422で第1のカウンタ140の値C1と第2のカウンタ142の値C2の値を加算し、その和に対する第2のカウンタ142の値C2の割合(C2/(C1+C2))を計算する統計処理を行なう。
ステップ424で、この値をパーセントで表示する。音声認識では、朗読発話に近い発話スタイルで発話すると、認識精度が向上することが知られている。従ってステップ424で表示された値が100パーセントに近いほど音声認識に適した発話を被験者がしていることになる。
続いてステップ426で、実験を終了するか否かの入力をユーザーから受ける。そしてステップ428でユーザーからの入力が終了を指示したものか否かについて判定する。終了が指示された場合には、この処理を終了する。それ以外の場合には処理はステップ400に戻り、上記した処理を例えば次の被験者に対して実行する。
‐動作‐
図2〜図5に示す装置は以下のように動作する。繰返し制御部126は、最初に第1のカウンタ140の値C1及び第2のカウンタ142の値C2の値をいずれも0に初期化する。次に繰返し制御部126は、1番目の発話テキストを選択し、それを示す信号を発話選択部122に与える。発話選択部122は、この信号に応答して発話テキスト160のうちの1番目のテキストを選択し、音声合成部120に与える。音声合成部120はこの発話テキストに基づいて音声合成を行ない、スピーカ102を駆動して音声を発生し被験者に提示する。
被験者は、この合成音声により示された発話テキストに従い、できるだけ明瞭と思われる形で発話することを試みる。マイクロフォン104はこの音声を受け取ると電気信号に変換し、音声入力部128に与える。
音声入力部128はマイクロフォン104から与えられる音声信号をデジタル化し、フレーム化して特徴量抽出部130に与える。特徴量抽出部130は、この音声データから所定の特徴量を抽出し最尤モデル選択部132に与える。最尤モデル選択部132は、与えられた特徴量により尤度が最大となるような音響モデルを自然発話音響モデル162および朗読発話音響モデル164の中から音声認識と同様の手法により尤度計算を繰返すことによって選択し、そのモデルを特定する情報を判定部134に与える。
判定部134は、最尤モデル選択部132が選択した音響モデルが、自然発話音響モデル162に属するものか、朗読発話音響モデル164に属するものかを判定し、判定結果を統計処理部136に与える。
統計処理部136は、最尤モデルが自然発話音響モデル162に属するものである場合には第1のカウンタ140の値C1に1を加算し、それ以外の場合には第2のカウンタ142の値C2に1を加算する。
特徴量抽出部130、最尤モデル選択部132、判定部134及び統計処理部136による上記した一連の処理が完了すると、繰返し制御部126は次の発話テキストを選択し、発話選択部122に対し選択されたテキストを特定する情報を与える。以下、この発話テキストに対して上記したのと同様の処理を行なう。こうして発話テキスト160の各々について被験者の発話から特徴量を抽出し、その特徴量によって尤度が最大となるようなモデルを選択し、その結果に応じて第1のカウンタ140の値C1または第2のカウンタ142の値C2を加算する処理を行なう。すべての発話テキスト160に対し上記した繰返し処理が終了すると、繰返し制御部126は統計処理部136を制御して上記した統計処理を実行させる。統計処理部136は既に述べたように、被験者の発話のうち朗読発話音響モデル164に属する音響モデルが最尤モデルであると判定されたものの割合を計算して表示制御部138に与える。表示制御部138はこの数字を表示装置106を用いて表示する。
被験者は、表示装置106に示された数字を見ることにより、自分が行なった発話が、自然発話に近いものか朗読発話に近いものか、その発話スタイルを知ることができる。特にこの装置では、朗読発話に近い発話の数の割合が数字で示されるので、被験者は自分の発話スタイルが目標となる発話スタイル(朗読発話スタイル)にどの程度近いのかを判定することができ、それを自分の発話スタイルにフィードバックすることができる。
以上のようにこの実施の形態に係る発話スタイル評価装置100によれば、発話者の発話スタイルが自然発話に近いものか、朗読発話に近いものかを、その度合いを含めて測定し評価することができる。発話者はこの評価を参考にして、自分の発話をより朗読発話スタイルに近いものに改良していくことが可能になる。一般に音声認識では朗読発話に近い発話スタイルの方が音声認識の精度を高くできることが知られている。こうして、被験者が音声認識の精度を高めることができるような発話スタイルを身に付けることができる。
−可能な変形−
上記した実施の形態では、発話スタイルのカテゴリとして自然発話と朗読発話との二つを用いている。カテゴリとしてはこの他にも種々考えられる。例えば、アナウンサーなどに望まれる明瞭な話し方ができているか否か、大きな劇場などで、スピーカを使わず多数の聴衆に明瞭に聞こえるような話し方ができているか否か、等々、音声の音響特徴量の違いとして捕らえることが可能なカテゴリ分類にしたがい、目標となるカテゴリに属する話し方を身に付ける訓練を行なうことが可能になる。
上記した本発明の実施の形態は発話スタイルの評価装置に関するものであった。しかし本発明はそのような実施の形態に限定されるわけではない。例えば、実施の形態1に係る発話スタイル評価装置100は、被験者の発話を自然発話か朗読発話かの2つのカテゴリに分類する装置であると考えることもできる。同様の考え方により、例えば男声発話、及び女声発話という2つのカテゴリに被験者の発話スタイルを分類することもできる。分類可能なカテゴリの数が2つに限定されるわけではないこと、及び音響学的な特徴量で区別できるようなカテゴリであれば、どのような組合せに対しても序記した分類ができる可能性があること、等についてはいうまでもない。
また、音響モデルとしては、上記実施の形態ではHMMを用いている。現在のところ、音響モデルとしてはHMMが一般的であるし、これからも主流を占めるものと思われる。しかし本発明はHMMによる音響モデルに限定されるわけではない。例えば、セグメントモデル、トラジェクトリモデル、ニューラルネットワーク、サポートベクトルマシン等の既存の音響モデルに加え、今後考案されるであろう音響モデルを用いることも可能である。
また、音響モデルのための音響特徴量として、本実施の形態ではMFCCを用いている。しかし使用可能な音響特徴量はMFCCに限定されない。例えばDMFCC(差分DMFCC),LPC(線形予測係数),RASTA、PLP、聴覚モデルパラメータなど、種々の音響特徴量を用いることができる。
さらに、上記実施の形態では、統計処理の結果を表示装置に表示している。しかし本発明はそのような実施の形態に限定されるわけではない。例えば表示するかわりに音声出力するようにしてもよいし、ファイルに出力するようにしてもよい。
以上のように本実施の形態に係る発話スタイル評価装置を用いれば、発話者の発話スタイルを目標となるものに近づけるための訓練を行なったり、複数のカテゴリのうちの1つに分類したりすることが可能になる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
自然発話モデル選択率と音声認識の単語認識誤り率との関係を示すグラフである。 本発明の一実施の形態に係る発話スタイル評価装置100のブロック図である。 図2に示す装置を実現するためのコンピュータシステムの外観を示す図である 図3に示すコンピュータシステムのブロック図である。 図3及び図4に示すコンピュータシステムを用いて図2に示す発話スタイル評価装置100を実現するためのコンピュータプログラムのフローチャートである。
符号の説明
100 発話スタイル評価装置、102 スピーカ、104 マイクロフォン、106 表示装置、120 音声合成部、122 発話選択部、124 記憶装置、126 繰返し制御部、128 音声入力部、130 特徴量抽出部、132 最尤モデル選択部、134 判定部、136 統計処理部、160 発話テキスト、162 自然発話音響モデル、164 朗読発話音響モデル

Claims (6)

  1. 第1のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第1の音響モデル、及び第2のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第2の音響モデルを記憶するための音響モデル記憶手段と、
    与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、
    前記複数の発話の各々について、前記特徴量抽出手段により抽出された特徴量に対する最尤の音響モデルを前記第1及び第2の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、
    前記最尤モデル選択手段により選択されたモデルの各々が属する音響モデルに対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、
    前記カテゴリ決定手段により決定されたカテゴリを、前記複数の発話に対して統計処理するための統計処理手段と、
    前記統計処理手段による統計処理の結果を出力するための出力手段とを含む、発話スタイル評価装置。
  2. 前記統計処理手段は、前記複数の発話の合計数に対する、前記第2のカテゴリに属すると前記決定手段により決定された発話数の割合を算出するための手段を含む、請求項1に記載の発話スタイル評価装置。
  3. さらに、前記複数の発話のテキストを記憶するための発話テキスト記憶手段と、
    前記発話テキスト記憶手段に記憶された前記複数の発話のテキストを所定の方法により決定される順番で選択し、被験者に提示するための発話テキスト提示手段と、
    前記発話テキスト提示手段により被験者に発話のテキストが提示されるごとに、前記特徴量抽出手段、前記最尤モデル選択手段、及び前記カテゴリ決定手段を制御して、前記被験者の発話の属する発話カテゴリを決定するための制御手段とをさらに含む、請求項1又は請求項2に記載の発話スタイル評価装置。
  4. 前記第1のカテゴリは自然発話である、請求項1〜請求項3のいずれかに記載の発話スタイル評価装置。
  5. 第2のカテゴリは朗読発話である、請求項1〜請求項4のいずれかに記載の発話スタイル評価装置。
  6. それぞれ異なるカテゴリに属する発話スタイルの発話の音声認識のためにそれぞれ最適化された複数の音響モデルを記憶するための音響モデル記憶手段と、
    与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、
    前記複数の発話の各々について、前記特徴量抽出手段により抽出された特徴量に対する最尤のモデルを前記複数の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、
    前記最尤モデル選択手段により選択されたモデルの各々が属する音響モデルに対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、
    前記カテゴリ決定手段により決定されたカテゴリを、前記複数の発話に対して統計処理することにより、前記複数の発話の発話カテゴリを分類するためのカテゴリ分類手段とを含む、発話カテゴリ分類装置。
JP2004028543A 2004-02-04 2004-02-04 発話スタイル評価装置及び発話スタイル分類装置 Pending JP2005221679A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004028543A JP2005221679A (ja) 2004-02-04 2004-02-04 発話スタイル評価装置及び発話スタイル分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004028543A JP2005221679A (ja) 2004-02-04 2004-02-04 発話スタイル評価装置及び発話スタイル分類装置

Publications (3)

Publication Number Publication Date
JP2005221679A JP2005221679A (ja) 2005-08-18
JP2005221679A5 JP2005221679A5 (ja) 2005-09-29
JP2005221679A6 true JP2005221679A6 (ja) 2006-04-13

Family

ID=34997371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004028543A Pending JP2005221679A (ja) 2004-02-04 2004-02-04 発話スタイル評価装置及び発話スタイル分類装置

Country Status (1)

Country Link
JP (1) JP2005221679A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6220733B2 (ja) * 2014-06-06 2017-10-25 日本電信電話株式会社 音声分類装置、音声分類方法、プログラム
JP6969491B2 (ja) * 2018-05-11 2021-11-24 トヨタ自動車株式会社 音声対話システム、音声対話方法及びプログラム

Similar Documents

Publication Publication Date Title
JP4125362B2 (ja) 音声合成装置
EP3061086B1 (en) Text-to-speech performance evaluation
JP7018659B2 (ja) 声質変換装置、声質変換方法およびプログラム
US11145222B2 (en) Language learning system, language learning support server, and computer program product
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
Yin et al. Automatic cognitive load detection from speech features
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP2020034883A (ja) 音声合成装置及びプログラム
CN109300339A (zh) 一种英语口语的练习方法及系统
Přibil et al. GMM-based speaker gender and age classification after voice conversion
EP1010170B1 (en) Method and system for automatic text-independent grading of pronunciation for language instruction
Deka et al. Development of assamese text-to-speech system using deep neural network
JP4753412B2 (ja) 発音評定装置、およびプログラム
KR102274751B1 (ko) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
Cen et al. Generating emotional speech from neutral speech
JP2005221679A6 (ja) 発話スタイル評価装置及び発話スタイル分類装置
JP2005221679A (ja) 発話スタイル評価装置及び発話スタイル分類装置
Valentini-Botinhao et al. Intelligibility of time-compressed synthetic speech: Compression method and speaking style
Hsu et al. Speaker-dependent model interpolation for statistical emotional speech synthesis
JP4793776B2 (ja) イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム
Matsumoto et al. Speech-like emotional sound generation using wavenet
KR102418465B1 (ko) 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
Zain et al. A review of CALL-based ASR and its potential application for Malay cued Speech learning tool application
Dzibela et al. Hidden-Markov-Model Based Speech Enhancement
Coelho et al. Towards an objective voice preference definition for the portuguese language