JP2005221679A6

JP2005221679A6 - 発話スタイル評価装置及び発話スタイル分類装置

Info

Publication number: JP2005221679A6
Application number: JP2004028543A
Authority: JP
Inventors: 昌英水島; 寿幸竹澤; 玄一郎菊井
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Filing date: 2004-02-04
Publication date: 2006-04-13

Abstract

【課題】
【解決手段】発話スタイル評価装置１００は、自然発話音響モデル１６２及び朗読発話音響モデル１６４を記憶する記憶装置１２４と、発話の各々の特徴量を抽出する特徴量抽出部１３０と、発話の各々について最尤の音響モデルを選択する最尤モデル選択部１３２と、選択された最尤の音響モデルに対応する発話スタイルのカテゴリを決定する判定部１３４と、複数の発話に対して決定されたカテゴリを統計処理する統計処理部１３６と、統計処理部１３６による統計処理の結果を表示する表示部１３８とを含む。
【選択図】図２

Description

この発明は、人間の話し方が特定の目的に対してどの程度好適であるかを測定するための装置に関し、特に、特定の発話スタイルを目標として、その目標に対しどの程度適合した話し方をしているかを評価するための発話スタイル評価装置、及び発話スタイルを種々のカテゴリに分類するための発話スタイル分類装置に関する。

音声翻訳システム実現のためには、大規模な音声コーパスを構築することが必要である。特に音声翻訳システムは対話形式で使用されることが想定されるため、対話形式に固有の発話様式に対応することが必要である。これに関し、例えば通訳者を介した間接対話音声は、同一母語話者による直接対話音声と比較すると、「朗読調」の発話が増えることが分かっている。

例えば、後掲の非特許文献１では、音響モデルとして自然発話モデルと朗読発話モデルとを予め準備し、これらの音響モデルから、試験音声の発話ごとに最尤なモデルを動的に選択することで、試験音声が「朗読発話」に近いのか「自然発話」に近いのかを発話単位で推定している。

実際の音声翻訳システムでは、認識誤りや翻訳誤りが多少なりとも発生する。従ってそうしたシステムで人間が発声する対話音声は、通訳者を介した対話音声とは相違があることが予想される。音声認識装置は、そのような音声の相違に対応可能であることが望ましいが、実際にはそれは困難である。そこで、次善の策として、音声翻訳システムに対し発声するときの人間の声を、音声翻訳に適したものにすることが考えられる。つまり、できるだけ音声認識誤りが少なくなるような発声を人間が身につければ、音声認識を用いた対話システムを実用化できる可能性が高くなる。

タケザワ他、「人間対人間、及び人間対機械の対話音声を使用した、音響学的及び言語学的な特徴に関する比較研究」、ＩＣＳＬＰ２０００論文集、第３巻５２２頁〜５２５頁、２０００年（Ｔａｋｅｚａｗａｅｔａｌ．，"ＡＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｎＡｃｏｕｓｔｉｃａｎｄＬｉｎｇｕｉｓｔｉｃＣｈａｒａｃｔｅｒｉｓｔｉｃｓＵｓｉｎｇＳｐｅｅｃｈｏｆＨｕｍａｎ−ｔｏ−ＨｕｍａｎａｎｄＨｕｍａｎ−ｔｏ−ＭａｃｈｉｎｅＣｏｎｖｅｒｓａｔｉｏｎｓ" ＩＣＳＬＰ２０００，Ｖｏｌ．３，ｐｐ．５２２−５２５，２０００）

しかし、どのようにすれば音声翻訳に適した音声で発声することができるかを人間が知ることは困難である。同様の問題は、他の場面でも発生し得る。例えば、テレビジョン放送、ラジオ放送のアナウンサーなど、明瞭に話すことが要求されている職業の場合、そうした話し方を身に付けることが望ましい。しかも番組の内容により、視聴者に好感を与える話し方は異なる。しかし従来は、そうした話し方の教育は経験に基づくものであり、教師による主観的評価に基づくものであった。教師なしでは自己の発話スタイルを評価することは難しく、したがって目標となる発話スタイルを学習することは困難である。

それ以外にも、例えば人にものを案内する時の音声、人から情報を収集する際に好ましい音声、多人数を相手に講義をしたり講演をしたりする際に好ましい音声など、様々な状況にあわせて望ましい発話スタイルがあると思われる。しかしながら従来は、そのようなある目的に照らして好ましい発話スタイルを身に付けるために、発話スタイルを評価したり、分類したりする装置は存在していなかった。

それゆえにこの発明の目的は、目標となる発話スタイルに近い発話スタイルで発話できているか否かを評価することが可能な発話スタイル評価装置、及び発話スタイルを分類するための発話スタイル分類装置を提供することである。

本発明の第１の局面に係る発話スタイル評価装置は、第１のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第１の音響モデル、及び第２のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第２の音響モデルを記憶するための音響モデル記憶手段と、与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、複数の発話の各々について、特徴量抽出手段により抽出された特徴量に対する最尤のモデルを第１及び第２の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、最尤モデル選択手段により選択されたモデルの各々が属する音響モデル群に対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、カテゴリ決定手段により決定されたカテゴリを、複数の発話に対して統計処理するための統計処理手段と、統計処理手段による統計処理の結果を出力するための出力手段とを含む。

発話の各々について、第１及び第２の音響モデルの中から最尤のモデルを選択する。そのモデルがいずれの音響モデルに属するかによって、当該発話が第１及び第２の音響モデルに対応するカテゴリのいずれに属するかを決定する。複数の発話についてこのようにカテゴリを決定し、その結果を統計処理することで、複数の発話が第１のカテゴリと第２のカテゴリとに関しどのような関係にあるかを判定できる。判定結果を被験者に提示することにより、被験者は自己の発話スタイルが第１及び第２のカテゴリのいずれに近いかを知ることができ、発話スタイルをいずれかのカテゴリに近づけて発話するようなフィードバックが可能になる。

好ましくは、統計処理手段は、複数の発話の合計数に対する、第２のカテゴリに属すると決定手段により決定された発話数の割合を算出するための手段を含む。

被験者は、この割合を見ることにより、自己の発話スタイルが第１のカテゴリに近いのか、第２のカテゴリに近いのかを判断できる。その結果、例えば第２のカテゴリにより近づくように発話スタイルを変更するようなフィードバックが可能になる。

好ましくは、発話スタイル評価装置はさらに、複数の発話のテキストを記憶するための発話テキスト記憶手段と、発話テキスト記憶手段に記憶された複数の発話のテキストを所定の方法により決定される順番で選択し、被験者に提示するための発話テキスト提示手段と、発話テキスト提示手段により被験者に発話のテキストが提示されるごとに、特徴量抽出手段、最尤モデル選択手段、及びカテゴリ決定手段を制御して、被験者の発話の属する発話カテゴリを決定するための制御手段とをさらに含む。

発話スタイル評価装置が自動的に発話のテキストを選択して被験者に提示することにより、どの被験者に対しても一様な発話スタイルの評価が可能になる。所望の発話スタイルの学習を行なう場合、指導者がいなくても発話スタイル評価装置のみで発話スタイルの学習を行なうことが可能になる。

例えば第１のカテゴリは自然発話、第２のカテゴリは朗読発話である。

朗読発話に属する発話の割合が高くなるように発話スタイルの学習を行なうことにより、当該被験者の発話を音声認識したときの認識精度を高くすることができる。

本発明の第２の局面に係る発話カテゴリ分類装置は、それぞれ異なるカテゴリに属する発話スタイルの発話の音声認識のためにそれぞれ最適化された複数の音響モデルを記憶するための音響モデル記憶手段と、与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、複数の発話の各々について、特徴量抽出手段により抽出された特徴量に対する最尤のモデルを複数の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、最尤モデル選択手段により選択されたモデルの各々が属する音響モデル群に対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、カテゴリ決定手段により決定されたカテゴリを、複数の発話に対して統計処理することにより、複数の発話の発話カテゴリを分類するためのカテゴリ分類手段とを含む。

発話の各々について、複数の音響モデル群の中から最尤の音響モデルを選択する。その音響モデルがいずれの音響モデル群に属するかによって、当該発話がこれら複数の音響モデルに対応するカテゴリのいずれに属するかを決定する。複数の発話についてこのようにカテゴリを決定したのち、その結果を統計処理することで、複数の発話が全体としてどのカテゴリに属するかを分類できる。

−前提となる実験−
本願発明者は、環境により発話スタイルがどのように変化するか、及び発話スタイルによって単語認識誤り率がどのように変化するかを知るために、以下のような実験を行なった。

実験では、以下の４種類の対話コーパスを使用した。

（１）第１の対話音声コーパス
日本人話者同士の非対面模擬旅行対話音声である。分析対象となる発話セットは話者４２名による計５５１発話である。

（２）第２の対話音声コーパス
通訳者を介した非対面模擬旅行対話音声である。分析対象は、日本人話者２３名による計３３０発話である。

（３）第３の対話音声コーパス
日本人の海外渡航者向けの例文集にあるような旅行会話文の日英対訳の一部の日本語文を、男女各２０名が読んだ音声である。この発話セットは発話者１人当たり約１００発話、計４０７２発話を含む。

（４）第４の対話音声コーパス
翻訳システムを介した対面型の模擬旅行対話音声である。この発話セットは、日本人話者１２名による計５０２発話を含む。

実験では、上に述べた４つの対話音声の発話スタイルを調べるために、異なる発話スタイルの音響モデルを使用した認識実験を行なった。第１の音響モデルは、音素バランス文を読み上げた音声により学習した「朗読発話モデル」である。第２の音響モデルは、日本人話者同士の対話音声（第１の対話音声コーパスを含む、より多数の発話からなる対話音声コーパス）を用いて学習した「自然発話モデル」である。非特許文献１に記載されたのと同様に、これらの音響モデルから、発話ごとに最尤なモデルを動的に選択し、自然発話モデルに属するモデルが選択される率と、その結果得られた単語認識の単語認識誤り率との関係を調べた。結果を図１に示す。

図１において、横軸は自然発話モデルが選択された率を表し、縦軸は単語認識結果の誤り率を示す。図１に示すように、自然発話モデル選択率が下がるほど単語認識誤り率は下がり、認識精度は高くなる。

本願発明者は、この実験結果から、自然発話モデル選択率が低くなるような発話スタイルを学習した話者であれば、音声認識装置による音声認識結果の精度を高くできる可能性が高いことに着目した。その結果、音声認識に適した発話スタイルを身に付けるために、発話スタイルを評価するための装置の発想を得た。以下に、そうした装置の実施の形態について説明する。

−構成−
図２は、本願発明の一実施の形態に係る発話スタイル評価装置のブロック図である。図２を参照して、発話スタイル評価装置１００は、スピーカ１０２、マイクロフォン１０４、及び表示装置１０６とともに使用する装置である。発話スタイル評価装置１００は、自然発話音響モデル１６２、朗読発話音響モデル１６４、及び発話スタイルの学習に用いる発話テキスト１６０を格納した記憶装置１２４を含む。音響モデル１６２及び１６４は、いずれもＨＭＭ（隠れマルコフモデル）を用いたものであり、その音響特徴量としてはＭＦＣＣ（メル周波数ケプストラム係数）を用いている。

発話スタイル評価装置１００はさらに、マイクロフォン１０４から与えられる音声信号をデジタル化し、データ処理可能な形式にするための音声入力部１２８と、音声入力部１２８により入力された音声データから、音声認識のための特徴量を抽出するための特徴量抽出部１３０と、特徴量抽出部１３０により抽出された音声の特徴量に対し、自然発話音響モデル１６２及び朗読発話音響モデル１６４を適用し最尤の音響モデルを選択するための最尤モデル選択部１３２と、最尤モデル選択部１３２により選択された音響モデルが、自然発話音響モデル１６２に属するものか、朗読発話音響モデル１６４に属するものかを判定するための判定部１３４と、判定部１３４による判定結果に対し統計処理を行なうための統計処理部１３６とを含む。

発話スタイル評価装置１００はさらに、統計処理部１３６が使用する、第１のカウンタ１４０及び第２のカウンタ１４２と、統計処理部１３６による統計処理結果を、表示装置１０６上に表示する処理を行なうための表示制御部１３８とを含む。第１のカウンタ１４０は、自然発話音響モデル１６２に属するモデルが最尤モデルとして選択された発話の数Ｃ₁を計数するためのカウンタである。第２のカウンタ１４２は、朗読発話音響モデル１６４に属するモデルが最尤モデルとして選択された発話の数Ｃ₂を計数するためのカウンタである。

発話スタイル評価装置１００は、発話テキスト１６０に含まれる各発話テキストを順に被験者に合成音声で提示し、被験者がその音声合成により示される発話を繰返すことにより、被験者の発話が音声認識に適したものであるか否かを判定するためのものである。

発話スタイル評価装置１００はさらに、被験者に提示する発話テキストを繰返し選択するための繰返し制御部１２６と、繰返し制御部１２６により選択された発話テキストを記憶装置１２４から読み出すための発話選択部１２２と、発話選択部１２２により選択された発話に基づいて音声合成を行ない、合成音声をスピーカ１０２に与えるための音声合成部１２０とを含む。
［コンピュータによる実現および動作］
この実施の形態の発話スタイル評価装置１００は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現可能である。図３は、この発話スタイル評価装置１００を実現するためのコンピュータシステム３３０の外観を示す図である。図４はコンピュータシステム３３０の内部構成を示す。

図３を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図４を参照して、コンピュータ３４０は、ＦＤドライバ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライバ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０に上記した発話スタイル評価装置として動作させるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶されており、その記憶内容はハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。なお、プログラムはハードディスク３５４を経由することなくＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にロードされてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態の発話スタイル評価装置としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）またはサードパーティのプログラム、もしくはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した発話スタイル評価装置を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

図５は、図２に示す発話スタイル評価装置１００の各機能を、図３及び図４に示すコンピュータシステム３３０を用いて実現するためのコンピュータソフトウェアのフローチャートを示す。図５を参照して、この処理はステップ４００で始まり、ステップ４００では第１のカウンタ及び第２のカウンタの値Ｃ₁およびＣ₂にそれぞれ初期値として０を代入する。続いてステップ４０２で、以下の繰返しのための繰返し制御変数ｉに初期値０を代入する。

ステップ４０４で繰返し制御変数ｉに１を加算する。ステップ４０６でこの変数ｉの値が、最大値ｉ_MAXを超えたか否かを判定する。最大値ｉ_MAXは、図２に示す発話テキスト１６０に含まれる発話テキストの総数である。変数ｉの値が最大値ｉ_MAXを超えていれば繰返し制御は終了し、制御はステップ４２２に進む。それ以外の場合には制御はステップ４０８に進む。

ステップ４０８では、記憶装置１２４に記憶されている発話テキストのうち、ｉ話目の発話を選択する。ステップ４１０ではこの選択された発話に基づいて音声合成を行ない、合成音声を出力する。被験者は、この合成音声により指示された発話を、できるだけ明瞭な形で（音声認識に適した形で）発音することを試みる。

ステップ４１２では、被験者の発話をデジタル化し、特徴量を抽出する。ステップ４１４では、この特徴量に基づいて、自然発話音響モデル１６２及び朗読発話音響モデル１６４を用いた音声認識と同様の処理を行ない、被験者の発話から抽出された特徴量により尤度が最大となる音響モデル（最尤モデル）を決定する。

ステップ４１６では、この最尤モデルが自然発話音響モデル１６２に属するモデルか否かを判定する。判定結果ＹＥＳであればステップ４１８でカウンタＣ₁の値に１を加算する。さもなければステップ４２０でカウンタＣ₂の値を１加算する。この後、処理はステップ４０４に戻り、変数ｉに１を加算して上述した処理を繰返す。

一方、ステップ４０６で変数ｉの値が最大値ｉ_MAXを超えたと判定された場合、ステップ４２２で第１のカウンタ１４０の値Ｃ₁と第２のカウンタ１４２の値Ｃ₂の値を加算し、その和に対する第２のカウンタ１４２の値Ｃ₂の割合（Ｃ₂／（Ｃ₁＋Ｃ₂））を計算する統計処理を行なう。

ステップ４２４で、この値をパーセントで表示する。音声認識では、朗読発話に近い発話スタイルで発話すると、認識精度が向上することが知られている。従ってステップ４２４で表示された値が１００パーセントに近いほど音声認識に適した発話を被験者がしていることになる。

続いてステップ４２６で、実験を終了するか否かの入力をユーザーから受ける。そしてステップ４２８でユーザーからの入力が終了を指示したものか否かについて判定する。終了が指示された場合には、この処理を終了する。それ以外の場合には処理はステップ４００に戻り、上記した処理を例えば次の被験者に対して実行する。

‐動作‐
図２〜図５に示す装置は以下のように動作する。繰返し制御部１２６は、最初に第１のカウンタ１４０の値Ｃ₁及び第２のカウンタ１４２の値Ｃ₂の値をいずれも０に初期化する。次に繰返し制御部１２６は、１番目の発話テキストを選択し、それを示す信号を発話選択部１２２に与える。発話選択部１２２は、この信号に応答して発話テキスト１６０のうちの１番目のテキストを選択し、音声合成部１２０に与える。音声合成部１２０はこの発話テキストに基づいて音声合成を行ない、スピーカ１０２を駆動して音声を発生し被験者に提示する。

被験者は、この合成音声により示された発話テキストに従い、できるだけ明瞭と思われる形で発話することを試みる。マイクロフォン１０４はこの音声を受け取ると電気信号に変換し、音声入力部１２８に与える。

音声入力部１２８はマイクロフォン１０４から与えられる音声信号をデジタル化し、フレーム化して特徴量抽出部１３０に与える。特徴量抽出部１３０は、この音声データから所定の特徴量を抽出し最尤モデル選択部１３２に与える。最尤モデル選択部１３２は、与えられた特徴量により尤度が最大となるような音響モデルを自然発話音響モデル１６２および朗読発話音響モデル１６４の中から音声認識と同様の手法により尤度計算を繰返すことによって選択し、そのモデルを特定する情報を判定部１３４に与える。

判定部１３４は、最尤モデル選択部１３２が選択した音響モデルが、自然発話音響モデル１６２に属するものか、朗読発話音響モデル１６４に属するものかを判定し、判定結果を統計処理部１３６に与える。

統計処理部１３６は、最尤モデルが自然発話音響モデル１６２に属するものである場合には第１のカウンタ１４０の値Ｃ₁に１を加算し、それ以外の場合には第２のカウンタ１４２の値Ｃ₂に１を加算する。

特徴量抽出部１３０、最尤モデル選択部１３２、判定部１３４及び統計処理部１３６による上記した一連の処理が完了すると、繰返し制御部１２６は次の発話テキストを選択し、発話選択部１２２に対し選択されたテキストを特定する情報を与える。以下、この発話テキストに対して上記したのと同様の処理を行なう。こうして発話テキスト１６０の各々について被験者の発話から特徴量を抽出し、その特徴量によって尤度が最大となるようなモデルを選択し、その結果に応じて第１のカウンタ１４０の値Ｃ₁または第２のカウンタ１４２の値Ｃ₂を加算する処理を行なう。すべての発話テキスト１６０に対し上記した繰返し処理が終了すると、繰返し制御部１２６は統計処理部１３６を制御して上記した統計処理を実行させる。統計処理部１３６は既に述べたように、被験者の発話のうち朗読発話音響モデル１６４に属する音響モデルが最尤モデルであると判定されたものの割合を計算して表示制御部１３８に与える。表示制御部１３８はこの数字を表示装置１０６を用いて表示する。

被験者は、表示装置１０６に示された数字を見ることにより、自分が行なった発話が、自然発話に近いものか朗読発話に近いものか、その発話スタイルを知ることができる。特にこの装置では、朗読発話に近い発話の数の割合が数字で示されるので、被験者は自分の発話スタイルが目標となる発話スタイル（朗読発話スタイル）にどの程度近いのかを判定することができ、それを自分の発話スタイルにフィードバックすることができる。

以上のようにこの実施の形態に係る発話スタイル評価装置１００によれば、発話者の発話スタイルが自然発話に近いものか、朗読発話に近いものかを、その度合いを含めて測定し評価することができる。発話者はこの評価を参考にして、自分の発話をより朗読発話スタイルに近いものに改良していくことが可能になる。一般に音声認識では朗読発話に近い発話スタイルの方が音声認識の精度を高くできることが知られている。こうして、被験者が音声認識の精度を高めることができるような発話スタイルを身に付けることができる。

−可能な変形−
上記した実施の形態では、発話スタイルのカテゴリとして自然発話と朗読発話との二つを用いている。カテゴリとしてはこの他にも種々考えられる。例えば、アナウンサーなどに望まれる明瞭な話し方ができているか否か、大きな劇場などで、スピーカを使わず多数の聴衆に明瞭に聞こえるような話し方ができているか否か、等々、音声の音響特徴量の違いとして捕らえることが可能なカテゴリ分類にしたがい、目標となるカテゴリに属する話し方を身に付ける訓練を行なうことが可能になる。

上記した本発明の実施の形態は発話スタイルの評価装置に関するものであった。しかし本発明はそのような実施の形態に限定されるわけではない。例えば、実施の形態１に係る発話スタイル評価装置１００は、被験者の発話を自然発話か朗読発話かの２つのカテゴリに分類する装置であると考えることもできる。同様の考え方により、例えば男声発話、及び女声発話という２つのカテゴリに被験者の発話スタイルを分類することもできる。分類可能なカテゴリの数が２つに限定されるわけではないこと、及び音響学的な特徴量で区別できるようなカテゴリであれば、どのような組合せに対しても序記した分類ができる可能性があること、等についてはいうまでもない。

また、音響モデルとしては、上記実施の形態ではＨＭＭを用いている。現在のところ、音響モデルとしてはＨＭＭが一般的であるし、これからも主流を占めるものと思われる。しかし本発明はＨＭＭによる音響モデルに限定されるわけではない。例えば、セグメントモデル、トラジェクトリモデル、ニューラルネットワーク、サポートベクトルマシン等の既存の音響モデルに加え、今後考案されるであろう音響モデルを用いることも可能である。

また、音響モデルのための音響特徴量として、本実施の形態ではＭＦＣＣを用いている。しかし使用可能な音響特徴量はＭＦＣＣに限定されない。例えばＤＭＦＣＣ（差分ＤＭＦＣＣ），ＬＰＣ（線形予測係数），ＲＡＳＴＡ、ＰＬＰ、聴覚モデルパラメータなど、種々の音響特徴量を用いることができる。

さらに、上記実施の形態では、統計処理の結果を表示装置に表示している。しかし本発明はそのような実施の形態に限定されるわけではない。例えば表示するかわりに音声出力するようにしてもよいし、ファイルに出力するようにしてもよい。

以上のように本実施の形態に係る発話スタイル評価装置を用いれば、発話者の発話スタイルを目標となるものに近づけるための訓練を行なったり、複数のカテゴリのうちの１つに分類したりすることが可能になる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

自然発話モデル選択率と音声認識の単語認識誤り率との関係を示すグラフである。本発明の一実施の形態に係る発話スタイル評価装置１００のブロック図である。図２に示す装置を実現するためのコンピュータシステムの外観を示す図である図３に示すコンピュータシステムのブロック図である。図３及び図４に示すコンピュータシステムを用いて図２に示す発話スタイル評価装置１００を実現するためのコンピュータプログラムのフローチャートである。

符号の説明

１００発話スタイル評価装置、１０２スピーカ、１０４マイクロフォン、１０６表示装置、１２０音声合成部、１２２発話選択部、１２４記憶装置、１２６繰返し制御部、１２８音声入力部、１３０特徴量抽出部、１３２最尤モデル選択部、１３４判定部、１３６統計処理部、１６０発話テキスト、１６２自然発話音響モデル、１６４朗読発話音響モデル

Claims

第１のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第１の音響モデル、及び第２のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第２の音響モデルを記憶するための音響モデル記憶手段と、
与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、
前記複数の発話の各々について、前記特徴量抽出手段により抽出された特徴量に対する最尤の音響モデルを前記第１及び第２の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、
前記最尤モデル選択手段により選択されたモデルの各々が属する音響モデルに対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、
前記カテゴリ決定手段により決定されたカテゴリを、前記複数の発話に対して統計処理するための統計処理手段と、
前記統計処理手段による統計処理の結果を出力するための出力手段とを含む、発話スタイル評価装置。
前記統計処理手段は、前記複数の発話の合計数に対する、前記第２のカテゴリに属すると前記決定手段により決定された発話数の割合を算出するための手段を含む、請求項１に記載の発話スタイル評価装置。
さらに、前記複数の発話のテキストを記憶するための発話テキスト記憶手段と、
前記発話テキスト記憶手段に記憶された前記複数の発話のテキストを所定の方法により決定される順番で選択し、被験者に提示するための発話テキスト提示手段と、
前記発話テキスト提示手段により被験者に発話のテキストが提示されるごとに、前記特徴量抽出手段、前記最尤モデル選択手段、及び前記カテゴリ決定手段を制御して、前記被験者の発話の属する発話カテゴリを決定するための制御手段とをさらに含む、請求項１又は請求項２に記載の発話スタイル評価装置。
前記第１のカテゴリは自然発話である、請求項１〜請求項３のいずれかに記載の発話スタイル評価装置。
第２のカテゴリは朗読発話である、請求項１〜請求項４のいずれかに記載の発話スタイル評価装置。
それぞれ異なるカテゴリに属する発話スタイルの発話の音声認識のためにそれぞれ最適化された複数の音響モデルを記憶するための音響モデル記憶手段と、
与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、
前記複数の発話の各々について、前記特徴量抽出手段により抽出された特徴量に対する最尤のモデルを前記複数の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、
前記最尤モデル選択手段により選択されたモデルの各々が属する音響モデルに対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、
前記カテゴリ決定手段により決定されたカテゴリを、前記複数の発話に対して統計処理することにより、前記複数の発話の発話カテゴリを分類するためのカテゴリ分類手段とを含む、発話カテゴリ分類装置。