JP2006098993A

JP2006098993A - 音声処理装置およびそのためのコンピュータプログラム

Info

Publication number: JP2006098993A
Application number: JP2004287943A
Authority: JP
Inventors: Campbell Nick; ニック・キャンベル
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-09-30
Filing date: 2004-09-30
Publication date: 2006-04-13
Anticipated expiration: 2024-09-30
Also published as: JP4478939B2; US20060080098A1

Abstract

【課題】パラ言語情報を適切に処理できる音声処理装置を提供する。
【解決手段】音声処理装置である決定木学習部３６は、学習用音声コーパス３０と、学習用音声コーパス３０に含まれる発話単位ごとに音響特徴量を抽出する音響分析部７４と、所定の発話単位ごとに、再生時に聴者が知覚するパラ言語情報に関する統計情報を収集する統計処理部７８と、音響分析部７４により抽出された音響特徴量を入力データ、統計処理部７８により収集された統計情報を正解データとして、機械学習により、音響特徴量に対して最適化された統計情報を出力する学習を決定木群３８に対して行なう学習処理部７６とを含む。
【選択図】図２

Description

この発明は音声認識、音声合成などの音声処理技術に関し、特に、韻律以外のパラ言語情報を適切に処理できる音声処理技術に関する。

人間は、様々な方法により感情を表現する。音声では、情報を伝えるのと同時に、発話スタイル、音声の調子、およびイントネーションなどの変化により個人的な感情を表すことが多い。コンピュータを用いた音声処理技術では、そのような感情をいかにして表したり、理解したりするかが問題となる。

非特許文献１、２、３においては、音声を自動的に分析する上で、発話を二つの主要なタイプに分類することが提案されている。すなわち、ＩタイプとＡタイプとである。Ｉタイプの発話は主として情報を伝達するために用いられる。Ａタイプの発話は主として感情を表現するために用いられる。Ｉタイプはその発話内容をテキスト情報のみでほぼ正確に表現できるが、Ａタイプはその意味内容は曖昧であって、その意味を解釈しようとすれば、発話の韻律に関する知識が必要になる。

例えば、非特許文献１、４は「（英語における）Ｅｈ」という発話に注目し、会話の文脈に関する情報なしでこの間投発話のみを聞かされた者が、ほぼ例外無しに情緒的な、談話に関連した機能を持つ、というラベルをこの発話に付すことを明らかにしている。実際に選択されたラベルが厳密に一致しているわけではないが、知覚結果は概略において一致している。ある日本語の発話に対して、韓国語を母語とする話者、および米国語を母語とする話者の双方が割当てる意味がほぼ一致していることから、こうした能力は言語や文化とは無関係であるように思われる。
Ｎ．キャンベル、「行間を聞く：音調により伝達されるパラ言語情報に関する研究」、言語のトーンに関する局面についての国際シンポジウムＴＡＬ２００４予稿集、ｐｐ．１３−１６、２００４年（N. Campbell, "Listening between the lines: a study of paralinguistic information carried by tone-of-voice", in Proc. International Symposium on Tonal Aspects of Languages, TAL2004, pp. 13-16, 2004）Ｎ．キャンベル、「事柄の本質に到達する」、言語資源および評価会議キーノートスピーチ、２００４年（N. Campbell, "Getting to the heart of the matter", Keynote speech in Proc. Language Resources and Evaluation Conference (LREC-04), 2004, http://feast.his.atr.jp/nick/pubs/lrec-keynote.pdf）Ｎ．キャンベル、「意味外のプロトコル：対話合成のための入力要件」、情緒的対話システム、Ｅ．アンドレ他編、シュプリンガー・フェアラーク社刊、２００４年（N. Campbell, "Extra-Semantic Protocols: Input Requirements for the Synthesis of Dialogue Speech" in Affective Dialogue Systems, Eds. Andre, E., Dybkjaer, L., Minker, W., & Heisterkamp, P., Springer Verlag, 2004）Ｎ．キャンベル他、「人は何を聞くのか？対話音声内の非言語・情緒的情報の知覚に関する研究」、日本音声学会誌、第７巻、第４号、２００４年（N. Campbell & D. Erickson, "What do people hear? A study of the perception of non-verbal affective information in conversational speech", in Journal of the Phonetic Society of Japan, vol. 7, no. 4, 2004）

しかし、たとえば発話に付随するパラ言語情報をコンピュータを用いた自然言語処理で処理しようとすると、大きな困難にぶつかる。たとえばテキストとしてみると同一の発話であっても、それが使われる状況によって全く意味が異なったり、全く異なる感情を同時に表現したりすることがある。そうした場合、発話の音響的な特徴のみからパラ言語情報を取出すことは極めて困難である。

そうした問題を解決する一つの手法は、聴者に発話を聞かせ、その発話からその聴者が感じ取ったパラ言語的な情報に基づき、その発話にラベルを付することである。

しかし、発話内容の理解は人によって異なり、ある特定の話者のみによるラベル付けでは信頼性が期待できないという問題がある。

したがって本発明の目的は、パラ言語情報を適切に処理できる音声処理装置を提供することである。

本発明の他の目的は、パラ言語情報を適切に処理できるようにすることで、音声処理の適用範囲を広げることができる音声処理装置を提供することである。

本発明の第１の局面によれば、音声処理装置は、学習用音声コーパスを記憶するための学習用音声コーパス記憶手段と、学習用音声コーパスに含まれる音声の所定の発話単位ごとに音響特徴量を抽出するための特徴量抽出手段と、所定の発話単位ごとに、再生時に聴者が知覚するパラ言語情報に関する統計情報を収集するための統計収集手段と、特徴量抽出手段により抽出された音響特徴量を入力データ、統計収集手段により収集された統計情報を正解データとして、機械学習により、音響特徴量に対して最適化された統計情報を出力する学習を行なうための学習手段とを含む。

発話単位を再生したときに聴者がどのようなパラ言語情報を知覚するかに関する統計を収集する。学習手段は、収集された統計に基づいた機械学習により、音響特徴量が与えられると、学習に用いたデータを一般化して得られる、もっともらしい統計情報を出力する。音声に対してパラ言語情報を統計的情報として付することが可能になり、パラ言語情報を適切に処理することが可能になる。

好ましくは、統計収集手段は、所定の発話単位ごとに、パラ言語情報を表す所定の複数通りのラベル中から聴者が選択する確率をラベルごとに算出するための手段を含む。

さらに好ましくは、学習手段は複数通りのラベルに対応してそれぞれ設けられた複数個のラベル統計学習手段を含み、複数個のラベル統計学習手段の各々は、特徴量抽出手段により抽出された音響特徴量を入力データ、統計収集手段により当該ラベル統計学習手段に対応するラベルに対し算出された確率を正解データとして、機械学習により、音響特徴量に対して当該ラベルが聴者により選択される確率を出力するように学習する。

発話単位に対するパラ言語情報として、予め定められた複数通りのラベルの各々が聴者により選択される確率が得られる。種々の聴者に対する学習の結果として、聴者が知覚するパラ言語情報を数量化でき、音声処理の際のパラ言語情報の再現および解釈の精度が向上する。

本発明の第２の局面によれば、音声処理装置は、発話単位データに関する音響特徴量が与えられると、当該発話単位の再生時に聴者が所定の複数通りのパラ言語情報ラベルのいずれを選択するかを、パラ言語情報ラベルに対する確率の形で出力するパラ言語情報出力手段と、入力音声データの発話単位から音響特徴量を抽出するための音響特徴量抽出手段と、音響特徴量抽出手段が抽出した音響特徴量をパラ言語情報出力手段に与え、応答してパラ言語情報出力手段により返されるパラ言語情報ラベルごとの確率と、音響特徴量とに基づいて、発話単位に関する発話者の発話意図を推定するための発話意図推定手段とを含む。

入力発話に付随するパラ言語情報を、聴者により複数のパラ言語情報がそれぞれ知覚される確率として獲得することができる。それらパラ言語情報確率の集まりに基づき、発話の意味を精度よく推定できる。

本発明の第３の局面によれば、音声処理装置は、発話単位データに関する音響特徴量が与えられると、当該発話単位の再生時に聴者が所定の複数通りのパラ言語情報ラベルのいずれを選択するかを、複数通りのパラ言語情報ラベルにそれぞれ対応する複数の確率の形で出力するパラ言語情報出力手段と、入力音声データの発話単位から音響特徴量を抽出するための音響特徴量抽出手段と、所定の音声コーパスに含まれる発話単位データごとに、音響特徴量抽出手段により抽出された音響特徴量に対してパラ言語情報出力手段から出力される複数の確率をパラ言語情報ベクトルとして付することにより、パラ言語情報ベクトル付音声コーパスを生成するための手段とを含む。

音声コーパスに含まれる各発話単位データに対し、複数通りのパラ言語情報について聴者がそれぞれ知覚する確率という形でパラ言語情報ベクトルを作成し付することができる。このように作成されたパラ言語情報ベクトル付音声コーパスを用いることにより、音声理解、音声合成などにおいてパラ言語情報をより精度よく利用することが可能になる。

本発明の第４の局面によれば、音声処理装置は、パラ言語情報ベクトルが各々に付され、かつ音素ラベルを含む所定の音響特徴量が各々に付された複数の音声波形データを含む音声コーパスと、音声合成の目標となるテキストと、当該テキストの発話意図を表す発話意図情報とが与えられると、音声合成の韻律合成目標と、発話意図に対応するパラ言語情報目標ベクトルとを作成するための合成目標作成手段と、合成目標作成手段により作成された韻律合成目標およびパラ言語情報目標ベクトルに対し所定の条件を充足する音響特徴量およびパラ言語情報ベクトルを有する音声波形データを音声コーパス内に含まれる音声波形データから選択するための波形選択手段と、波形選択手段により選択された音声波形データを接続することにより、音声波形を出力するための波形接続手段とを含む。

この音声処理装置によれば、テキストと発話意図情報とが与えられると、テキストに合致した音響的特徴を持ち、かつ発話意図情報に合致したパラ言語情報ベクトルを持つ波形データを精度よく選択できる。その結果、テキスト内容だけではなく、パラ言語情報として発話の内容を精度よく聴者に伝達する音声を合成することができる。

本発明の第５の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの音声処理装置として当該コンピュータを動作させる。

本発明の第６の局面に係る記録媒体は、音声波形データを対応する音素情報とともに保持する音声コーパスを記録した記録媒体であって、音声コーパスは、複数の発話単位の各々に対して音声波形データと音素情報とを含み、複数の発話単位の各々にはさらに、当該発話単位の再生時に聴者が知覚するパラ言語情報に関する統計情報が付されている。

好ましくは、パラ言語情報に関する統計情報は、予め定められた複数種類のパラ言語情報の各々について、対応する発話単位の再生時に聴者が当該パラ言語情報を知覚する確率を含んでいる。

［概略］
音声における感情に関する情報についてのラベリングでは、ラベリングをする人が異なればその結果も異なる。また、例えば疑問文があいづちを意味したり、ときには笑いが、驚きとともに聴者も話者と同じく幸せを感じていることを表したりする、ということがあることも分かっている。幸福を感じている人が、自分とは直接関係を持たない何か悲しいことを話しているときには、幸福と不幸という、一見したところ互いに矛盾する感情が音声によって表されることもある。

こうした状況を考えると、音声に対して一つのラベルに限定してラベリングをするよりも、複数のラベルを用いて音声のラベリングをすることの方が合理的である。したがって以下に説明する実施の形態では、予め複数通りのラベルを定め、音声の各発話単位に対して統計的にどれほどの割合の人がそれらラベルをそれぞれ選択したかを表す数値を要素とするベクトルによって、各音声のラベリングを行なう。このベクトルを、以下「パラ言語情報ベクトル」と呼ぶことにする。

［第１の実施の形態］
−構成−
図１は、本発明の第１の実施の形態に係る音声理解システム２０のブロック図である。図１を参照して、音声理解システム２０は、発話の音響情報が与えられると、前述したパラ言語情報ベクトルの各要素に対応するラベルが当該発話に付される確率を要素ごとに決定する決定木群３８を用いる点に特徴がある。すなわち、決定木群３８はパラ言語情報を構成する要素に対応する数だけの決定木を含んでいる。第１の決定木は１番目の要素のラベルが付される確率を出力し、第２の決定木は２番目の要素のラベルが付される確率を出力し、以下同様である。パラ言語情報ベクトルの各要素の値は、０〜１の範囲に正規化されているものとする。

図１を参照して、この音声理解システム２０は、学習用音声コーパス３０と、スピーカ３２および入力装置３４に接続され、学習用音声コーパス３０内の音声の各音素に対し、所定数の被験者によってどのようなラベルが付されたかという統計的データを収集し、収集されたデータに基づいて決定木群３８内の各決定木の学習を行なわせるための決定木学習部３６とを含む。この決定木学習部３６による学習によって、決定木群３８の各決定木は、音響情報が与えられると、前述した所定数の被験者の中のどの程度の割合のものが各要素に対応するラベリングをするか、という確率を出力するように設定される。

音声理解システム２０はさらに、入力音声データ５０が与えられると、入力音声データ５０に対する音声認識を行なうとともに、決定木群３８を用いて入力音声データ５０が表す感情についてまで含めた音声理解を行ない、認識テキストと入力音声データ５０の発話者の意図を表す発話意図情報とからなる音声解釈結果５８を出力するための音声認識装置４０とを含む。

図２を参照して、決定木学習部３６は、学習用音声コーパス３０の音声に対し被験者が割当てたラベルを、対応する音声データとともに学習用の統計情報として収集する処理を行なうためのラベル付け処理部７０を含む。学習用音声コーパス３０の音声はスピーカ３２により再生される。被験者はこの音声に対してラベルを割当て、入力装置３４を用いて決定木学習部３６に与える。

決定木学習部３６はさらに、ラベル付け処理部７０により蓄積された学習データを記憶するための学習データ記憶部７２と、学習データ記憶部７２に記憶された学習データの中の発話音声データに対する音響分析を行なって所定の音響特徴量を出力するための音響分析部７４と、学習データ記憶部７２に記憶された学習データ中で、ある音素に対しどの程度の割合の被験者がどのラベルを割当てたかを統計処理し、その結果をラベルごとに出力するための統計処理部７８とを含む。

決定木学習部３６はさらに、音響分析部７４から与えられた音響特徴量を学習データ、その音声に対し決定木群３８内の各決定木に対応する特定のラベルが割当てられた確率を正解データとして決定木群３８内の各決定木の学習を機械学習により行なうための学習処理部７６を含む。決定木学習部３６の学習により、決定木群３８は、与えられた音響特徴量に対して最適化された統計情報を出力するようになる。すなわち決定木群３８は、ある音声についての音響特徴量が与えられると、その音声について前述した各ラベルが被験者によって割当てられる確率としてもっともらしい値を推定し出力するようになる。

決定木学習部３６は、図では決定木群３８に対し一つのみ示されているが、決定木群３８に含まれる決定木ごとに、対応のラベルが聴者により選択される確率を統計情報に基づいて推定するような、ラベル統計による学習を行なうための機能部を決定木の数と等しい数だけ含んでいる。

図３を参照して、音声認識装置４０は、入力音声データ５０に対し音響分析部７４と同様の音響分析を行ない音響特徴量を出力するための音響分析部５２と、音響分析部５２の出力する音響特徴量を決定木群３８の各決定木に与え、応答して各決定木から返される確率をラベルごとに所定の順序で並べることにより、入力音声データ５０の発話者の意図を推定し、発話者の意図（発話の意味）を表す発話意図ベクトルを生成するための発話意図ベクトル生成部５４と、発話意図ベクトル生成部５４から与えられる発話意図ベクトルと、音響分析部５２からの音響特徴量とを入力として音声認識とその意味的な理解とを行ない、音声解釈結果５８を出力するための音声理解部５６とを含む。音声理解部５６は、予め学習用音声コーパスと、学習用音声コーパスの各発話に対するパラ言語情報ベクトルと、その発話に対する被験者の意味的理解の結果とを入力として学習しておいた意味理解モデルを用いて実現できる。

−動作−
音声理解システム２０の動作には二つのフェーズが存在する。第１のフェーズは決定木学習部３６による決定木群３８の学習フェーズである。第２のフェーズは、このようにして学習の終了した決定木群３８を用い、音声認識装置４０が入力音声データ５０に対する意味理解を行なう動作フェーズとである。以下、順に説明する。

・学習フェーズ
学習フェーズに先立ち、学習用音声コーパス３０が予め準備されているものとする。所定数（例えば１００名）の被験者が予め選抜され、学習用データとして所定数（例えば１００個）の発話が定められているものとする。

図２に示すラベル付け処理部７０は、第１の被験者に対し、学習用音声コーパス３０から第１の発話を取出してスピーカ３２を用いて再生する。被験者は、再生された音声に対し感じ取ったパラ言語的な情報を、予め定められた複数通りのラベルのうちのいずれかに割当て、入力装置３４を介してラベル付け処理部７０に与える。ラベル付け処理部７０は、１番目の発話に対して１番目の被験者が割当てたラベルを当該音声データを特定する情報とともに学習データ記憶部７２に蓄積する。

ラベル付け処理部７０はさらに、学習用音声コーパス３０から次の発話を読出し、上記処理と同様の処理を第１番目の被験者に対して行なう。以下同様である。

第１番目の被験者に対し全ての学習用発話を用いて上記した処理を行なうことにより、この第１番目の被験者が各学習用発話に対しどのラベルを割当てたか、という情報が蓄積される。

こうした処理を全ての被験者に対し繰返し行なうことにより、各学習用発話に対し、どのラベルがどれだけの回数割当てられたか、という情報が蓄積される。

全ての被験者に対して上記した処理が終了すると、決定木群３８の学習が以下のように行なわれる。全ての発話について、音響分析部７４が音響分析を行ない、音響特徴量を学習処理部７６に与える。統計処理部７８は、全ての発話に対し、どのラベルがどの程度の確率で割当てられたか、という統計的処理を行ない、その結果を学習処理部７６に与える。

学習処理部７６は、決定木群３８に含まれる各決定木に対し学習を行なう。この際の学習データとしては、音響分析部７４から与えられる各発話の音響特徴量が用いられる。正解データとしては、その発話について当該決定木に対応するラベルが割当てられた確率が用いられる。この確率は統計処理部７８から与えられる。全ての発話についてこの学習処理が完了すると、音声認識装置４０による音声理解が可能になる。

・動作フェーズ
動作フェーズでは、入力音声データ５０が与えられると音響分析部５２がその発話に対する音響分析を行ない、音響特徴量を抽出して発話意図ベクトル生成部５４および音声理解部５６に与える。発話意図ベクトル生成部５４は、決定木群３８の各決定木に対し、音響分析部５２から与えられた音響特徴量を与える。決定木群３８の各決定木は、それぞれに対応するラベルがその発話に割当てられる確率を発話意図ベクトル生成部５４に返す。

発話意図ベクトル生成部５４は、ラベルごとに受取った確率を所定の順番で要素とする発話意図ベクトルを生成し、音声理解部５６に与える。

音声理解部５６は、音響分析部５２から与えられる音響特徴量と、発話意図ベクトル生成部５４から与えられる発話意図ベクトルとに基づいて、入力音声データ５０の音声認識結果のテキストと、入力音声データ５０の発話者の意図を表す発話意図情報との組合せとして確率の高い上位所定個数の音声解釈結果５８を出力する。

以上のようにして、本実施の形態に係る音声理解システム２０によれば、単に入力音声データに対する音声認識を行なうだけではなく、入力音声データの背後にある発話者の意図まで含めた、発話の意味的な理解を行なうことが可能となる。

なお、本実施の形態では、学習用音声コーパス３０からの学習に決定木を用いている。しかし本発明はそのような実施の形態には限定されない。決定木に代えて、ニューラルネットワーク、隠れマルコフモデル（ＨＭＭ）など、任意の機械学習手段を用いてもよい。これは、後に説明する第２の実施の形態以下でも同様である。

［第２の実施の形態］
第１の実施の形態に係るシステムは、入力音声データ５０に対する意味的な理解を可能とするものであった。決定木群３８と、このシステムの動作原理を利用すると、音声コーパスに含まれる各発話に対し、意味的な情報を表す発話意図ベクトルでラベリングをすることができる。図４にそのための音声コーパスラベリング装置８０の概略構成を示す。

図４を参照して、音声コーパスラベリング装置８０は、第１の実施の形態で用いたものと同じ決定木群３８と、ラベリング対象となる音声コーパス９０から音声データを読出すための音声データ読出部９２と、音声データ読出部９２により読出された音声データに対する音響分析を行ない、音響特徴量を出力するための音響分析部９４と、音響分析部９４から与えられる音響特徴量を決定木群３８の各決定木に与え、各決定木から返される確率を所定の順番で並べて要素とする発話意図ベクトルを生成するための発話意図ベクトル生成部９６と、発話意図ベクトル生成部９６により生成された発話意図ベクトルで音声コーパス９０内の対応する発話に対するラベリングを行なうためのラベリング処理部９８とを含む。

図５に、音声コーパス９０に含まれる音声データ１１０の構成を示す。図５を参照して、音声データ１１０は、音声の波形データ１１２を含む。波形データ１１２は複数個の発話波形データ１１４，１１６，１８０，…，１２０，…を含む。

各発話、例えば発話波形データ１１８には、韻律情報１３０が付されている。韻律情報１３０は、発話波形データ１１８の表す音韻、波形データ１１２の先頭から測定した発話波形データ１１８の開始時間および終了時間、音響特徴量等に加え、図４に示す発話意図ベクトル生成部９６により付された発話意図ベクトルがパラ言語情報ベクトルとして含まれている。

このように音声コーパス９０の各発話にパラ言語情報ベクトルを付しておくことで、音声コーパス９０はパラ言語情報ベクトル付音声コーパスとなる。パラ言語情報ベクトル付音声コーパス９０を用いることで、例えば音声合成において、単にテキストに対応し、かつ音韻的に自然な音声にとどまらず、所望の発話意図に沿ったパラ言語情報を持った音声を合成することが可能になる。

［第３の実施の形態］
−構成−
第３の実施の形態は、第２の実施の形態の音声コーパスラベリング装置８０によりラベリングされた後の音声コーパス９０と同様の音声コーパスを用いた音声合成装置に関する。図６に第３の実施の形態に係る音声合成装置１４２のブロック図を示す。この音声合成装置１４２は、発話条件情報が付された入力テキスト１４０を受け、入力テキストに応じた自然な音声であって、かつ発話条件情報に合致したパラ言語的な情報（感情）を表す出力音声波形１４４を合成する機能を持つ、いわゆる波形接続型音声合成装置である。

図６を参照して、音声合成装置１４２は、入力テキスト１４０の入力テキストから韻律合成目標を作成するための韻律合成目標作成部１５６と、入力テキスト１４０に含まれる発話条件情報から、パラ言語情報目標ベクトルを作成するためのパラ言語情報目標ベクトル作成部１５８と、音声コーパスラベリング装置８０によりパラ言語情報ベクトルが付された音声コーパス９０と同様のパラ言語情報ベクトル付音声コーパス１５０と、パラ言語情報ベクトル付音声コーパス１５０から韻律合成目標作成部１５６の出力に応じた複数の波形候補を選択し、その音響特徴量を読出すための音響特徴量読出部１５２と、音響特徴量読出部１５２と同じ波形候補のパラ言語情報ベクトルを読出すためのパラ言語情報読出部１５４とを含む。

音声合成装置１４２はさらに、音響特徴量読出部１５２が読出した各波形候補の音響特徴量およびパラ言語情報読出部１５４が読出した各波形候補の音響特徴量と、韻律合成目標作成部１５６の作成した韻律合成目標およびパラ言語情報目標ベクトル作成部１５８の作成したパラ言語情報目標ベクトルとの間で、韻律合成目標とどの程度異なった音声か、隣接する音声の間の接続がどの程度不連続か、および目標となるパラ言語情報ベクトルと波形候補のパラ言語情報ベクトルとがどの程度相違しているか、を示す尺度となるコストを予め定められた算出式にしたがって算出するためのコスト算出部１６０と、コスト算出部１６０が算出した各波形候補のコストに基づき最小コストとなるいくつかの波形候補を選択するための波形選択部１６２と、波形選択部１６２により選択された波形候補に対応する波形データをパラ言語情報ベクトル付音声コーパス１５０から読出して接続することにより、出力音声波形１４４を出力するための波形接続部１６４とを含む。

−動作−
この第３の実施の形態に係る音声合成装置１４２は以下のように動作する。入力テキスト１４０が与えられると、韻律合成目標作成部１５６が入力テキストに対するテキスト処理を行ない、韻律合成目標を作成し音響特徴量読出部１５２、パラ言語情報読出部１５４およびコスト算出部１６０に与える。パラ言語情報目標ベクトル作成部１５８は、入力テキスト１４０から発話条件情報を抽出し、抽出された発話条件情報に基づいてパラ言語目標ベクトルを作成しコスト算出部１６０に与える。

音響特徴量読出部１５２は、韻律合成目標作成部１５６から与えられた韻律合成目標に基づき、パラ言語情報ベクトル付音声コーパス１５０から複数の波形候補を選択しコスト算出部１６０に与える。パラ言語情報読出部１５４も同様に、音響特徴量読出部１５２が読出したものと同じ波形候補のパラ言語情報ベクトルを読出し、コスト算出部１６０に与える。

コスト算出部１６０は、韻律合成目標作成部１５６からの韻律合成目標およびパラ言語情報目標ベクトル作成部１５８からのパラ言語情報目標ベクトルと、音響特徴量読出部１５２から与えられた各波形候補の音響特徴量およびパラ言語情報読出部１５４から与えられた各波形のパラ言語情報ベクトルとの間で所定のコスト演算を行ない、その結果を波形候補ごとに波形選択部１６２に対し出力する。

波形選択部１６２は、コスト算出部１６０から与えられたコストに基づき、コスト最小の所定個数の波形候補を選択し、当該波形候補のパラ言語情報ベクトル付音声コーパス１５０内の位置を表す情報を波形接続部１６４に与える。

波形接続部１６４は、波形選択部１６２から与えられた情報に基づき、パラ言語情報ベクトル付音声コーパス１５０から波形候補を読出し、直前に選択された波形の直後に接続する。複数候補が選択されているため、波形接続部１６４の処理によって出力音声波形１４４の候補が複数個作成されるが、所定のタイミングでその中で累積コストが最小のものが選択され出力音声波形１４４として出力される。

以上のとおり本実施の形態に係る音声合成装置１４２によれば、単に入力テキストにより指定される音韻と合致するだけでなく、入力テキスト１４０に含まれる発話条件情報に合致したパラ言語情報を伝えることができるような波形候補が選択され、出力音声波形１４４の生成に用いられる。その結果、入力テキスト１４０の発話条件情報で指定された発話条件に合致し、所望の感情に関する情報をパラ言語情報として伝達することができる。パラ言語情報ベクトル付音声コーパス１５０の各波形には、パラ言語情報としてベクトルが付されており、パラ言語情報間のコスト計算がベクトル計算として行われるため、互いに相反した感情を伝達したり、入力テキストの内容とは一見無関係な情報をパラ言語情報として伝達したりすることが可能になる。

［コンピュータによる実現］
上述した第１の実施の形態に係る音声理解システム２０、第２の実施の形態に係る音声コーパスラベリング装置８０、および第３の実施の形態に係る音声合成装置１４２は、いずれもコンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図７はこのコンピュータシステム２５０の外観を示す。

図７を参照して、このコンピュータシステム２５０は、ＦＤ（フレキシブルディスク）ドライブ２７２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ２７０を有するコンピュータ２６０と、キーボード２６６と、マウス２６８と、モニタ２６２と、スピーカ２７８およびマイクロフォン２６４とを含む。スピーカ２７８は図１などに示すスピーカ３２として利用される。キーボード２６６およびマウス２６８は、図１などに示す入力装置３４として利用される。

図８を参照して、コンピュータ２６０は、ＦＤドライブ２７２およびＣＤ−ＲＯＭドライブ２７０に加えて、ＣＰＵ（中央処理装置）３４０と、ＣＰＵ３４０、ＦＤドライブ２７２およびＣＤ−ＲＯＭドライブ２７０に接続されたバス３４２と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３４４と、バス３４２に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３４６とを含む。コンピュータシステム２５０はさらに、図示しないプリンタを含んでもよい。

コンピュータ２６０はさらに、バス３４２に接続され、スピーカ２７８およびマイクロフォン２６４が接続されるサウンドボード３５０と、バス３４２に接続された大容量の外部記憶装置であるハードディスク３４８と、バス３４２を介してローカルエリアネットワーク（ＬＡＮ）への接続をＣＰＵ３４０に提供するネットワークボード３５２を含む。

コンピュータシステム２５０に上記した音声理解システム２０等としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ２７０またはＦＤドライブ２７２に挿入されるＣＤ−ＲＯＭ３６０またはＦＤ３６２に記憶され、さらにハードディスク３４８に転送される。または、プログラムはネットワークおよびネットワークボード３５２を通じてコンピュータ２６０に送信されハードディスク３４８に記憶されてもよい。プログラムは実行の際にＲＡＭ３４６にロードされる。ＣＤ−ＲＯＭ３６０から、ＦＤ３６２から、またはネットワークを介して、直接にＲＡＭ３４６にプログラムをロードしてもよい。

このプログラムは、コンピュータ２６０に音声理解システム２０等として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ２６０上で動作するオペレーティングシステム（ＯＳ）またはサードパーティのプログラム、もしくはコンピュータ２６０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した音声理解システム２０、音声コーパスラベリング装置８０または音声合成装置１４２としての動作を実行する命令のみを含んでいればよい。コンピュータシステム２５０の一般的な動作は周知であるので、ここでは繰返さない。

なお、上記した実施の形態の決定木群３８の各決定木は、コンピュータ上で並列に動作する複数のデーモンとして実現可能である。また、プロセッサを複数個搭載したコンピュータであれば決定木群３８の各決定木を複数のプロセッサに分散させるようにしてもよい。ネットワーク接続された複数のコンピュータを用いる場合も同様で、複数のコンピュータに１または複数の決定木として動作するプログラムを実行させればよい。図６に示す音声合成装置１４２において、コスト算出部１６０を複数のデーモンで実現したり、複数のプロセッサにより実行されるプログラムにより実現したりすることもできる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の第１の実施の形態に係る音声理解システム２０のブロック図である。図１に示す決定木学習部３６のブロック図である。図１に示す音声認識装置４０のブロック図である。本発明の第２の実施の形態に係る音声コーパスラベリング装置８０のブロック図である。音声コーパス９０内の音声データ１１０の構成を模式的に示す図である。本発明の第３の実施の形態に係る音声合成装置１４２のブロック図である。本発明の一実施の形態に係る音声理解システム２０などを実現するコンピュータシステム２５０の外観図である。図７に示すコンピュータ２６０のブロック図である。

符号の説明

２０音声理解システム、３０学習用音声コーパス、３２スピーカ、３４入力装置、３６決定木学習部、３８決定木群、４０音声認識装置、５０入力音声データ、５２音響分析部、５４発話意図ベクトル生成部、５６音声理解部、５８音声解釈結果、７０ラベル付け処理部、７２学習データ記憶部、７４音響分析部、７６学習処理部、７８統計処理部、８０音声コーパスラベリング装置、９０音声コーパス、９２音声データ読出部、９４音響分析部、９６発話意図ベクトル生成部、１４０入力テキスト、１４２音声合成装置、１４４出力音声波形、１５０パラ言語情報ベクトル付音声コーパス、１５２音響特徴量読出部、１５４パラ言語情報読出部、１５６韻律合成目標作成部、１５８パラ言語情報目標ベクトル作成部、１６０コスト算出部、１６２波形選択部、１６４波形接続部

Claims

学習用音声コーパスを記憶するための学習用音声コーパス記憶手段と、
前記学習用音声コーパスに含まれる音声の所定の発話単位ごとに音響特徴量を抽出するための特徴量抽出手段と、
前記所定の発話単位ごとに、再生時に聴者が知覚するパラ言語的情報に関する統計情報を収集するための統計収集手段と、
前記特徴量抽出手段により抽出された音響特徴量を入力データ、前記統計収集手段により収集された統計情報を正解データとして、機械学習により、音響特徴量に対して最適化された統計情報を出力する学習を行なうための学習手段とを含む、音声処理装置。
発話単位データに関する音響特徴量が与えられると、当該発話単位の再生時に聴者が所定の複数通りのパラ言語情報ラベルのいずれを選択するかを、前記パラ言語情報ラベルに対する確率の形で出力するパラ言語情報出力手段と、
入力音声データの発話単位から音響特徴量を抽出するための音響特徴量抽出手段と、
前記音響特徴量抽出手段が抽出した音響特徴量を前記パラ言語情報出力手段に与え、応答して前記パラ言語情報出力手段により返される前記パラ言語情報ラベルごとの確率と、前記音響特徴量とに基づいて、前記発話単位に関する発話者の発話意図を推定するための発話意図推定手段とを含む、音声処理装置。
発話単位データに関する音響特徴量が与えられると、当該発話単位の再生時に聴者が所定の複数通りのパラ言語情報ラベルのいずれを選択するかを、前記複数通りのパラ言語情報ラベルにそれぞれ対応する複数の確率の形で出力するパラ言語情報出力手段と、
入力音声データの発話単位から音響特徴量を抽出するための音響特徴量抽出手段と、
所定の音声コーパスに含まれる発話単位データごとに、前記音響特徴量抽出手段により抽出された音響特徴量に対して前記パラ言語情報出力手段から出力される前記複数の確率をパラ言語情報ベクトルとして付することにより、パラ言語情報ベクトル付音声コーパスを生成するための手段とを含む、音声処理装置。
パラ言語情報ベクトルが各々に付され、かつ音素ラベルを含む所定の音響特徴量が各々に付された複数の音声波形データを含む音声コーパスと、
音声合成の目標となるテキストと、当該テキストの発話意図を表す発話意図情報とが与えられると、音声合成の韻律合成目標と、発話意図に対応するパラ言語情報目標ベクトルとを作成するための合成目標作成手段と、
前記合成目標作成手段により作成された前記韻律合成目標および前記パラ言語情報目標ベクトルに対し所定の条件を充足する音響特徴量およびパラ言語情報ベクトルを有する音声波形データを前記音声コーパス内に含まれる音声波形データから選択するための波形選択手段と、
前記波形選択手段により選択された音声波形データを接続することにより、音声波形を出力するための波形接続手段とを含む、音声処理装置。
コンピュータにより実行されると、請求項１〜請求項４のいずれかに記載の音声処理装置として当該コンピュータを動作させる、コンピュータプログラム。