JP2007183421A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2007183421A
JP2007183421A JP2006001631A JP2006001631A JP2007183421A JP 2007183421 A JP2007183421 A JP 2007183421A JP 2006001631 A JP2006001631 A JP 2006001631A JP 2006001631 A JP2006001631 A JP 2006001631A JP 2007183421 A JP2007183421 A JP 2007183421A
Authority
JP
Japan
Prior art keywords
emotion
acoustic
attribute
text
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006001631A
Other languages
English (en)
Inventor
Yumiko Kato
弓子 加藤
Katsuyoshi Yamagami
勝義 山上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2006001631A priority Critical patent/JP2007183421A/ja
Publication of JP2007183421A publication Critical patent/JP2007183421A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようする感情との相互の関連性を適切に保つ音声合成装置を提供する。
【解決手段】言語属性ベクトルと、音響属性ベクトルと、それらによって表現される感情を示す感情ベクトルとから構成される感情表出パターンを複数保持する感情データベース306と、テキストの言語属性を示す言語属性ベクトルを生成するテキスト入力部301、言語解析部304および言語属性解析部305と、感情を示す感情ベクトルを取得する感情入力部302と、感情データベース306から、テキストの言語属性ベクトルおよび感情入力部302で取得された感情ベクトルに近い内容を有する感情表出パターンを検索して抽出するパターン検索部307aと、抽出された感情表出パターンに含まれる音響属性ベクトルに基づいて、テキストに対して音声合成を行う音声合成部309とを備える。
【選択図】図1

Description

本発明は、テキストを合成音声に変換して出力する音声合成装置に関し、特に、感情が含まれるような合成音声を生成する音声合成装置に関する。
従来より、テキストに対して音声合成を行い、話者の感情が聴取者に伝わるような音響の合成音声を出力する音声合成装置(電子メール受信装置)が提案されている(例えば、特許文献1参照)。
上記特許文献1の音声合成装置は、テキストに対して、喜びや怒り、悲しみなどの感情を示す感情パラメータが付加されているか否かを判別する。そして、この音声合成装置は、感情パラメータが付加されていれば、その感情パラメータに基づいて、基本周波数の変調や音韻継続時間の変更などを行い、その結果が反映された音響の合成音声を出力する。例えば、その音声合成装置は、感情パラメータが怒りを示していれば、全体的に声を高くして語尾を強調するような音響の合成音声を出力し、感情パラメータが悲しみを示していれば、全体的に声を低くして語尾を弱めるような音響の合成音声を出力する。
また、上記特許文献1の音声合成装置とは逆に、ユーザの音声によって示される言語表現と、その音声に含まれる感情とを認識し、その認識結果に対する応答を合成音声で出力する音声対話装置が提案されている(例えば、特許文献2参照)。
上記特許文献2の音声対話装置では、ユーザの入力音声を音声認識し、言語表現より抽出された感情を示す概念感情情報を生成するとともに、ユーザの入力音声の発話速度と音声強度より抽出された感情を示す感情情報を生成する。そして、この音声対話装置では、このように言語表現より抽出された概念感情情報と音声より抽出された感情情報とを加算して、ユーザの感情パラメータを決定する。
図30は、上記特許文献2に記載された従来の音声対話装置のブロック図である。
図30において、感情情報抽出部204は、入力音声の発話速度と音声強度を分析し、速度と強度のそれぞれの標準パターンとの差に基づいて感情情報を決定し、その感情情報を、ユーザ感情パラメータ生成部に出力する。言語理解部203は、入力音声の認識結果である単語列を、シソーラスあるいは類義語辞典のように、単語が表す概念に置き換えて、概念信号としてユーザ感情パラメータ生成部205へ出力する。ユーザ感情パラメータ生成部205は、言語理解部203より出力された概念信号から生成した概念感情情報と感情情報抽出部204より出力された感情情報とを加算してユーザ感情情報(上述の感情パラメータ)を生成する。これにより、上記特許文献2の音声対話装置は、ユーザが言葉とは裏腹な感情を抱いていた場合でも正確にユーザの感情を認識する。
特開2001−34280号公報 特開2002−123289(第4頁−第5頁、図1)
しかしながら、上記特許文献1の音声合成装置では、使用者が合成音声全体により表現しようする感情およびテキストに応じて適切な音響的特徴を有する合成音声を生成することができないという問題がある。
つまり、従来の音声合成技術では、音声全体によって表現あるいは伝達される感情と、特定の感情を表す音響的な特徴とが混同されている。言い換えれば、音響的な「怒りを表す特徴」や「喜びを表す特徴」といった制御しうる音響的な発話スタイルの特徴と、言語的内容を含めて出力される音声全体によって「表現あるいは伝達される感情」とが同一視されている。したがって、上記特許文献1の音声合成装置では、音声全体によって所望の感情を表現あるいは伝達するために、音声合成の対象とされるテキストに関わらず、音響的な発話スタイルの特徴を調整することにより、音声による感情表現を実現している。
しかし、例えば日常の会話において伝達される意図や感情が、その言語的内容と音響的な特徴の双方から影響を受けるという事実がある。例えば、「喜び」を伝達するはずの音響的特徴を持つ発話スタイルで「良かったね」と発話すれば、その発話された音声は、言語表現を含めた音声全体で、素直な喜びや、共感を表現する音声となる。ところが、「怒り」を伝達するはずの音響的特徴を持つ発話スタイルで「良かったね」と発話すれば、その発話された音声は、言語表現を含めた音声全体で、皮肉を表現する音声となる。同様に、「謝罪」あるいは「悲しみ」を表す音響的特徴を持つ発話スタイルで「悪かったね」と発話すれば、その発話された音声は、言語表現を含めた音声全体で、謝罪や申し訳ない気持ちを表現する音声となるが、「喜び」の音響的特徴を持つ発話スタイルで「悪かったね」と発話すれば、その発話された音声は、言語表現を含めた音声全体で、嘲笑や小ばかにしたような感情を伝達する音声となる。このように、音声全体によって表現される感情は、音声の音響的特徴だけではなく、その音響的特徴と、テキストの言語的内容を示す言語属性とによって変化する。
したがって、上記特許文献1の音声合成装置では、テキストの言語属性に関わらず、音響的特徴を調整しようとするため、そのテキスの合成音声によって、「怒り」を表現するはずが、皮肉を表現してしまったり、喜びを表現するはずが、嘲笑を表現してしまったりする。このように、この音声合成装置では、合成音声全体で表現しようとする感情を適切に制御することができず、複雑な感情を表現することができない。すなわち、上記特許文献1の音声合成装置では、皮肉や嘲笑といった言語的内容によって表される属性と音響的特性によって現される属性が逆転するような複雑な感情や表情を表現する合成音声を制御することが非常に困難であり、合成音声の生成時にそれらの複雑な感情や表情をユーザが思い通りに制御することが困難である。
つまり、上記特許文献1の音声合成装置では、合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようする感情との相互の関連性を適切に保つことができず、使用者が合成音声全体により表現しようする感情とテキストの言語属性とに応じて適切な音響的特徴を有する合成音声を生成することができない。
なお、上記特許文献2の音声対話装置では、音声全体で表現あるいは伝達される感情が言語的内容と音響的特徴との組み合わせによって制御されていることに着目して、入力音声によって伝達された感情を正確に理解しているが、その入力音声に対する応答である出力音声の生成においては、言語表現にシステム感情を反映させるのみで、出力音声の音響的特徴による感情制御は行っていない。
そこで、本発明は、かかる問題に鑑みてなされたものであって、合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようする感情との相互の関連性を適切に保つ音声合成装置を提供することを目的とする。
上記目的を達成するために、本発明に係る音声合成装置は、テキストを合成音声に変換して出力する音声合成装置であって、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンを複数保持する感情パターン保持手段と、テキストの言語属性を示す入力言語属性情報を生成する言語属性生成手段と、感情を示す入力感情情報を取得する感情取得手段と、前記感情パターン保持手段に保持されている複数の感情パターンから、前記入力言語属性情報および前記入力感情情報に近い内容を示す前記言語属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索手段と、前記パターン検索手段により抽出された感情パターンに含まれる音響属性情報に基づいて、前記テキストに対して音声合成を行うことにより、前記音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成手段とを備えることを特徴とする。
これにより、感情パターン保持手段の各感情パターンにはそれぞれ、言語属性と、音響的特徴と、それらによって表現される感情とが関連付けられおり、入力言語属性情報および入力感情情報に近い内容を有する感情パターンが抽出され、その感情パターンに含まれる音響属性情報の示す音響的特徴を有する合成音声が生成されるため、使用者が合成音声全体で表現しようとする感情を示す入力感情情報が感情取得手段によって取得されたときには、テキストの言語属性、合成音声の音響的特徴、およびその入力感情情報の示す感情を、感情パターンで関連付けられた言語属性、音響的特徴、および感情に近づけることができ、その結果、テキストの言語属性、つまり合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようとする感情との相互の関連性を適切に保つことができる。したがって、合成音声全体により表現しようする感情およびテキストに応じて適切な音響的特徴を有する合成音声を生成することができる。さらに、合成音声全体で表現しようとする感情を適切に制御することができ、複雑な感情を表現することができる。
また、前記感情パターンに含まれる前記感情情報、言語属性情報、および音響属性情報のうちの何れか1つの情報と他の情報とは、それぞれ相反する内容を示すことを特徴としてもよい。
これにより、例えば、感情パターンに含まれる言語属性情報と音響属性情報とがそれぞれ相反する内容を示す場合であっても、その感情パターンには、そのように相反する内容によって表現される感情を示す感情情報が含まれているため、このような感情パターンがパターン検索手段により抽出されたときには、使用者が合成音声全体で表現しようとする複雑な感情を示す合成音声を生成することができる。
また、前記言語属性生成手段は、前記テキストを取得するテキスト取得手段と、前記テキスト取得手段により取得されたテキストに対して言語解析を行なうことにより前記入力言語属性情報を生成する解析手段とを備えることを特徴としてもよい。
これにより、使用者は、テキストを入力すれば、そのテキストに対する合成音声を簡単に生成することができる。
ここで、上記目的を達成するために、本発明に係る音声合成装置は、テキストを合成音声に変換して出力する音声合成装置であって、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンを複数保持する感情パターン保持手段と、音響的特徴を示す入力音響属性情報を取得する音響属性取得手段と、感情を示す入力感情情報を取得する感情取得手段と、前記感情パターン保持手段に保持されている複数の感情パターンから、前記入力音響属性情報および前記入力感情情報に近い内容を示す前記音響属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索手段と、前記パターン検索手段により抽出された感情パターンに含まれる言語属性情報に基づいて、文を構成するための構成単位の選択を行うことにより、前記言語属性情報の示す言語属性を有するテキストを生成するテキスト生成手段と、前記入力音響属性情報に基づいて、前記テキストに対して音声合成を行うことにより、前記入力音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成手段とを備えることを特徴とする。
これにより、感情パターン保持手段の各感情パターンにはそれぞれ、言語属性と、音響的特徴と、それらによって表現される感情とが関連付けられおり、入力音響属性情報および入力感情情報に近い内容を有する感情パターンが抽出され、その感情パターンに含まれる言語属性情報の示す言語属性を有するテキストが生成されるため、使用者が合成音声全体で表現しようとする感情を示す入力感情情報が感情取得手段によって取得され、使用者の所望の音響的特徴を示す入力音響属性情報が音響属性取得手段によって取得されたときには、使用者の所望の音響的特徴と、使用者が合成音声全体で表現しようとする感情とに応じた言語属性を有するテキストを適切に生成することができる。さらに、そのテキストに対して音声合成を行って、入力音響属性情報の示す音響的特徴を有する合成音声が生成されるため、合成音声の言語属性、入力音響属性情報の示す音響的特徴、および入力感情情報の示す感情を、感情パターンで関連付けられた言語属性、音響的特徴、および感情に近づけることができ、その結果、合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようとする感情との相互の関連性を適切に保つことができる。
ここで、上記目的を達成するために、本発明に係る音声合成装置は、テキストを合成音声に変換して出力する音声合成装置であって、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンを複数保持する感情パターン保持手段と、テキストを取得するテキスト取得手段と、音響的特徴を示す入力音響属性情報を取得する音響属性取得手段と、感情を示す入力感情情報を取得する感情取得手段と、前記感情パターン保持手段に保持されている複数の感情パターンから、前記入力音響属性情報および前記入力感情情報に近い内容を示す前記音響属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索手段と、前記パターン検索手段により抽出された感情パターンに含まれる言語属性情報に基づいて、前記テキストを変形することにより、前記言語属性情報の示す言語属性を有する変形テキストを生成するテキスト変形手段と、前記パターン検索手段により抽出された感情パターンに含まれる音響属性情報に基づいて、前記変形テキストに対して音声合成を行うことにより、前記音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成手段とを備えることを特徴とする。
これにより、感情パターン保持手段の各感情パターンにはそれぞれ、言語属性と、音響的特徴と、それらによって表現される感情とが関連付けられおり、入力音響属性情報および入力感情情報に近い内容を有する感情パターンが抽出され、その感情パターンに含まれる言語属性情報の示す言語属性を有するように、テキスト取得手段で取得されたテキストが変形されるため、使用者が合成音声全体で表現しようとする感情を示す入力感情情報が感情取得手段によって取得され、使用者の所望の音響的特徴を示す入力音響属性情報が音響属性取得手段によって取得されたときには、テキスト取得手段で取得されたテキストを、使用者の所望の音響的特徴と、使用者が合成音声全体で表現しようとする感情とに応じた言語属性を有する変形テキストに適切に変形することができる。さらに、その変形されたテキストに対して音声合成を行って、上述の抽出された感情パターンに含まれる音響属性情報の示す音響的特徴を有する合成音声が生成されるため、合成音声の言語属性、合成音声の示す音響的特徴、および入力感情情報の示す感情を、感情パターンで関連付けられた言語属性、音響的特徴、および感情に近づけることができ、その結果、合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようとする感情との相互の関連性を適切に保つことができる。
なお、本発明は、このような音声合成装置として実現することができるだけでなく、その方法やプログラム、そのプログラムを格納する記憶媒体としても実現することができる。
本発明の音声合成装置は、合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようする感情との相互の関連性を適切に保つことができ、言語的内容と音響的特性と音声全体で表現される感情との関係を制御することで、言語的内容によって表される属性と音響的特性によって現される属性が逆転するような、例えば皮肉や嘲笑といった複雑な感情や表情を音声によって表現し、ユーザの望む音声および言語内容を生成することができる。
まず、本発明の着想点を説明する。
音声合成の技術開発において、正確な発音の自然な音声を合成するための技術開発がなされてきた。その過程において、特別な感情の表現や起伏は無いが、人間と区別が付かないほどに自然な音声で淡々とテキストを読み上げる音声合成装置が完成し、利用されている。しかし、このような淡々と読み上げる音声合成装置に手紙、電子メール、あるいは店舗の広告文のような感情や価値判断等を含む文章を入力すると、しばしば、その音声に違和感を感じることがある。言語内容としては賞賛としてしか表現されていなかった部分が「皮肉」や「非難」として感じられる場合である。言語内容としては「賞賛」であり、音声の音響的特徴としては「無感情」であり、どちらか一方だけでは「皮肉」や「非難」を表現しないにもかかわらず、言語内容と音声の音響的特徴とが合わさることで、まったく異なる感情を表出することになるという事実が明らかになった。
本発明は、このように言語内容と音響的特徴とがそれぞれ異なる内容を表現する場合、音声全体としては、言語内容と音響的特徴とのどちらとも異なる内容を表現するという、音声言語に特徴的な表現方法を音声合成装置として実現するための構成を明らかにするものである。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1における音声合成装置の機能ブロック図である。
本実施の形態における音声合成装置300は、図1に示すように、テキスト入力部301と、感情入力部302と、属性付き辞書303と、言語解析部304と、言語属性解析部305と、感情データベース306と、パターン検索部307aと、発話スタイル制御部308と、音声合成部309と、音声出力部310とを備えている。
テキスト入力部301は、テキスト取得手段として構成されており、音声に変換するための原稿としての入力テキストを受け付ける。つまり、使用者はこのテキスト入力部301に対して入力テキストを入力する。
感情入力部302は、感情を示す入力感情情報(感情ベクトル)を取得する感情取得手段として構成されており、喜怒哀楽や皮肉、嘲笑といった音声全体で表現あるいは伝達しようとする感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等の話者と聴取者の社会的関係性といった、日常的な人間同士の会話において言葉遣いや口調、声質等によって表現あるいは伝達される概念を取得する。ここでは、これらを代表して感情と呼ぶ。つまり、使用者はこの感情入力部302に対して感情(感情ベクトル)を入力する。
属性付き辞書303は、読みアクセント、アクセント結合情報等の通常の音声合成に見られる言語処理用辞書内容に加えて、各形態素の言語属性ベクトルを保持する。
言語解析部304は、入力テキストに対して形態素解析および構文解析を行い、読み、アクセント、区切り位置などを決定する。そして、言語解析部304は、決定された読み、アクセント、区切り位置などを示す読み情報を出力する。さらに、言語解析部304は、入力テキストの形態素ごとに、属性付き辞書303からその形態素の言語属性ベクトルを抽出して出力する。
言語属性解析部305は、入力テキストの形態素ごと、あるいは内容語ごとに設定された言語属性ベクトルを、入力テキストの文ごと、フレーズごと等の単位で統合する。例えば、言語属性解析部305は、形態素ごとの言語属性ベクトルを、入力テキストの文ごとに統合したときには、1文ごとの言語属性ベクトルと、上述の読み情報とを出力する。
なお、本実施の形態では、言語解析部304および言語属性解析部305は、上述のテキスト取得手段により取得されたテキストに対して言語解析を行なうことにより入力言語属性情報(1文ごとの言語属性ベクトル)を生成する解析手段として構成されている。また、本実施の形態では、テキスト入力部301、言語解析部304および言語属性解析部305は、テキストの言語属性を示す入力言語属性情報(1文ごとの言語属性ベクトル)を生成する言語属性生成手段として構成されている。
感情データベース306は、実際の音声言語より作成された、言語属性ベクトルと、音響属性ベクトルと、感情ベクトルとから構成される感情表出パターンを複数個蓄積している。
言語属性ベクトルは、言語的内容、意味あるいは概念のもつ好悪のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等の話者と聴取者の社会的関係性を構成する属性を示す。
音響属性ベクトルは、音響的特徴として平均ピッチやピッチのダイナミックレンジ、声門開放度のような感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等の話者と聴取者の社会的関係性を表現するのに用いられている音響的特徴量を示す。
感情ベクトルは、音声全体として表現されている感情や、依頼や命令といった話者の態度、対等か目上か、主従の関係か等の話者と聴取者の社会的関係性を示す。
なお、感情データベース306は、例えば、話者の感情や表情や態度が現れた実際に発話された音声に対し、複数人に対して実施された言語的内容と声質や口調といった音響的特徴をあわせた音声全体の印象を問うアンケート調査によって音声ごとに特定された印象と、言語属性の分析結果と音響特徴の分析結果とを合わせて記録することによって作られる。
なお、本実施の形態では、感情データベース306は、言語属性を示す言語属性情報(言語属性ベクトル)と、音響的特徴を示す音響属性情報(音響属性ベクトル)と、その言語属性と音響的特徴によって表現される感情を示す感情情報(感情ベクトル)とから構成される感情パターン(感情表出パターン)を複数保持する感情パターン保持手段として構成されている。また、何れかの感情パターンに含まれる感情情報、言語属性情報、および音響属性情報のうちの何れか1つの情報と他の情報とは、それぞれ相反する内容を示している。例えば、言語属性情報たる言語属性ベクトルによって表現される印象が怒りを示す一方、音響属性情報たる音響属性ベクトルによって表現される印象が喜びを示すことがある。
パターン検索部307aは、言語属性解析部305より出力された文ごとの言語属性ベクトルと、感情入力部302より取得された感情ベクトルとを検索キーとして用い、感情データベース306を検索する。そして、パターン検索部307aは、その検索キーに該当する感情表出パターンを抽出する。
なお、本実施の形態では、パターン検索部307aは、上述の感情パターン保持手段に保持されている複数の感情パターンから、入力言語属性情報および入力感情情報に近い内容を示す言語属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索手段として構成されている。
発話スタイル制御部308は、パターン検索部307aで抽出された感情表出パターンに含まれる音響属性ベクトルに基づいて、音声合成パラメータの変形情報を生成する。
音声合成部309は、言語解析部304で生成された読み情報の示す読み、アクセント等に従って音声合成を行う。このとき、音声合成部309は、発話スタイル制御部308からの変形情報に従ってパラメータを変形して音声を合成する。
なお、本実施の形態では、発話スタイル制御部308および音声合成部309は、上述のパターン検索手段により抽出された感情パターンに含まれる音響属性情報に基づいて、テキストに対して音声合成を行うことにより、その音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成手段として構成されている。
音声出力部310は、音声合成部309で生成された合成音声を出力する。
図2は、実施の形態1における音声合成部309のブロック図である。
音声合成部309は、図2に示すとおり、読み情報に基づいて音声の韻律情報を生成する韻律生成部311と、変形情報に含まれる韻律変形情報に基づいて、韻律情報の示す韻律を変形する韻律変形部312と、音声合成パラメータを音素ごとに記録したパラメータ素片データベース313と、変形射された韻律と読み情報とよりパラメータ素片データベース313から最適な音声合成パラメータを選択するパラメータ選択部314と、選択された音声合成パラメータを、変形情報に含まれる声質パラメータ変形情報に従って変形する声質パラメータ変形部315と、変形された音声合成パラメータから波形を生成する波形生成部316とを備えている。
図3は、本実施の形態における感情入力部302を示す図である。
感情入力部302は、例えば、図3に示すようなインタフェースを有し、使用者による操作に基づいて、使用者が音声によって表現しようとする感情を取得する。このようなインタフェースを有する感情入力部302は、人間の様々な感情が基本的な8つの感情とその強度の組み合わせによって表現されるというプルチックの「情動の立体モデル」に従って構成されたものであって、基本感情の強度を8つのスライダで調整できるようにしたものである。例えば、使用者は嫌みな印象を与える音声を合成しようとする場合には、嫌悪のレベルを「4」に設定し、怒りのレベルを「2」に設定し、さらに、喜びのレベルを「1」に設定し、他の感情(例えば、悲しみ、驚き、恐れ、親しみ、警戒)のレベルを「0」に設定する。このようにして設定された嫌みの感情は、基本感情による感情ベクトルとしてパターン検索部307aに出力される。即ち、感情ベクトルは、(怒り、嫌悪、悲しみ、驚き、恐れ、親しみ、喜び、警戒)の各要素からなり、上述のように設定されたときには、感情ベクトル=( 2, 4, 0, 0, 0, 0, 1, 0)となる。
図4は、属性付き辞書303に含まれるデータの内容と、形態素ごとの言語属性ベクトルを示す図である。
属性付き辞書303は、図4の(a)に示すように、形態素ごとに、読みや品詞、活用型等の音声合成および構文解析に必要な情報と、内容語属性または機能語属性からなる言語属性ベクトルを保持している。内容語属性は、内容語の示す、丁寧さ、上昇下降、賞罰、および美醜の4つの要素を有し、機能語属性は、機能語の示す、丁寧さ、全体強調、および部分強調の3つの要素を有する。内容語とは、名詞や、動詞、形容詞などのその形態素自身が意味をもつものであって、機能語とは、例えば助詞や助動詞など、その形態素自身の意味よりも他の内容語の意味を活用するような役割をもつものである。また、上昇下降とは、相手を持ち上げたり下げたりするような属性を示し、賞罰は、相手を褒めたりけなしたりするような属性を示し、美醜は、相手を美しく表現したり醜く表現したりするような属性を示す。例えば、「きれいな」という内容語に対する言語属性ベクトルは、内容語属性の( 0, 1, 2, 1)から構成され、「た」という機能語に対する言語属性ベクトルは、機能語属性の( 0, 0, 0)から構成される。
言語解析部304は、テキスト入力部301から入力テキストを取得すると、その入力テキストに含まれる形態素ごとに、その形態素の言語属性ベクトルと読み情報とを、属性付き辞書303から抽出する。例えば、入力テキストが「きれいな花が咲きましたね。」である場合には、言語解析部304は、図4の(b)に示すように、「きれいな」という形容動詞である内容語に対して、言語属性ベクトル(丁寧さ、上昇下降、賞罰、美醜)=( 0, 1, 2, 1)を抽出する。さらに、言語解析部304は、「花」という名詞である内容語に対して、言語属性ベクトル(丁寧さ、上昇下降、賞罰、美醜)=( 0, 1, 0, 2)を抽出し、「が」という助詞である機能語に対して、言語属性ベクトル(丁寧さ、全体強調、部分強調)=( 0, 0, 0)を抽出し、「咲き」という動詞である内容語に対して、言語属性ベクトル(丁寧さ、上昇下降、賞罰、美醜)=( 0, 1, 1, 1)を抽出し、「まし」という助動詞である機能語に対して、言語属性ベクトル(丁寧さ、全体強調、部分強調)=( 1, 0, 0)を抽出し、「た」という助動詞である機能語に対して、言語属性ベクトル(丁寧さ、全体強調、部分強調)=( 0, 0, 0)を抽出し、さらに、「ね」という助詞である機能語に対して、言語属性ベクトル(丁寧さ、全体強調、部分強調)=( 1, 2, 0)を抽出する。
なお、上記例では、言語解析部304は、文中の全形態素について言語属性ベクトルを抽出するものとするが、名詞や動詞のような内容語のみに対して抽出しても良い。
言語属性解析部305は、このように抽出された形態素ごとの言語属性ベクトルから、例えば文単位の言語属性ベクトルを算出する。例えば、上述のように入力テキストが「きれいな花が咲きましたね。」である場合には、言語属性解析部305は、まず、内容語の言語属性ベクトルの平均、(丁寧さ、上昇下降、賞罰、美醜)=( 0, 1, 1, 1.3)を算出する。さらに、言語属性解析部305は、機能語の言語属性ベクトルの平均、(丁寧さ、全体強調、部分強調)=( 0.5, 0.5, 0)を算出する。そして、言語属性解析部305は、内容語の言語属性ベクトルの平均を、機能語の言語属性ベクトルの平均により変形する。即ち、言語属性解析部305は、平均された機能語の言語属性ベクトルにおける全体強調が0.5であることから、平均された内容語の言語属性ベクトルの各要素に対して1.5を乗算して、言語属性ベクトル(丁寧さ、上昇下降、賞罰、美醜)=( 0, 1.5, 1.5, 2)を算出する。さらに、言語属性解析部305は、その算出された言語属性ベクトルに対して、平均された機能語の言語属性ベクトルにおける丁寧さ「0.5」を加算する。これにより、文単位の言語属性ベクトル(丁寧さ、上昇下降、賞罰、美醜)=( 0.5, 1.5, 1.5, 2)が算出される。
図5は、感情データベース306が格納しているデータの一例を示す模式図である。
感情データベース306が格納しているデータには、複数の感情表出パターンが含まれており、各感情表出パターンには、感情ベクトルと言語属性ベクトルと音響属性ベクトルとが含まれている。音響属性ベクトルは、合成音声の音響的特徴を示し、平均ピッチと、ピッチダイナミックレンジと、声門開放度と、スペクトル傾斜と、文末ピッチ変動と、ポーズ頻度となどを構成要素として有する。
図6は、本実施の形態における音声合成装置300の動作を示すフローチャートである。
音声合成装置300は、まず、使用者によるテキスト入力部301に対する操作に基づいて、使用者が音声に変換しようとする入力テキストを取得し、使用者による感情入力部302に対する操作に基づいて、使用者が音声によって表現あるいは伝達しようとする感情を取得する(ステップS301)。
言語解析部304は、ステップS301で取得された入力テキストを、属性付き辞書303を参照することにより形態素に分割する(ステップS302)。その際、言語解析部304は、分割された各形態素について、属性付き辞書303に記憶されている形態素の言語属性ベクトルを抽出する。さらに、言語解析部304は、構文解析を行う(ステップS303)。即ち、言語解析部304は、文節の決定、文節間の係り受けの解析等の構文解析を行い、フレーズおよびアクセント句を決定し、形態素のつながりによって変化する部分(例えば助数詞の読み。1本、2本は前にある数字によって「ぽん」と「ほん」と読みが変わる)を含めて読みとアクセント位置と区切り位置を決定する。このように決定された内容は、読み情報として出力される。
次に、言語属性解析部305は、言語解析部304で決定された形態素ごとの言語属性ベクトルを1文単位の言語属性ベクトルにまとめる(ステップS304)。
パターン検索部307aは、ステップS301で取得された感情ベクトルと、ステップS304で生成された文単位の言語属性ベクトルとに基づいて、感情データベース306を検索し、その感情ベクトルと言語属性ベクトルに最も近い組み合わせの感情表出パターンを抽出する(ステップS305)。
例えば、パターン検索部307aは、ステップS301で、感情ベクトル(怒り、嫌悪、悲しみ、驚き、恐れ、親しみ、喜び、警戒)=( 2, 4, 0, 0, 0, 0, 1, 0)を取得し、ステップS304で、1文単位の言語属性ベクトル(丁寧さ、上昇下降、賞罰、美醜)=( 0.5, 1.5, 1.5, 2)を取得する。このとき、パターン検索部307aは、これらの感情ベクトルおよび言語属性ベクトルの組み合わせに最も近い感情ベクトルおよび言語属性ベクトルを有する感情表出パターンを検索する。即ち、パターン検索部307aは、図5に示すように、感情ベクトル(怒り、嫌悪、悲しみ、驚き、恐れ、親しみ、喜び、警戒)=( 2, 4, 0, 0, 0, 0, 1, 0)と、言語属性ベクトル(丁寧さ、上昇下降、賞罰、美醜)=( 1, 1.5, 1.5, 2)を有する感情表出パターンを見つけ出す。
次に、パターン検索部307aは、ステップS305で選択された感情表出パターンから音響属性ベクトルを抽出する(ステップS306)。例えば、ステップS305で上記例に示すような感情表出パターンが選択されたときには、パターン検索部307aは、ステップS306で、音響属性ベクトル(平均ピッチ、ピッチダイナミックレンジ、声門開放度、スペクトル傾斜、文末ピッチ変動、ポーズ頻度)=( -2, -2, 1, 1, 1, -1)を抽出する。
発話スタイル制御部308は、その音響属性ベクトルに基づいて、韻律変形情報と声質パラメータ変形情報からなる変形情報を生成する(ステップS307)。ここでは例えば、発話スタイル制御部308は、その音響属性ベクトルに含まれる平均ピッチおよびピッチダイナミックレンジの属性に基づいて、文全体の標準韻律パターンのパラメータに対して定数倍するための韻律変形情報を生成する。さらに、発話スタイル制御部308は、その音響属性ベクトルに含まれる声門開放度の属性に基づいて、文全体の標準パラメータの声門開放度を制御するパラメータに対して定数倍するための声質パラメータ変形情報を生成する。具体的に、発話スタイル制御部308は、抽出された音響特性属性ベクトルの各属性に基づいて、例えば平均ピッチを0.7倍にしてピッチダイナミックレンジを0.6倍にするような韻律変形情報と、声門開放度を1.2倍にしてスペクトル傾斜を1.1倍にするような声質パラメータ変形情報を生成する。
なお、ここでは文全体の標準韻律パターンと文全体の標準パラメータを変形するものとしたが、図5に示す文末ピッチ変動のように、文頭、句頭、文末、または句末等や特定の音韻等の局所的な韻律パターンや声質のパラメータを変形するものとしても良い。
一方、音声合成部309は、ステップS303で生成された読みとアクセント位置と区切り位置とを示す読み情報を取得し、韻律生成部311は、規則に基づいて、標準発話スタイルもしくは無表情の音声の韻律パターンを生成する(ステップS308)。そして、韻律変形部312は、ステップS307で生成された変形情報のうち、韻律変形情報にしたがって、ステップS308で生成された標準発話スタイルの韻律パターンを変形して、ステップS306で抽出された音響属性ベクトルに合致した韻律パターンを生成する(ステップS309)。ここでは前述したように、例えば、標準発話スタイルの韻律パターンに対して平均ピッチを0.7倍にしてピッチダイナミックレンジを0.6倍にする。
パラメータ選択部314は、ステップS303で生成された読み情報と、ステップS309で生成された変形済みの韻律パターンとに基づいて、その読み情報および韻律パターンに応じた素片の音声合成パラメータを、パラメータ素片データベース313から選択することで、標準的声質での音声合成パラメータを生成する(ステップS310)。
さらに、声質パラメータ変形部315は、ステップS307で生成された変形情報のうち声質パラメータ変形情報に従って、ステップS310で生成した音声合成パラメータの声質パラメータを変形する(ステップS311)。即ち、声質パラメータ変形部315は、ステップS310で生成された標準的声質の音声合成パラメータを、ステップS306で抽出された音響属性ベクトルに合致した声質を実現するパラメータに変形する。ここでは前述したように、声質パラメータ変形部315は、例えば、標準的声質の音声合成パラメータのうち声門開放度を0.6倍にする。波形生成部316は、声質パラメータ変形部315で生成された音声合成パラメータに基づき音声波形を生成し(ステップS312)、音声出力部310は、その音声波形を示す合成音声を出力する(ステップS313)。
かかる構成によれば、入力テキストの言語的属性と入力感情とにしたがって、言語内容による属性と音響的特徴による属性と音声全体で表現あるいは伝達される感情との組み合わせパターンを蓄積した感情データベース306より感情表出パターンを選択し、選択された感情表出パターンに含まれる音響属性ベクトルにしたがって音声合成パラメータを変形することにより、入力された感情を、音声の音響的特徴と入力されたテキストの言語表現との組み合わせによって表現することができ、そのような音響的特徴の音声を合成することができる。
図7は、実施の形態1において使用者の入力と、音声合成装置300の内部状態と、出力された合成音声が与える印象とをそれぞれ対比して示す図である。
図7の行L701および行L702に示すように、入力テキスト「きれいな花が咲きましたね。」に対するテキストのみの印象は、美しく丁寧である。このような場合、行L702のように、入力された感情が「喜び」を示すときには、音響特徴として「声が高く、抑揚が大きく」なるような音響属性ベクトルが生成され、その音響属性ベクトルに応じて生成される合成音声の音響(発話スタイル)の印象は「喜び」を表す。したがって、このような合成音声の音声全体としての印象は、「喜びと親しみ」を表現することになる。
一方、同じ入力テキストであっても行L701のように、入力された感情に「嫌悪や怒り」が含まれているときには、音響的特徴として「声が低く、抑揚が無く」なるような音響属性ベクトルが生成され、その音響属性ベクトルに応じて生成される合成音声の音響(発話スタイル)の印象は、嫌悪や怒りを示す。したがって、このような合成音声の音声全体としての印象は、「嫌み」や「皮肉」を表現するものとなる。
このように、テキストの言語的な印象と、音響的な発話スタイルの印象とが相反することによって、「嫌味」という複雑な感情が表現される。
また、図7の行L703および行L704に示すように、入力テキスト「ざまみやがれ。」に対するテキストのみの印象は、憎憎しく乱暴である。このような場合、行L703のように、入力された感情に「喜び」が含まれているときには、音響的特徴として「喜び」を表すような音響属性ベクトルが生成され、その音響属性ベクトルに応じて生成される合成音声の音響(発話スタイル)の印象は、喜びを示す。したがって、このような合成音声の音声全体としての印象は、単純な憎しみを表現するものではなく、「嘲笑」や「小ばかにしたような態度」といった複雑な感情あるいは表情を表現するものとなる。
すなわち、上述と同様、テキストの言語的な印象と、音響的な発話スタイルの印象とが相反することによって、「嘲笑」などという複雑な感情が表現される。
このように本実施の形態では、使用者の入力に対して音響属性ベクトルを決定することで、合成音声の全体の印象を、言語内容の印象と、音響的特徴による印象との組み合わせによって制御することができる。すなわち、嫌味や皮肉、あるいは嘲笑のように、言語的内容と音響的特徴とによる表現あるいは印象が一致しないことによって表現される複雑な感情や表情を表現する音声を合成することができる。したがって、同一の入力テキストであっても、表現したい感情に合わせて、自動的に音響的特徴を制御して音声全体としてはまったく異なる感情を表現し分けることができる。
つまり、本実施の形態では、感情データベース306の各感情表出パターンにはそれぞれ、言語属性ベクトルと、音響属性ベクトルと、それらによって表現される感情ベクトルとが関連付けられおり、入力テキストの言語属性ベクトルおよび入力された感情ベクトルに近い内容を有する感情表出パターンが抽出され、その感情表出パターンに含まれる音響属性ベクトルの示す音響的特徴を有する合成音声が生成されるため、使用者が合成音声全体で表現しようとする感情を感情ベクトルとして感情入力部302に入力したときには、テキストの言語属性、合成音声の音響的特徴、およびその感情ベクトルの示す感情を、感情表出パターンで関連付けられた言語属性、音響的特徴、および感情に近づけることができ、その結果、テキストの言語属性、つまり合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようとする感情との相互の関連性を適切に保つことができる。したがって、合成音声全体により表現しようする感情およびテキストに応じて適切な音響的特徴を有する合成音声を生成することができる。さらに、合成音声全体で表現しようとする感情を適切に制御することができ、複雑な感情を表現することができる。
なお、本実施の形態では、発話スタイル制御部308は韻律変形情報を韻律変形部312に出力し、韻律変形部312は韻律生成部311で生成された標準韻律パターンを韻律変形情報に従って変形した。しかし、音響属性ベクトルが、図5に示す「ポーズ頻度」等の韻律の制御単位に影響をおよぼす項目を含む場合は、発話スタイル制御部308は、韻律制御単位の単位変形情報を含む韻律変形情報を生成し、韻律生成部311へその韻律変形情報を出力してもよい。この場合、韻律生成部311は、韻律制御単位を単位変形情報に従って変形して標準韻律パターンを生成する。そして、韻律生成部311は、標準韻律パターンとあわせて韻律変形情報を韻律変形部312へ出力する。
<変形例1>
ここで、本実施の形態における音声合成部309の変形例について説明する。
上記実施の形態における音声合成部309は、図2に示すように、韻律生成部311、韻律変形部312、パラメータ素片データベース313、パラメータ選択部314、声質パラメータ変形部315、および波形生成部316によって構成される。そして、その音声合成部309は、標準発話スタイルの韻律パターンを生成した後にその韻律パターンを変形し、変形した韻律パターンにあわせて音声合成パラメータを選択した後に、その音声合成パラメータに含まれる声質パラメータを変形して波形を生成する。
一方、本変形例に係る音声合成部は、標準発話スタイルの音声合成パラメータを選択して、その音声合成パラメータの示す韻律と声質とを変形する。
図8は、本変形例に係る音声合成部のブロック図である。
本変形例に係る音声合成部309aは、図8に示すように、上記実施の形態の音声合成部309の構成に対して、韻律変形部312がなく、声質パラメータ変形部315をパラメータ変形部325に入れ替えて構成されている。
この音声合成部309aの韻律生成部311は、標準発話スタイルでの韻律を生成し、パラメータ選択部314は、パラメータ素片データベース313から、標準発話スタイルの素片ごとの音声合成パラメータを選択することで、韻律、声質とも標準発話スタイルの音声合成パラメータを生成する。パラメータ変形部325は、パラメータ選択部314で生成された標準発話スタイルの音声合成パラメータを、変形情報に従って変形する。その結果、パターン検索部307aによって抽出された音響属性ベクトルに合致した音声合成パラメータが生成される。そして、波形生成部316は、その音声合成パラメータに基づいて合成音声の波形を生成する。
なお、パラメータによる音声合成以外の方式で生成した波形に対して、後処理として音声波形を変形する手段を備えてもよい。この場合には、標準発話スタイルの音声波形が、パターン検索部307aによって抽出された音響属性ベクトルに合致した合成音声を示すように変形される。
<変形例2>
ここで、本実施の形態における音声合成部309の他の変形例について説明する。
本変形例に係る音声合成部は、波形接続方式により音声を生成する。
図9は、本変形例に係る音声合成部のブロック図である。
本変形例に係る音声合成部309bは、図9に示すように、上記実施の形態の音声合成部309の構成に対して、パラメータ素片データベース313を音声素片データベース333に入れ替え、パラメータ選択部314を素片選択部334に置き換え、声質パラメータ変形部315がなく、波形生成部316を波形接続部336に入れ替えて構成される。
また、本変形例に係る発話スタイル制御部308は、上述の声質パラメータ変形情報に変わって、パターン検索部307aによって抽出された音響属性ベクトルに応じた音声素片が選択されるために、その音声素片の性質を指定する内容の素片選択条件変形情報を生成する。
この音声合成部309bの韻律生成部311は、標準発話スタイルの韻律を生成し、その韻律の韻律パターンを韻律変形情報に基づいて変形する。そして、素片選択部334は、読み、アクセント、および区切を示す読み情報と、変形された韻律パターンと、素片選択条件変形情報に従って、音声素片データベース333から、音響属性ベクトルに合った音声素片を選択する。波形接続部336は、その音声素片の波形を接続して音声波形を生成する。
<変形例3>
ここで、本実施の形態における音声合成部309のさらに他の変形例について説明する。
本変形例に係る音声合成部は、学習モデルなどのルールにしたがって音声合成パラメータを生成するように、規則合成方式による音声を生成する。
図10は、本変形例に係る音声合成部のブロック図である。
本変形例に係る音声合成部309cは、図10に示すように、上記実施の形態の音声合成部309の構成に対して、パラメータ素片データベース313、韻律変形部312、声質パラメータ変形部315がなく、パラメータ選択部314をパラメータ生成部344に入れ替えて構成される。
この音声合成部309cの韻律生成部311は、読み、アクセント、および区切を示す読み情報と、変形情報に含まれる韻律変形情報とに従って、感情ごとのルールの入れ替えや、パラメータ空間の写像による手法等を用いて韻律生成ルールを変換し、変形結果としての韻律パターンを生成する。パラメータ生成部344は、変形情報のうちの声質パラメータ変形情報に従って、パラメータ生成ルールを変換し、変形結果としての声質パラメータを生成する。波形生成部316は、韻律生成部311で生成された韻律パターンと、パラメータ生成部344で生成された声質パラメータとに基づいて、パターン検索部307aによって抽出された音響属性ベクトルに合った音声波形を生成する。
<変形例4>
ここで、本実施の形態における感情入力部302の変形例について説明する。
上記実施の形態では、プルチックの8つの感情をスライダで入力可能なように感情入力部302を構成したが、本変形例では、このような感情以外の情報をスライダで入力可能なように感情入力部を構成する。
図11は、本変形例に係る感情入力部を示す図である。
本変形例に係る感情入力部302aは、話者の態度(モダリティ)を説明する要素である、推定、伝聞、疑問、価値表明、および派生的当為のそれぞれの強度を、使用者によるスライダに対する操作に応じて取得するように構成されている。このような推定などの各要素によって発話意図が特定される(非特許文献:益岡隆志, 1991, 「モダリティの文法」くろしお出版参照)
なお、入力方式はスライダ以外の他の入力方式であってもよい。例えば、感情や意図、社会的関係を選択する方式や、空間内の点を指定する方式など、感情、意図あるいは社会的関係の状態を項目とその程度によって指定することのできるインタフェースであれば良い。
<変形例5>
ここで、本実施の形態における音声合成装置300の変形例について説明する。
本変形例に係る音声合成装置は、話者に応じて感情データベースを切り替える点に特徴がある。
図12は、本変形例の音声合成装置の機能ブロック図である。図12において、図1と同じ構成要素については同じ符号を用い、説明を省略する。
本変形例に係る音声合成装置300aは、図12に示すように、上記実施の形態の音声合成装置300に対して、感情データベース306をデータベース群406に置き換え、話者属性入力部401、データベース選択部402、およびスイッチ403を備えている。
データベース群406は、話者属性ごとに作成された複数セットの感情データベースd1〜dnを備えている。感情データベースd1〜dnは、それぞれ上記実施の形態の感情データベース306と同様のデータを格納しているが、その各データは、話者の属性に応じて作成されている。
話者属性入力部401は、話者の属性、例えば、男性や女性、年齢などを取得して、その話者属性をデータベース選択部402に出力する。つまり、使用者はこの話者属性入力部401に対して話者属性を入力する。
データベース選択部402は、話者属性入力部401から話者属性を取得して、スイッチ403を操作することにより、その話者属性に応じた感情データベースをパターン検索部307aに接続する。
図13は、本変形例に係る音声合成装置300aの動作を示すフローチャートである。
音声合成装置300aは、まず、使用者によるテキスト入力部301に対する操作に基づいて、使用者が音声に変換しようとする入力テキストを取得し、使用者による感情入力部302に対する操作に基づいて、使用者が音声によって表現あるいは伝達しようとする感情を取得する。さらに、音声合成装置300aは、使用者による話者属性入力部401に対する操作に基づいて、使用者が想定する合成音声の話者の属性、例えば20代の女性で、明るく礼儀正しい性格というような話者の属性を取得する(ステップS401)。
言語解析部304は、ステップS401で取得された入力テキストを、形態素解析すると同時に形態素ごとの言語属性ベクトルを抽出する(ステップS302)。さらに、言語解析部304は、構文解析を行い、読みとアクセント位置と区切り位置とを決定する(ステップS303)。
次に、言語属性解析部305は、言語解析部304で決定された形態素ごとの言語属性ベクトルを1文単位の言語属性ベクトルにまとめる(ステップS304)。
一方、データベース選択部402は、ステップS401で話者属性入力部401より取得された話者属性を、データベース群406に含まれる各感情データベースd1〜dnの話者属性のカテゴリに変換する(ステップS402)。例えば、カテゴリは、性別ごとに子供、少年期、青年期、壮年期、老年期に分類され、さらに、それぞれで、表情豊かなものと落ちつたものとに分類される。このように分類された各カテゴリは、感情データベース群406の各感情データベースd1〜dnに対応付けられている。つまり、各感情データベースd1〜dnは、その対応付けられたカテゴリに属する話者に応じたデータを格納している。つまり、ステップS401で話者属性入力部401より「20代の女性で、明るく礼儀正しい性格」という話者属性が取得された場合、その話者属性のカテゴリは、女性で青年期で且つ表情豊かなカテゴリとして特定される。
さらに、データベース選択部402は、スイッチ403を切り替えて、ステップS402で特定されたカテゴリの感情データベースを、データベース群406から選択する(ステップS403)。
パターン検索部307aは、ステップS401で取得された感情ベクトルと、ステップS304で生成された文単位の言語属性ベクトルとに基づいて、ステップS403で選択された感情データベースを検索し、その感情ベクトルと言語属性ベクトルに最も近い組み合わせの感情表出パターンを抽出する(ステップS305)。
次に、パターン検索部307aは、ステップS305で選択された感情表出パターンから音響属性ベクトルを抽出し(ステップS306)、発話スタイル制御部308は、その音響属性ベクトルに基づいて韻律変形情報と声質パラメータ変形情報からなる変形情報を生成する(ステップS307)。
一方、音声合成部309は、ステップS303で生成された読みとアクセント位置と区切り位置とを示す読み情報を取得し、その音声合成部309の韻律生成部311は、規則に基づき標準発話スタイルもしくは無表情の音声の韻律パターンを生成する(ステップS308)。次に、韻律変形部312は、ステップS307で生成された変形情報のうち、韻律変形情報にしたがって、ステップS308で生成された標準発話スタイルの韻律パターンを変形して、ステップS306で抽出された音響属性ベクトルに合致した韻律パターンを生成する(ステップS309)。
パラメータ選択部314は、ステップS303で生成された読み情報と、ステップS309で生成された変形済みの韻律パターンとに基づいて、その読み情報および韻律パターンに応じた素片の音声合成パラメータを、パラメータ素片データベース313から選択することで、標準的声質での音声合成パラメータを生成する(ステップS310)。
さらに、声質パラメータ変形部315は、ステップS307で生成された変形情報のうち声質パラメータ変形情報に従って、ステップS310で生成した音声合成パラメータの声質パラメータを変形する(ステップS311)。即ち、声質パラメータ変形部315は、ステップS310で生成された標準的声質の音声合成パラメータを、ステップS306で抽出された音響属性ベクトルに合致した声質を実現するパラメータにする。波形生成部316は、声質パラメータ変形部315で生成された音声合成パラメータに基づき音声波形を生成し(ステップS312)、音声出力部310は、その音声波形を示す合成音声を出力する(ステップS313)。
かかる構成によれば、複数種類の話者属性でカテゴライズされた複数個の感情データベースをデータベース群406に格納し、使用者によって入力された話者属性に合致した感情データベースを選択する。そして、入力テキストの言語属性ベクトルと感情ベクトルとにしたがって、感情データベースより感情表出パターンを選択し、選択された感情表出パターンに含まれる音響属性ベクトルにしたがって音声合成パラメータを変形する。
これにより、入力された感情を、音声の音響的特徴と入力されたテキストの言語表現との組み合わせによって表現することができ、そのような音響的特徴の音声を合成することができる。
実施の形態1と同様に、嫌味や皮肉、あるいは嘲笑のように、言語的内容と音響的特徴とによる表現あるいは印象が一致しないことによって表現されるような複雑な感情や表情を表現する音声を合成することができる。また、同一の入力テキストであっても表現したい感情に合わせて自動的に音響的特徴を制御して音声全体としてはまったく異なる感情を表現し分けることができる。さらに、話者属性ごとに感情データベースを用意し、これらを選択して用いることで、言語内容による属性と音響的特徴による属性と音声全体で表現あるいは伝達される感情との組み合わせパターンを、それぞれ異なる話者属性に対して適切に使い分けることができ、より多様で詳細な音声の表現が可能になる。
<変形例6>
ここで、本実施の形態における音声合成装置300の他の変形例について説明する。
本変形例に係る音声合成装置は、聴取者に応じて感情データベースを切り替える点に特徴がある。
図14は、本変形例の音声合成装置の機能ブロック図である。図14において、図12と同じ構成要素については同じ符号を用い、説明を省略する。
本変形例に係る音声合成装置300bは、図14に示すように、変形例5の図12に示す音声合成装置300aに対して、話者属性入力部401を聴取者属性入力部501に置き換え、データベース選択部402をデータベース選択部502に置き換え、データベース群406をデータベース群506に置き換えて構成されている。
データベース群506は、聴取者属性ごとに作成された複数セットの感情データベースd1〜dnを備えている。感情データベースd1〜dnは、それぞれ上記実施の形態の感情データベース306と同様のデータを格納しているが、その各データは、聴取者の属性に応じて作成されている。
聴取者属性入力部501は、聴取者の属性、例えば、男性や女性、年齢などを取得して、その聴取者属性をデータベース選択部502に出力する。つまり、使用者はこの聴取者属性入力部501に対して聴取者属性を入力する。
データベース選択部502は、聴取者属性入力部501から聴取者属性を取得して、スイッチ403を操作することにより、その聴取者属性に応じた感情データベースをパターン検索部307aに接続する。
図15は、本変形例に係る音声合成装置300bの動作を示すフローチャートである。
音声合成装置300bは、変形例5と同様、まず、使用者によるテキスト入力部301に対する操作に基づいて、使用者が音声に変換しようとする入力テキストを取得し、使用者による感情入力部302に対する操作に基づいて、使用者が音声によって表現あるいは伝達しようとする感情を取得する。さらに、音声合成装置300bは、使用者による聴取者属性入力部501に対する操作に基づいて、使用者が想定する合成音声の聴取者の属性を入力する、例えば80代の男性というような聴取者の属性を取得する(ステップS501)。
言語解析部304は、ステップS501で取得された入力テキストを、形態素解析すると同時に形態素ごとの言語属性ベクトルを抽出する(ステップS302)。さらに、言語解析部304は、構文解析を行い、読みとアクセント位置と区切り位置とを決定する(ステップS303)。
次に、言語属性解析部305は、言語解析部304で決定された形態素ごとの言語属性ベクトルを1文単位の言語属性ベクトルにまとめる(ステップS304)。
一方、データベース選択部502は、ステップS501で聴取者属性入力部501より取得された聴取者属性を、データベース群506に含まれる各感情データベースd1〜dnの聴取者属性のカテゴリに変換する(ステップS502)。例えば、カテゴリは、性別ごとに子供、少年期、青年期、壮年期、老年期に分類される。ステップS501で聴取者属性入力部501より「80代の男性」という聴取者属性が取得された場合、その聴取者属性のカテゴリは、男性で老年期のカテゴリとして特定される。
さらに、データベース選択部502は、スイッチ403を切り替えて、ステップS502で特定されたカテゴリの感情データベースを、データベース群506から選択する(ステップS503)。
パターン検索部307aは、ステップS501で取得された感情ベクトルと、ステップS304で生成された文単位の言語属性ベクトルとに基づいて、ステップS503で選択された感情データベースを検索し、その感情ベクトルと言語属性ベクトルに最も近い組み合わせの感情表出パターンを抽出する(ステップS305)。
次に、パターン検索部307aは、ステップS305で選択された感情表出パターンから音響属性ベクトルを抽出し(ステップS306)、発話スタイル制御部308は、その音響属性ベクトルに基づいて韻律変形情報と声質パラメータ変形情報からなる変形情報を生成する(ステップS307)。
一方、音声合成部309は、ステップS303で生成された読みとアクセント位置と区切り位置とを示す読み情報を取得し、その音声合成部309の韻律生成部311は、規則に基づき標準発話スタイルもしくは無表情の音声の韻律パターンを生成する(ステップS308)。次に、韻律変形部312は、ステップS307で生成された変形情報のうち、韻律変形情報にしたがって、ステップS308で生成された標準発話スタイルの韻律パターンを変形して、ステップS306で抽出された音響属性ベクトルに合致した韻律パターンを生成する(ステップS309)。
パラメータ選択部314は、ステップS303で生成された読み情報と、ステップS309で生成された変形済みの韻律パターンとに基づいて、その読み情報および韻律パターンに応じた素片の音声合成パラメータを、パラメータ素片データベース313から選択することで、標準的声質での音声合成パラメータを生成する(ステップS310)。
さらに、声質パラメータ変形部315は、ステップS307で生成された変形情報のうち声質パラメータ変形情報に従って、ステップS310で生成した音声合成パラメータの声質パラメータを変形する(ステップS311)。即ち、声質パラメータ変形部315は、ステップS310で生成された標準的声質の音声合成パラメータを、ステップS306で抽出された音響属性ベクトルに合致した声質を実現するパラメータにする。波形生成部316は、声質パラメータ変形部315で生成された音声合成パラメータに基づき音声波形を生成し(ステップS312)、音声出力部310は、その音声波形を示す合成音声を出力する(ステップS313)。
かかる構成によれば、複数種類の聴取者属性でカテゴライズされた複数個の感情データベースをデータベース群506に格納し、使用者によって入力された聴取者属性に合致した感情データベースを選択する。そして、入力テキストの言語属性ベクトルと感情ベクトルとにしたがって、感情データベースより感情表出パターンを選択し、選択された感情表出パターンに含まれる音響属性ベクトルにしたがって音声合成パラメータを変形する。
これにより、入力された感情を、音声の音響的特徴と入力されたテキストの言語表現との組み合わせによって表現することができ、そのような音響的特徴の音声を合成することができる。
実施の形態1と同様に、嫌味や皮肉、あるいは嘲笑のように、言語的内容と音響的特徴とによる表現あるいは印象が一致しないことによって表現されるような複雑な感情や表情を表現する音声を合成することができる。また、同一の入力テキストであっても表現したい感情に合わせて自動的に音響的特徴を制御して音声全体としてはまったく異なる感情を表現し分けることができる。さらに、聴取者属性ごとに感情データベースを用意し、これらを選択して用いることで、言語内容による属性と音響的特徴による属性と音声全体で表現あるいは伝達される感情との組み合わせパターンを、それぞれ異なる聴取者属性に対して適切に使い分けることができる。例えば、聴取者属性の入力としてカメラ入力に対する画像認識結果を用いることで、ロボットや対話システムの音声出力として、合成音声を聴取する使用者にあわせた合成音声を生成することができる。また、合成音声を生成してメールとして送るサービスにおいては、取引先に送信する場合と、友人に送信する場合等、受信者と送信者との社会的関係に合致した感情データベースおよび感情表出パターンを選択して用いることができる。その結果、多様で詳細で、伝達しようとする感情や意図が正確に伝わる音声の表現が可能になる。
なお、変形例5では、ステップS304で文単位の言語属性ベクトルを生成した後にステップS402で話者属性をカテゴライズし、ステップS403でデータベース群406から該当する話者属性のカテゴリの感情データベースを選択した。また、変形例6では、ステップS304で文単位の言語属性ベクトルを生成した後にステップS502で聴取者属性をカテゴライズし、ステップS503でデータベース群506から該当する話者属性のカテゴリの感情データベースを選択した。しかし、本発明では、ステップS402およびステップS403の動作と、ステップS502およびステップS503の動作とは、ステップS305の感情表出パターンの検索以前であれば、上記以外のタイミングで行なわれてもよい。
なお、変形例5および変形例6では、話者属性や聴取者属性に合わせて感情データベースを選択したが、属性付き辞書303を複数用意し話者属性や聴取者属性に合わせて選択してもよい。
なお、実施の形態1およびその変形例では、言語属性解析部305は1文あたりの言語属性ベクトルを生成するとしたが、フレーズごと、アクセント句ごと、文節ごと、1段落ごと等の他の言語的単位または音声的単位で言語属性ベクトルを生成してもよい。
なお、実施の形態1およびその変形例では、属性付き辞書303と感情データベースとに含まれる言語属性ベクトルの形式及び各要素が示す属性の内容を同じとしたが、両者が異なっていても良い。ただし、両言語属性ベクトルが異なる形式を持つ場合には、パターン検索部307aは、属性付き辞書303の属性ベクトルから感情データベースに含まれる言語属性ベクトルへの変換を行う。
(実施の形態2)
本実施の形態における音声合成装置は、感情データベースを用いて、音響属性ベクトルおよび感情ベクトルに応じた言語属性ベクトルを生成し、さらに、この言語属性ベクトルを用いてテキスト(せりふ)を生成する点に特徴がある。
図16は、本実施の形態における音声合成装置の機能ブロック図である。図16において、図1と同じ構成要素については同じ符号を用い、説明を省略する。
本実施の形態における音声合成装置600は、発話スタイル入力部601と、変換テーブル格納部604と、音響属性ベクトル生成部605aと、感情入力部302と、内容語入力部603と、文生成部610と、パターン検索部307bと、感情データベース306と、意味クラス・属性付き辞書608と、構文データベース609と、読み記号生成部611と、発話スタイル制御部308と、音声合成部309と、音声出力部310と、せりふ表示部612とを備えている。
発話スタイル入力部601は、使用者による操作に基づいて、合成しようとする音声の音響的特徴によって表される特性すなわち発話スタイルを取得する。
感情入力部302は、使用者による操作に基づいて、音声全体として表現しようとする感情や意図、社会的関係等を取得する。つまり、使用者はこの感情入力部302に対して感情(感情ベクトル)を入力する。
内容語入力部603は、音声の言語的内容すなわちせりふの文意を指示するための内容語列を取得して出力する。つまり、使用者はこの内容語入力部603に対して内容語列を入力する。なお、本実施の形態では、内容語入力部603は、言語的意味内容を有する内容語を取得する内容語取得手段として構成されている。
変換テーブル格納部604は、音声の音響的特徴量を示す音響属性ベクトルに発話スタイルを対応付けた変換テーブルを格納している。
音響属性ベクトル生成部605aは、変換テーブル格納部604を参照して、発話スタイル入力部601で取得された発話スタイルを、音響属性ベクトルに変換して、合成しようとする音声に対して1種類の音響属性ベクトルを生成する。
なお、本実施の形態では、発話スタイル入力部601と音響属性ベクトル生成部605aは、音響的特徴を示す入力音響属性情報(音響属性ベクトル)を取得する音響属性取得手段として構成されている。
発話スタイル制御部308は、音響属性ベクトルにしたがって音声合成パラメータを変形するための変形情報を生成する。
パターン検索部307bは、音響属性ベクトルと感情ベクトルとに従って感情データベース306を検索し、検索条件に最も近い感情表出パターンを抽出する。
なお、本実施の形態では、パターン検索部307bは、上述の感情パターン保持手段に保持されている複数の感情パターンから、入力音響属性情報および入力感情情報に近い内容を示す音響属性情報および感情情報を有する感情パターンを検索して抽出するパターン検索手段として構成されている。
意味クラス・属性付き辞書608は、表記、読み、および品詞等の、読み、アクセント、および区切記号を決定するための情報に加え、単語の属する意味クラスと、単語の言語属性ベクトル(内容語属性と機能語属性)とを保持する。
なお、本実施の形態では、意味クラス・属性付き辞書608は、文を構成するための各構成単位(形態素)、およびその各構成単位の言語属性を記憶している属性記憶手段として構成されている。
構文データベース609は、品詞列と意味クラスとのパターンを構文として記録したデータを有する。なお、本実施の形態では、構文データベース609は、複数の構文を記憶している構文記憶手段として構成されている。
文生成部610は、内容語入力部603から出力された文意を示す内容語列に基づき、意味クラス・属性付き辞書608と構文データベース609とを参照し、言語属性ベクトルに合致した文(テキスト)を生成する。さらに、文生成部610は、その文の構文を示す構文情報と、その文を構成する各形態素を示す形態素情報とを生成して、文、構文情報および形態素情報を出力する。
なお、本実施の形態では、文生成部610は、上述のパターン検索手段により抽出された感情パターンに含まれる言語属性情報に基づいて、文を構成するための構成単位の選択を行うことにより、前記言語属性情報の示す言語属性を有するテキストを生成するテキスト生成手段として構成されている。つまり、このテキスト生成手段は、上述の属性記憶手段に記憶されている言語属性に基づいて、属性記憶手段から選択された1つまたは複数の構成単位の全体的な言語属性が、前記パターン検索手段により抽出された感情パターンの言語属性情報の示す言語属性に近くなるように、前記属性記憶手段から1つまたは複数の構成単位を選択する。
読み記号生成部611は、文生成部610より出力される構文情報と形態素情報とに基づいて、読み、アクセント、および区切を示す読み情報を生成する。
音声合成部309は、読み情報に従って音声合成パラメータを生成し、さらに、変形情報に従ってその音声合成パラメータを変形し、変形した音声合成パラメータに基づいて音声波形を生成する。
なお、本実施の形態では、音声合成部309は、上述の入力音響属性情報に基づいて、生成されたテキストに対して音声合成を行うことにより、その入力音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成手段として構成されている。
音声出力部310は、音声合成部309によって生成された音声波形を示す合成音声を出力する。
せりふ表示部612は、文生成部610で生成されたテキスト(せりふ)を表示する。
図17は、本実施の形態における発話スタイル入力部601を示す図である。
発話スタイル入力部601は、例えば図17に示すように、使用者によるスライダのスライド操作に基づいて、音声の音響的特徴に現れる年齢と性別(女性らしさと男性らしさ)を発話スタイルの一部として取得し、さらに、使用者による選択操作に基づいて、例えば、ラジオニュース風や、販売トーク風などの声の調子や話し方の特徴を、発話スタイルの一部として取得する。
図18は、変換テーブル格納部604に格納されている変換テーブルを示す図である。
変換テーブル格納部604に格納されている変換テーブルは、例えば図18に示すように、性別(男性らしさや女性らしさ)と年齢と話し方などの各発話スタイルと、その発話スタイルに応じた音響属性ベクトルとを関連付けている。
例えば、性別のレベルが「1」の男性らしい、年齢のレベルが「2」で少年の、ラジオニュース風の発話スタイルには、音響属性ベクトル(平均ピッチ、ピッチダイナミックレンジ、声門開放度、スペクトル傾斜、文末ピッチ変動、ポーズ頻度)=( -1, 0, 0, 0, -2, 0)が関連付けられている。
ここで、変換テーブルに示される平均ピッチは、主に性別で決定された上に年齢による調整が行われ、ピッチダイナミックレンジは、性別と話し方によって設定され、声門開放度は、話し方で決定される。なお、本実施の形態では変換テーブルを用意しておくものとしたが、性別と年齢で平均ピッチを設定し、ピッチダイナミックレンジを性別と話し方によって設定し、声門開放度を話し方によって決定するためのルールを持ち、そのルールに従って発話スタイルから音響属性ベクトルの各要素の値を算出してもよい。
図19は、意味クラス・属性付き辞書608に含まれるデータの内容を示す図である。
意味クラス・属性付き辞書608は、上述のように、表記、読み、および品詞等の、読み、アクセント、および区切記号を決定するための情報に加え、単語の属する意味クラスと、単語の言語属性ベクトル(内容語属性と機能語属性)とを保持する。例えば、意味クラス・属性付き辞書608は、「美しい」に対して、読み「うつくしい」、品詞「形容詞」、活用型「形容詞型」、意味クラス「美的高価値」、および言語属性ベクトル(内容語属性)=( 1, 1, 2, 2)を保持している。したがって、意味クラス・属性付き辞書608を参照すれば、単語の意味クラスや言語属性ベクトルなどを特定することができる。また、このような意味クラス・属性付き辞書608は、上述のような意味クラスによって、各構成単位たる形態素を複数のクラスに分けて記憶している。
図20は、構文データベース609に含まれるデータの内容を示す図である。
構文データベース609は、例えば、図20に示すように、文を構成する内容語の意味クラスに対して、その内容語の意味クラスに合致する構文を関連付けて示す。図21中の括弧で囲まれた部分は、1つの内容語あるいは機能語である単語、あるいは1つの句を示し、小括弧で囲まれた部分は付加可能な機能語を示している。
図21は、本実施の形態における音声合成装置600の動作を示すフローチャートである。
音声合成装置600は、まず、使用者による発話スタイル入力部601に対する操作に基づいて、使用者が音響的特徴として表現しようとする発話スタイルを取得する。さらに、音声合成装置600は、使用者による感情入力部302に対する操作に基づいて、実施の形態1と同様に、言語的内容と音響的特徴をあわせた音声全体で使用者が表現あるいは伝達しようとする感情や意図あるいは社会的関係等を取得する。さらに、音声合成装置600は、使用者による内容語入力部603に対する操作に基づいて、使用者が音声として出力しようとする文意を示す内容語の列を取得する(ステップS601)。例えば、発話スタイル入力部601は、使用者によるスライド操作に基づいて、性別のレベルとして「5」(非常に女性らしい)と、年齢のレベルとして「2」(やや若い)とを取得し、使用者による選択操作に基づいて、口調「高級クラブのママ」を取得する。感情入力部302は、嫌みを表現するための嫌悪「4」、怒り「2」、および喜び「1」を示す感情ベクトルを取得し、さらに、内容語入力部603は、内容語列として、「美しい」「花」および「咲く」を取得する。
音響属性ベクトル生成部605aは、ステップS601で発話スタイル入力部601によって取得された発話スタイルを、変換テーブル格納部604の変換テーブルを参照して、音響属性ベクトルに変換する(ステップS602)。ここでは、年齢と性別と話し方により示される発話スタイルを、平均ピッチ、ピッチダイナミックレンジおよび声門開放度等で示される音響属性ベクトルに変換する。例えば、ステップS601で性別レベル「5」、年齢レベル「2」、および口調「高級クラブのママ」により示される発話スタイルが取得されているため、その発話スタイルは、図18に示す変換テーブルに従い、平均ピッチが「1」、ピッチダイナミックレンジが「2」、声門開放度が「2」、スペクトル傾斜が「1」、文末ピッチ変動が「2」、ポーズ頻度が「1」という音響属性ベクトルに変換される。
次に、発話スタイル制御部308は、ステップS602で設定された音響属性ベクトルに従って、実施の形態1と同様に、標準音声の音声合成パラメータに対する変形量を設定し、その変形を示す変形情報を生成する(ステップS307)。
一方、パターン検索部307bは、ステップS601で取得された感情ベクトルと、ステップS602で生成された音響属性ベクトルを検索キーとして扱い、感情データベース306を検索する(ステップS603)。そして、パターン検索部307bは、感情データベース306内の検索キーに最も近い感情表出パターンを特定する。パターン検索部307bは、その特定された感情表出パターンから、合成する音声のせりふの言語属性ベクトルを抽出する(ステップS604)。ここでは、例えば図5に示すように、喜び「1」、嫌悪「4」、および怒り「2」を含む感情ベクトルと、平均ピッチ「1」、ピッチダイナミックレンジ「2」、声門開放度「2」、スペクトル傾斜「1」、文末ピッチ変動「2」、およびポーズ頻度「1.5」を含む音響属性ベクトルとを有する感情表出パターンが、最も近い感情表出パターンとして抽出される。そして、抽出された感情表出パターンからは、丁寧さ「2」、上昇下降「1.5」、賞罰「2」、および美醜「1」を含む言語属性ベクトルが抽出される。
文生成部610は、意味クラス・属性付き辞書608を参照して、ステップS601で内容語入力部603によって取得された内容語列に含まれる内容語の意味クラスを特定し、同一の意味クラスに属する単語とその言語属性ベクトルを抽出する。各意味クラスに属する単語群より単語を抽出し、文を構成する単語の組み合わせとして、ステップS604で抽出された言語属性ベクトルに最も近くなる組み合わせを選択する。ここでは内容語列に含まれる内容語が「美しい」「花」「咲く」であるため、文生成部610は、意味クラス・属性付き辞書608を参照することにより、それぞれの内容語と同一の意味クラスを持つ単語を取得する。例えば、「美しい」の意味クラスは「美的高価値」であり、同一意味クラスを持つ単語には、図19に示すように、「美しい」、「お美しい」、「きれいな」および「おきれいな」がある。また、「花」の意味クラスは「花」であり、同一意味クラスを持つ単語とには、図19に示すように、「花」および「お花」がある。また、「咲く」の意味クラスは「開花」であり、同一意味クラスを持つ単語には、図19に示すように、「開花する」、「咲く」、「開く」、および「ほころぶ」がある。文生成部610は、各意味クラスより1単語ずつ取り出し、各言語属性ベクトルの平均と、ステップS604で抽出された言語属性ベクトルに含まれる丁寧さ「2」、上昇下降「1.5」、賞罰「2」および美醜「1」とを比較する。その結果、文生成部610は、差の最も小さい組み合わせは、「おきれいな」、「お花」および「咲く」の組み合わせであると判断する。
さらに、文生成部610は、構文データベース609を参照し、内容語列に含まれる単語の意味クラスよりなる意味クラス列を文として成立させるための構文を抽出する。そして、文生成部610は、ステップS604で抽出した言語属性ベクトルに最も近くなる組み合わせの単語を、構文データベース609より抽出した構文の意味クラス列に当てはめることで、内容語列に合致する文意を持ち、ステップS604で抽出された言語属性ベクトルを実現する文を生成する。文生成部610は、このように生成されたテキストを出力するとともに、生成した文の構文情報と形態素情報とを出力する(ステップS605)。
上述の例では、入力された内容語の意味クラスは「美的高価値」、「花」および「開花」であるので、図20に示す構文データベース609のデータの中から、意味クラスの一致する「[美的高価値:主部修飾] [花:主部] [主格] [開花:述部] (丁寧) [過去・完了](強調)」を抽出する。この構文に、ステップS604で決定された「おきれいな」、「お花」、および「咲く」を当てはめ[主格]、[過去・完了]の機能語を補うと、「[美的高価値:主部修飾]=おきれいな [花:主部]=お花 [主格]=が [開花:述部]=咲く (丁寧) [過去・完了]=た(強調)」となり、動詞の活用を行って、「おきれいなお花が咲いた」という文が得られる。
このように、本実施の形態では、文生成部610たるテキスト生成手段は、上述の属性記憶手段から上述の複数のクラスに従って、上述の内容語取得手段により取得された内容語に応じた構成単位(形態素)の選択を行い、選択された構成単位を、上述の構文記憶手段に記憶されている何れかの構文に当てはめることによりテキストを生成する。
なお、ここでは、内容語の言語属性ベクトルの平均が文全体の言語属性ベクトルに合うように単語を選択したが、構文データベース609の構文に機能語の言語属性ベクトルが付与されていれば、意味クラス列より構文を選択した後に、内容語の言語属性ベクトルと、構文データに含まれる機能語の言語属性ベクトルをあわせて、全体の言語属性ベクトルを計算して、その計算された言語属性ベクトルが、ステップS604で抽出した言語属性ベクトルに近づくように、同一意味クラスに属する単語から、使用する単語を選択してもよい。
読み記号生成部611は、ステップS605で出力された構文情報と形態素情報より、読み、アクセント、および区切を示す読み情報を生成する(ステップS606)。
一方、せりふ表示部612は、ステップS605で生成された文のテキストを文字列として画面表示あるいは印字により表示する(ステップS607)。
音声合成部309は、実施の形態1と同様に、ステップS606で生成された読み情報に基づき、標準発話スタイルでの韻律パターンを生成し(ステップS308)、ステップS307で生成された変形情報のうち、韻律変形情報に基づいてその韻律パターンを変形する(ステップS309)。
さらに、音声合成部309は、ステップS606で生成された読み情報と、ステップS309で変形された韻律パターンとに基づいて、標準発話スタイルの声質での音声合成パラメータを選択し(ステップS310)、ステップS307で生成された変形情報のうち声質パラメータ変形情報に基づいて、その音声合成パラメータの声質パラメータを変形する(ステップS311)。音声合成部309は、ステップS311で変形された音声合成パラメータ列に基づき音声波形を生成する(ステップS312)。音声出力部310は、ステップS312で生成された音声波形を音声として出力する(ステップS313)。
かかる構成によれば、入力された発話スタイルを実現する音響属性ベクトルと入力感情(感情ベクトル)とにしたがって、感情表出パターンを選択し、文生成部610で、選択された感情表出パターンに含まれる言語属性ベクトルに従って文を生成する。これにより、入力された感情を、入力された発話スタイルと言語表現との組み合わせによって表現することのできる文、すなわちせりふを生成して音声を合成することができる。使用者の入力に対して、本実施の形態の音声合成装置600内部で文生成を行うことで、合成する音声の印象を音声の言語内容の印象と、音響的特徴による印象と、その両者の組み合わせによって決まる音声全体での印象とを制御することができる。すなわち、嫌味や皮肉、あるいは嘲笑のように、言語的内容と音響的特徴による表現あるいは印象が一致しない複雑な感情や表情を表現する音声を合成することができる。あるいは、音響的特徴の印象と言語表現の印象とが重なって極端な印象を与えることによって表現されるような複雑な感情や表情を表現する音声を合成することができる。同一のテキストであっても表現したい感情に合わせて自動的に音響的特徴を制御して音声全体としてはまったく異なる感情を表現し分けることができる。
図22は、実施の形態2において使用者の入力と、音声合成装置600の内部状態と、出力された合成音声が与える印象とをそれぞれ対比して示す図ある。
図22の行L2201に示すように、比較的若い女性で高級クラブのママ風という丁寧さや親しみを印象付ける発話スタイルを指定しても、「嫌み」を表す「嫌悪4+怒り2+喜び1」の入力感情(感情ベクトル)に対しては、「おきれいな・・・」というテキストが生成され、過剰な丁寧さによる嫌みな表現がなされる。
逆に、行L2202に示すように、「喜び5」の入力感情に対しては、「きれいな花が咲いた。」という、言語内容としては丁寧さや賞罰の属性を抑えたテキストが生成され、音声全体として喜びを表現するように制御される。
本実施の形態では、実施の形態1と異なり、入力テキストを必要としないため、詳細にせりふを決定しておく必要がなく、キャラクタ設定、ストーリー、場面等から各キャラクタに合ったせりふを都度生成して音声出力することができる。そのため、ゲームソフトのキャラクタの音声をあらかじめ録音しておく必要がなく、膨大な音声データの録音や蓄積をする必要がないばかりか、あらかじめ原稿を用意する必要もないため、ゲームやアニメ、あるいは吹き替え音声を作成する際の労力を大幅に削減しうる。
さらには、ゲーム機あるいはゲームソフトに本実施の形態を組み込めば、ゲームのプレーヤが設定したキャラクタにあわせてせりふを生成して音声を出力することができるため、録音あるいは蓄積された音声では対応不可能な任意のキャラクタによるせりふの音声出力が可能になる。
このように、本実施の形態では、感情データベース306の各感情表出パターンにはそれぞれ、言語属性ベクトルと、音響属性ベクトルと、それらによって表現される感情ベクトルとが関連付けられおり、入力された発話スタイルの音響属性ベクトルおよび入力された感情ベクトルに近い内容を有する感情表出パターンが抽出され、その感情表出パターンに含まれる言語属性ベクトルの示す言語属性を有するテキストが生成される。したがって、使用者が合成音声全体で表現しようとする感情を示す感情ベクトルが感情入力部302に入力され、使用者の所望の音響的特徴を示す発話スタイルが発話スタイル入力部601によって取得されたときには、使用者の所望の音響的特徴と、使用者が合成音声全体で表現しようとする感情とに応じた言語属性を有するテキストを適切に生成することができる。さらに、そのテキストに対して音声合成を行って、使用者の所望の音響的特徴を有する合成音声が生成されるため、合成音声の言語属性、合成音声の音響的特徴、および入力された感情を、感情表出パターンで関連付けられた言語属性、音響的特徴、および感情に近づけることができ、その結果、合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようとする感情との相互の関連性を適切に保つことができる。
なお、本実施の形態では、ステップS605において、入力された内容語と同一意味クラスの単語を抽出し、それらの単語による言語属性ベクトルが、ステップS604で抽出した言語属性ベクトルに最も近くなるよう、それぞれの内容語に対応する単語を決定し、その後に構文を選択して文を生成したが、内容語より構文を選択した後に、それぞれの内容語に対応する単語を決定しても良い。
なお、本実施の形態では、ステップS605において、入力された内容語と同一意味クラスの単語を抽出し、それらの単語による言語属性ベクトルが、ステップS604で抽出した言語属性ベクトルに最も近くなるよう、それぞれの内容語に対応する単語を決定し、その後に構文を選択して文を生成した。しかし、構文データベース609中の機能語について機能語属性を記録しておき、言語属性ベクトルを内容語の組み合わせのみで制御するのではなく、内容語の組み合わせと機能語による補完と強調による制御を含めて最適な単語と構文の組み合わせを採用するものとしても良い。
なお、本実施の形態では、内容語入力部603が使用者の操作に応じて内容語を取得したが、ストーリー展開、場面、登場人物設定等のシナリオから、生成しようとするせりふの内容語あるいは意味クラスを決定して取得してもよい。このような場合、音声合成装置600は、さらに、シナリオを取得するシナリオ取得手段を備え、テキスト生成手段たる文生成部610は、そのシナリオ取得手段に取得されたシナリオに合ったテキストを生成する。
(実施の形態3)
本実施の形態における音声合成装置は、感情データベースを用いて、音響属性ベクトルおよび言語属性ベクトルに応じた感情ベクトルを生成し、さらに、この感情ベクトルの示す感情を表示する点に特徴がある。
図23は、本実施の形態における音声合成装置の機能ブロック図である。図23において、図1および図16と同じ構成要素については同じ符号を用い、説明を省略する。
本実施の形態における音声合成装置700は、発話スタイル入力部601と、テキスト入力部301と、言語解析部304と、属性付き辞書303と、変換テーブル格納部604と、音響属性ベクトル生成部605aと、言語属性解析部305と、感情データベース306と、パターン検索部307cと、発話スタイル制御部308と、音声合成部309と、感情表示部701と、音声出力部310とを備えている。ここで、テキスト入力部301、属性付き辞書303、言語解析部304、言語属性解析部305、音声合成部309、および音声出力部310は、図1に示す同一符号が付された構成要素と同じであり、発話スタイル入力部601、変換テーブル格納部604、および音響属性ベクトル生成部605aは、図16に示す同一符号が付された構成要素と同じである。感情データベース306は、図1および図16に示す同一符号が付された構成要素と同じである。
パターン検索部307cは、音響属性ベクトルと言語属性ベクトルとに従って感情データベース306を検索し、検索条件に最も近い感情表出パターンを抽出する。そして、パターン検索部307cは、さらに、その感情表出パターンから感情ベクトルを抽出して感情表示部701に出力する。
感情表示部701は、パターン検索部307cから出力された感情ベクトルの示す感情を表示する。即ち、感情表示部701は、使用者によって入力された発話スタイルと入力テキストの組み合わせによって、言語的内容と音響特徴とをあわせた音声全体でどのような感情を表現することになるのかを表示する。
図24は、本実施の形態における音声合成装置700の動作を示すフローチャートである。
音声合成装置700は、まず、使用者によるテキスト入力部301に対する操作に基づいて、使用者が音声に変換しようとする入力テキストを取得し、さらに、実施の形態2と同様に、使用者による発話スタイル入力部601に対する操作に基づいて、使用者が音響的特徴として表現しようとする発話スタイルを取得する。(ステップS701)。
言語解析部304は、ステップS701で取得された入力テキストを、実施の形態1と同様に、属性付き辞書303を参照することにより形態素に分割し、分割された各形態素について、属性付き辞書303に記憶されている形態素の言語属性ベクトルを抽出する(ステップS302)。さらに、言語解析部304は、構文解析を行い、文節の決定、文節間の係り受けの解析等の構文解析を行って、フレーズおよびアクセント句を決定し、読みとアクセント位置と区切り位置を決定する(ステップS303)。次に、言語属性解析部305は、言語解析部304で抽出された形態素ごとの言語属性ベクトルを、1文単位の言語属性ベクトルにまとめる(ステップS304)。
一方、音響属性ベクトル生成部605aは、ステップS701で発話スタイル入力部601によって取得された発話スタイルを、変換テーブル格納部604の変換テーブルを参照することにより、音響属性ベクトルに変換する(ステップS602)。発話スタイル制御部308は、ステップS602で設定された音響属性ベクトルに従って、実施の形態1と同様に、標準発話スタイルの音声合成パラメータの変形量を設定し、その変形を示す変形情報を生成する(ステップS307)。
パターン検索部307cは、ステップS304で生成された言語属性ベクトルと、ステップS602で生成された音響属性ベクトルを検索キーとして扱い、感情データベース306を検索する(ステップS703)。そして、パターン検索部307cは、感情データベース306内の検索キーに最も近い感情表出パターンを特定し、その感情表出パターンから、合成する音声が全体として表出する感情ベクトルを抽出する(ステップS704)。
感情表示部701は、ステップS704で抽出された感情ベクトルの示す感情を画面表示あるいは印刷により表示する(ステップS705)。
一方、音声合成部309は、ステップS303で生成された読みとアクセント位置と区切り位置とを示す読み情報を取得し、音声合成部309の韻律生成部311は、規則に基づき標準発話スタイルもしくは無表情の音声の韻律パターンを生成する(ステップS308)。
次に、韻律変形部312は、ステップS307で生成された変形情報のうち、韻律変形情報にしたがって、ステップS308で生成された標準発話スタイルの韻律パターンを変形して、ステップS602で生成された音響属性ベクトルに合致した韻律パターンを生成する(ステップS309)。
パラメータ選択部314は、ステップS303で生成された読み情報と、ステップS309で生成された変形済みの韻律パターンとに基づいて、その読み情報および韻律パターンに応じた素片の音声合成パラメータを、パラメータ素片データベース313から選択することで、標準的声質での音声合成パラメータを生成する(ステップS310)。
さらに、声質パラメータ変形部315は、ステップS307で生成された変形情報のうち声質パラメータ変形情報に従って、ステップS310で生成した音声合成パラメータの声質パラメータを変形する(ステップS311)。即ち、声質パラメータ変形部315は、ステップS310で生成された標準的声質の音声合成パラメータを、ステップS602で生成された音響属性ベクトルに合致した声質を実現するパラメータに変形する。波形生成部316は、声質パラメータ変形部315で生成された音声合成パラメータに基づき音声波形を生成し(ステップS312)、音声出力部310は、その音声波形を示す合成音声を出力する(ステップS313)。
図25は、感情表示部701によって表示される画面を示す図である。
感情表示部701は、図25に示すように、ブルチックの情動のモデルに基づく基本感情の8つの感情を軸としたレーダーチャートを画面表示する。なお、このようなレーダーチャートを印刷により表示してもよい。
また、本実施の形態では、レーダーチャートにより感情を表示したが、図3に示すように、スライダの動きによって感情を表示してもよく、感情を示す数値やレベルを表示してもよい。さらには、各々の基本感情の値に応じて変化する、顔画像の表情や、全身画像の姿勢または動作を含めた表情を、表示してもよい。また、基本感情の組み合わせパターンと、複雑な感情を表す言語表現とを対応付けるテーブルを用いることにより、嫌みや、ねたみ、嘲笑、泣き笑い等々、をテキストにより表示してもよい。
かかる構成によれば、入力された発話スタイルを実現する音響属性ベクトルと、入力されたテキストの言語属性ベクトルとに従って、感情表出パターンを選択し、その感情表出パターンから音声全体で表現される感情を特定する。これにより、入力されたテキストを、入力された発話スタイルの合成音声として出力するだけでなく、その合成音声が言語的内容と音響的印象とを含む音声全体として一般的にはどのような感情を表現あるいは伝達するものになるかを明確に示すことができる。
また、音声の言語的内容と発話スタイルとが逆の感情や相容れない感情を表す場合には、音声全体に対して複雑で魅力的な表現が期待できる。しかし、従来では、生成される合成音声を聞いてみるまでその合成音声がどのような感情を表現するものかわからなかった。
本実施の形態によれば、合成音声を出力する以前にその合成音声が表出する感情を確認することができ、合成音声によって予想外の感情を表出してしまうことを避けることができる。さらに、テキストあるいは発話スタイルを調整して合成音声を聞き比べることで、使用者が求める感情に近い感情が合成音声から表現されるかどうかを感情表示によって確認することができる。その結果、コンテンツの作成等においては効率よく作業を進めることができる。
(実施の形態4)
本実施の形態における音声合成装置は、実施の形態1〜3の機能をあわせて有する点に特徴がある。
図26は、本実施の形態における音声合成装置の機能ブロック図である。図26において、図1、図16、図23と同じ構成要素については同じ符号を用い、説明を省略する。
本実施の形態の音声合成装置800は、重み入力部801と、重み制御部802と、パターン選択部803と、文変換部804と、表示部810と、選択入力部811と、感情入力部302と、パターン検索部307bと、感情データベース306と、発話スタイル入力部601と、音響属性ベクトル生成部605bと、テキスト入力部301と、言語解析部304と、言語属性解析部305と、意味クラス・属性付き辞書608と、発話スタイル制御部308と、読み記号生成部611と、音声合成部309と、音声出力部310とを備えている。
表示部810は、音声出力部310から出力される合成音声の言語内容をテキストで表示するとともに、合成音声全体として表現される感情を表示する。つまり、表示部810は、テキストと感情の組を1つまたは複数個表示する。
図27は、表示部810に表示される内容を示す図である。
表示部810は、文変換部804からの制御に基づいて、上述のように感情とテキストの組を1つまたは複数個表示する。例えば、表示部810は、感情「怒り2、嫌悪4、喜び1」とテキスト「きれいな花が開花しましたね」の組と、感情「怒り2、嫌悪4、喜び1」とテキスト「美しいお花が咲きました」の組とを表示する。
選択入力部811は、表示部810に表示された1つまたは複数の組から、使用者による操作に基づいて何れか1つを選択して、その選択された組に含まれるテキストを音声出力するように音声出力部310に指示する。
音響属性ベクトル生成部605bは、発話スタイル入力部601により取得された発話スタイルを、ルールに従って音響属性ベクトルに変換する。
図28は、音響属性ベクトル生成部605bのルールを説明するための図である。
例えば、音響属性ベクトル生成部605bは、図28の(a)および(b)に示すように、音響属性ベクトルの要素「平均ピッチ」に対しては、発話スタイルの年齢が増加するに伴って、その平均ピッチが下がり、発話スタイルの性別が男性らしさから女性らしさへ強まるに従って、その平均ピッチが上昇するようなルールを有する。音響属性ベクトル生成部605bは、このようなルールに従って、音響属性ベクトルの要素「平均ピッチ」に対する値を決定する。
また、音響属性ベクトル生成部605bは、図28の(c)に示すように、音響属性ベクトルの要素「ピッチダイナミックレンジ」に対しては、発話スタイルの性別が男性らしさから女性らしさへ強まるに従って、そのピッチダイナミックレンジが上昇して最大となり、その後、小さくなるようなルールを有する。音響属性ベクトル生成部605bは、このようなルールに従って、音響属性ベクトルの要素「ピッチダイナミックレンジ」に対する値を決定する。
重み入力部801は、使用者による操作に基づいて、テキスト入力部301、感情入力部302、および発話スタイル入力部601によってそれぞれ取得された入力テキスト、感情ベクトルおよび発話スタイルに対する重みを取得する。具体的には、重み入力部801は、入力テキストに対する言語属性ベクトルの重みと、感情ベクトルの重みと、発話スタイルに対する音響属性ベクトルの重みとを取得する。このような重みは、例えば重みが大きいほど、入力テキスト、感情ベクトルまたは発話スタイルに対して、変形量を少なくすべきことを示し、重みが小さいほど、その入力テキスト、感情ベクトルまたは発話スタイルに対して、大きな変形が許可されることを示す。
重み制御部802は、重み入力部801によって取得された感情ベクトル、音響属性ベクトル、および言語属性ベクトルに対する重みに従って、それらのベクトルに対する変形許容度を指定するための重み信号をパターン検索部307dに出力する。
パターン選択部803は、パターン検索部307dによって複数の感情表出パターンが抽出された際に、いずれか1つの感情表出パターンを選択する。
文変換部804は、テキスト入力部301によって取得された入力テキストを、パターン選択部803の出力結果に従って変形する。
なお、本実施の形態では、文変換部804は、上述のパターン検索手段たるパターン検索部307dにより抽出された感情パターンに含まれる言語属性情報に基づいて、入力テキストを変形することにより、その言語属性情報の示す言語属性を有する変形テキストを生成するテキスト変形手段として構成されている。
図29は、本実施の形態における音声合成装置800の動作を示すフローチャートである。
音声合成装置800は、まず、使用者によるテキスト入力部301に対する操作に基づいて、使用者が音声に変換しようとする入力テキストを取得し、実施の形態1と同様に、使用者による感情入力部302に対する操作に基づいて、使用者が音声によって表現あるいは伝達しようとする感情を感情ベクトルとして取得する。さらに、音声合成装置800は、実施の形態2と同様に、使用者による発話スタイル入力部601に対する操作に基づいて、使用者が音響的特徴として表現しようとする発話スタイルを取得する(ステップS801)。また、使用者は、重み入力部801に対して、テキスト、感情、および発話スタイルのそれぞれの重みを入力する。つまり、重み入力部801は、使用者による操作に基づいて、上述の各情報に対する重みを取得して、その重みの順位を重み制御部802に指定する(ステップS802)。なお、ステップS801とステップS802の順序は逆であっても良い。
言語解析部304は、ステップS801で取得された入力テキストを、実施の形態1と同様、意味クラス・属性付き辞書608を参照することにより、形態素に分割し、分割された各形態素について、意味クラス・属性付き辞書608に記憶されている形態素の言語属性ベクトルを抽出する(ステップS302)。
さらに、言語解析部304は、構文解析を行い、文節の決定、文節間の係り受けの解析等の構文解析を行い、フレーズおよびアクセント句を決定し、読みとアクセント位置と区切り位置とを決定する(ステップS303)。
次に、言語属性解析部305は、言語解析部304で決定された形態素ごとの言語属性ベクトルを1文単位の言語属性ベクトルにまとめる(ステップS304)。
一方、音響属性ベクトル生成部605bは、ステップS801で発話スタイル入力部601によって取得された発話スタイルを、あらかじめ定められたルールにより音響属性ベクトルに変換する(ステップS803)。
重み制御部802は、ステップS802で重み入力部801によって指定されたテキスト、感情、および発話スタイルの3つの情報に対しする重みの順位(優先順位)に従って、テキスト、感情、および発話スタイル、即ち、言語属性ベクトル、感情ベクトル、および音響属性ベクトルのそれぞれに対する変形許容度を決定する。そして、重み制御部802は、それらに対する変形許容度を示す重み信号を出力する(ステップS804)。
例えば、ステップS802で重み入力部801によって指定された優先順位が「1:感情、2:発話スタイル、3:テキスト」であった場合、重み制御部802は、あらかじめ定められたルールに従って、テキスト、感情、および発話スタイルに対する変形許容度を決定する。
ルールでは、例えば、感情(感情ベクトル)に対して、優先順位が1の時は、その感情に対する変形を全く認めない変形許容度「0」が決定され、優先順位が2の時は、基本感情の比を変更しない範囲で変形を認める変形許容度「1」が決定され、優先順位が3の時は、各基本感情の大小関係のみが維持されている範囲で変形を認める変形許容度「2」が決定される。また、発話スタイル(音響属性ベクトル)に対して、優先順位が1の時は、その音響属性ベクトルに対する変形を全く認めない変形許容度「0」が決定され、優先順位が2の時は、その音響属性ベクトルのうち韻律に対する変形を認めず、声質に対する任意の変形を認める変形許容度「1」が決定される。また、テキスト(言語属性ベクトル)に対して、優先順位が1の時は、その言語属性ベクトルに対する変形を全く認めない変形許容度「0」が決定され、優先順位が2の時は、機能語の変形を認めず、内容語の同一意味クラス内での変形を認める変形許容度「1」が決定され、優先順位が3のときは、内容語の同一意味クラス内での変形を認め、機能語の同一機能内で変更を認め、全体強調機能を持つ機能語については削除を認める変形許容度「2」が決定される。
このようなルールに従った場合、重み制御部802は、優先順位「1:感情、2:発話スタイル、3:テキスト」に対して、感情(感情ベクトル)に対しては変形許容度「0」、発話スタイル(音響属性ベクトル)に対しては変形許容度「1」、テキスト(言語属性ベクトル)に対しては変形許容度「2」を設定する。
パターン検索部307dは、ステップS801で取得された感情ベクトルと、ステップS304で生成された言語属性ベクトルと、ステップS803で生成された音響属性ベクトルとを検索キーとして扱い、感情データベース306を検索する。このとき、パターン検索部307dは、まず、感情ベクトル、言語属性ベクトル、および音響属性ベクトルに変形を加えることなく、感情データベース306から、これらのベクトルを含む感情表出パターンを見つけ出そうとする。しかし、感情データベース306内に、それらのベクトルの組み合わせに合致する感情表出パターンがない場合は、パターン検索部307dは、ステップS804で生成した変形許容度に従って上記各ベクトルを変形し、検索範囲を広げて検索を行う(ステップS805)。例えば、感情ベクトルに対する変形許容度は「0」であり、音響属性ベクトルに対する変形許容度は「1」であり、言語属性ベクトルに対する変形許容度は「2」である。そして、感情ベクトルは「怒り2、嫌悪4、喜び1」を示し、テキスト「きれいな花が咲きましたね」の言語属性ベクトルは「丁寧さ0.5、上昇下降1.5、賞罰1.5、美醜2」を示し、発話スタイル「男性的、若い年齢、やくざ風」の音響属性ベクトルは「平均ピッチ−1、ピッチダイナミックレンジ−1、声門開放度−2、スペクトル傾斜2、文末ピッチ変動2、ポーズ頻度2」である。このような場合、パターン検索部307dは、感情ベクトルを変形せず、音響属性ベクトルのうち韻律に関わる「平均ピッチ−1、ピッチダイナミックレンジ−1、文末ピッチ変動2、ポーズ頻度2」は変形しない条件で、図5に示す感情データベース306の複数の感情表出パターンから、言語属性ベクトルが「丁寧さ2、上昇下降1.5、賞罰1.5、美醜1.5」または「丁寧さ2、上昇下降1.5、賞罰2、美醜1.5」である感情表出パターンを見つけ出して抽出する。
なお、本実施の形態では、パターン検索部307dは、上述の感情パターン保持手段たる感情データベース306に保持されている複数の感情パターンから、上述の入力音響属性情報および入力感情情報に近い内容を示す音響属性情報および感情情報を有する感情パターンを検索して抽出するパターン検索手段として構成されている。
パターン選択部803は、ステップS805で1つ以上抽出された感情表出パターンから1つの感情表出パターンを選択し(ステップS806)、実施の形態1と同様に、発話スタイル制御部308は、その感情表出パターンに含まれる音響属性ベクトルを抽出して(ステップS306)、変形情報を生成する(ステップS307)。例えば、音響属性ベクトル「平均ピッチ−1、ピッチダイナミックレンジ−1、声門開放度−1、スペクトル傾斜0、文末ピッチ変動2、ポーズ頻度2」が抽出された場合、発話スタイル制御部308は、標準発話スタイルからの変化比率として、平均ピッチを0.9倍、ピッチダイナミックレンジを0.8倍、声門開放度を0.9倍、スペクトル傾斜を1.0倍、文末ピッチの変動を1.5倍、ポーズ頻度を1.2倍に変形するような変形情報を生成する。
また、文変換部804は、ステップS806で選択された感情表出パターンに含まれる言語属性ベクトルを抽出して(ステップS807)、入力テキストに合致する文意を持ち、その言語属性ベクトルを実現する文(変形テキスト)を生成し、その変形テキストの構文情報および形態素情報を読み記号生成部611へ出力する(ステップS808)。
例えば、図5に示すように、音響属性ベクトル「平均ピッチ−1、ピッチダイナミックレンジ−1、声門開放度−1、スペクトル傾斜0、文末ピッチ変動2、ポーズ頻度2」を有する感情表出パターンが選択されていれば、文変換部804は、ステップS807において言語属性ベクトル「丁寧さ2、上昇下降1.5、賞罰1.5、美醜1.5」を抽出する。
また、入力テキスト「きれいな花が咲きましたね」は、ステップS302で形態素解析され、ステップS303の構文解析により、「きれいな:主部修飾:美的高価値」、「花:主部:花」、「が:主格」、「咲き:述部:開花」、「まし:丁寧」、「た:完了」、および「ね:全体強調」を示す形態素情報と構文情報と意味クラスが付与される。文変換部804は、これらに基づき、ステップS808では、まず機能語による言語属性ベクトルを、図19に従って特定する。即ち、文変換部804は、「まし」に対する「丁寧1、全体強調0、部分強調0」や、「ね」に対する「丁寧1、全体強調2、部分強調0」を特定し、さらに、それらの平均値に基づいて、補完属性である「丁寧さ0.5」と、強調属性である「全体強調0.5、部分強調0」とを特定する。
これにより、文変換部804は、言語属性ベクトル「丁寧さ2、上昇下降1.5、賞罰1.5、美醜1.5」の各属性の値を、機能語による全体強調分1.5倍で割り、言語属性ベクトル「丁寧さ1.3、上昇下降1、賞罰1、美醜1」を算出する。さらに、文変換部804は、その算出された言語属性ベクトルから、機能語の補完分となる丁寧さ「1」を減算する。その結果、「丁寧さ0.3、上昇下降1、賞罰1、美醜1」が内容語の3語の平均の値となる。このような平均値を有する内容語の組み合わせは、図19の意味クラス・属性付き辞書608中には無いため、文変換部804は、入力テキスト「きれいな花が咲きましたね」を、上述の平均値を満たす内容語の組み合わせに最も近い組み合わせを有する変形テキスト「きれいな花が開花しましたね」に変形する。また、文変換部804は、その変形テキストから全体強調「ね」を削除した場合には、「美しいお花が咲きました」に変換する。
このように本実施の形態では、文変換部804たるテキスト変形手段は、上述の属性記憶手段に記憶されている各言語属性に基づいて、その属性記憶手段に記憶されている構成単位が適用された変形テキストの言語属性が、上述のパターン検索手段により抽出された感情パターンの言語属性情報の示す言語属性に近くなるように、その属性記憶手段に記憶されている構成単位を入力テキストに適用して変形テキストを生成する。また、そのテキスト変形手段は、属性記憶手段から複数のクラス(意味クラス)に従って構成単位を選択して入力テキストに適用する。
読み記号生成部611は、ステップS808で生成された変換後の文の構文情報および形態素情報から、読み情報を生成する(ステップS809)。
音声合成部309は、実施の形態1と同様に、ステップS809で生成された読みとアクセント位置と区切り位置とを示す読み情報を取得し、音声合成部309の韻律生成部311は、規則に基づき標準発話スタイルもしくは無表情の音声の韻律パターンを生成する(ステップS308)。
次に、韻律変形部312は、ステップS307で生成された変形情報のうち、韻律変形情報にしたがって、ステップS308で生成された標準発話スタイルの韻律パターンを変形して、ステップS306で抽出された音響属性ベクトルに合致した韻律パターンを生成する(ステップS309)。
パラメータ選択部314は、ステップS809で生成された読み情報と、ステップS309で生成された変形済みの韻律パターンとに基づいて、その読み情報と韻律パターンに応じた素片の音声合成パラメータをパラメータ素片データベース313から選択することで、標準的声質での音声合成パラメータを生成する(ステップS310)。
さらに、声質パラメータ変形部315は、ステップS307で生成された変形情報のうち声質パラメータ変形情報に従って、ステップS310で生成した音声合成パラメータの声質パラメータを変形する(ステップS311)。波形生成部316は、声質パラメータ変形部315で生成された音声合成パラメータに基づき音声波形を生成する(ステップS312)。
なお、本実施の形態では、発話スタイル制御部308と音声合成部309とからなる音声合成手段は、上述のパターン検索手段たるパターン検索部307dにより抽出された感情パターンに含まれる音響属性情報に基づいて、上述の変形テキストに対して音声合成を行うことにより、その音響属性情報の示す音響的特徴を有する合成音声を生成する。
ここで、音声合成装置800は、ステップS805で抽出された感情表出パターンのうち音声波形を生成していないパターンが残っているか否かを判断する(ステップS809)。音声波形を生成していないパターンが残っていると判断した場合は、音声合成装置800は、ステップS806からステップS312までの動作を繰り返す。一方、ステップS809において音声波形を生成していないパターンが残っていないと判断した場合は、音声合成装置800は、生成されたすべての合成音声の波形について、その合成音声が表出する感情と変換済みテキスト(変形テキスト)とを、表示部810に表示する(ステップS810)。ここで、使用者が選択入力部811を操作して、表示部810に表示された、感情と変換済みテキストから構成される複数の組のうちいずれかを指定する。その結果、選択入力部811は、その指定された組を選択して音声出力部310に指示し、音声出力部310は、その選択された組に対応する合成音声を出力する(ステップS811)。
なお、表示部810と選択入力部811とを一体に構成してもよい。この場合には、表示部810および選択入力部811は、いわゆるタッチパネルとして構成される。そして、表示部810は、例えば図27のように、組の内容が記されたボタンを表示し、選択入力部811は、そのボタンに対する使用者の接触操作に応じて、そのボタンに対応する組を選択する。
かかる構成によれば、重み入力部801で取得された感情、発話スタイル、およびテキストの優先順位により、感情ベクトル、音響属性ベクトル、および言語属性ベクトルに対する変形許容度を設定したうえで、その感情ベクトル、音響属性ベクトル、および言語属性ベクトルにしたがって、感情表出パターンを1つ以上選択する。そして、言語属性ベクトルに対する変形の許容範囲がある場合には、文変換部804で入力テキストを変形し、入力された感情、発話スタイル、テキストに対して、入力どおりの音声が実現不可能な場合にも、優先順位に従って、入力された条件に近い音声を合成し、使用者が音声を聞き比べて好みの音声を決定することができる。
また、合成音声の印象を、音声の言語内容の印象と、音響的特徴による印象と、その両者の組み合わせによって決まる音声全体での印象との3つの属性として捉え、自然音声の分析結果から作成した感情データベース306中に含まれる音響的特徴と言語的属性とのバランスに変更することで、音声として自然な範囲の中で音響的特徴と言語的属性との組み合わせによる音声全体の印象を制御することができる。
すなわち、嫌味や皮肉、あるいは嘲笑のように、言語的内容と音響的特徴とによる表現あるいは印象が一致しない、あるいは音響的特徴の印象と言語表現の印象とが重なって極端な印象を与えることによって表現されるような複雑な感情や表情を表現する音声を合成することができ、同一のテキストであっても表現したい感情に合わせて自動的に音響的特徴を制御して、音声全体としてはまったく異なる感情を表現し分けることができる。
また、言語によって伝えられる意味内容を変更することなく、言語属性のみを変形することにより、標準のせりふから、キャラクタ設定、ストーリ、場面等により各キャラクタに合ったせりふを都度生成して候補となる音声を提示することができる。その結果、ゲーム、アニメ、あるいは吹き替え音声を作成する場面において製作者が大体のイメージと標準的せりふを入力するだけで候補音声が生成され、使用者はイメージに合った音声を選択するだけで音声を生成することができ、音声を作成する際の労力を大幅に削減しうる。さらには、ゲーム機あるいはゲームソフトに本実施の形態を組み込めば、ゲームのプレーヤが設定したキャラクタ設定にあわせてせりふを生成し、プレーヤの好みの音声を出力することができるため、録音あるいは蓄積された音声では対応不可能な任意のキャラクタによるせりふの音声出力が可能になる。
つまり、本実施の形態では、感情データベース306の各感情表出パターンにはそれぞれ、言語属性ベクトルと、音響属性ベクトルと、それらによって表現される感情ベクトルとが関連付けられおり、入力された発話スタイルの音響属性ベクトルおよび入力された感情ベクトルに近い内容を有する感情表出パターンが抽出され、その感情表出パターンに含まれる言語属性ベクトルの示す言語属性を有するように、テキスト入力部301で取得された入力テキストが変形されるため、使用者が合成音声全体で表現しようとする感情を示す感情ベクトルが感情入力部302によって取得され、使用者の所望の音響的特徴を示す発話スタイルが発話スタイル入力部601によって取得されたときには、テキスト入力部301で取得された入力テキストを、使用者の所望の音響的特徴と、使用者が合成音声全体で表現しようとする感情とに応じた言語属性を有する変形テキストに適切に変形することができる。さらに、その変形されたテキストに対して音声合成を行って、抽出された感情表出パターンに含まれる音響属性情報の示す音響的特徴を有する合成音声が生成されるため、合成音声の言語属性、合成音声の示す音響的特徴、および入力された感情を、感情表出パターンで関連付けられた言語属性、音響的特徴、および感情に近づけることができ、その結果、合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようとする感情との相互の関連性を適切に保つことができる。
なお、実施の形態2〜4では、音声合成部309を図2に示す構成としたが、実施の形態1の変形例の図8、図9、あるいは図10のそれぞれに示す構成としてもよい。
なお、実施の形態1および3では、言語解析部304は単一の属性付き辞書303を参照したが、このような辞書を複数個用意して、話者属性、あるいは聴取者属性で切り替えてもよい。
なお、実施の形態2および4では、言語解析部304は単一の意味クラス・属性付き辞書608を参照するものとしたが、多くの翻訳技術に見られるように、ドメイン(話題)にあわせて辞書を複数個用意し、ドメイン(話題)によって辞書を切り替えて使用してもよい。
なお、実施の形態2および4では、言語解析部304は単一の意味クラス・属性付き辞書608を参照するものとしたが、このような辞書を複数個用意し、話者属性、あるいは聴取者属性で切り替えてもよい。また、ドメインとあわせて切り替えてもよい。
なお、実施の形態3および実施の形態4において、入力テキストから言語属性ベクトルを生成した後に、入力された発話スタイルから音響属性ベクトルを生成したが、言語属性ベクトルの生成と音響属性ベクトルの生成は、ステップS703あるいはステップS805で感情表出パターンの検索を行う以前であれば、どのようなタイミングで行われてもよい。
本発明にかかる音声合成装置は、合成音声の言語属性と、合成音声の音響的特徴と、使用者が合成音声全体により表現しようする感情との相互の関連性を適切に保つことができ、例えば、電子メールの読み上げ装置や、音声メール、マルチメディアメールなどに備えられる音声合成装置などに適用することができるとともに、ロボットや電話応答サービス等に使われる音声対話システムに備えられる音声出力装置や、翻訳装置や、アニメのせりふ音声の作成や、映画やドラマの吹き替え音声の作成、ゲームソフトのキャラクタ音声の生成を行なう装置などにも応用できる。
本発明の実施の形態1における音声合成装置の機能ブロック図である。 同上の音声合成部のブロック図である。 同上の感情入力部を示す図である。 同上の属性付き辞書に含まれるデータの内容と、形態素ごとの言語属性ベクトルを示す図である。 同上の感情データベースが格納しているデータの一例を示す模式図である。 同上の音声合成装置の動作を示すフローチャートである。 同上の使用者の入力と、音声合成装置の内部状態と、出力された合成音声が与える印象とをそれぞれ対比して示す図である。 同上の変形例1に係る音声合成部のブロック図である。 同上の変形例2に係る音声合成部のブロック図である。 同上の変形例3に係る音声合成部のブロック図である。 同上の変形例4に係る感情入力部を示す図である。 同上の変形例5に係る音声合成装置の機能ブロック図である。 同上の変形例5に係る音声合成装置の動作を示すフローチャートである。 同上の変形例6に係る音声合成装置の機能ブロック図である。 同上の変形例6に係る音声合成装置の動作を示すフローチャートである。 本発明の実施の形態2における音声合成装置の機能ブロック図である。 同上の発話スタイル入力部を示す図である。 同上の変換テーブル格納部に格納されている変換テーブルを示す図である。 同上の意味クラス・属性付き辞書に含まれるデータの内容を示す図である。 同上の構文データベースに含まれるデータの内容を示す図である。 同上の音声合成装置の動作を示すフローチャートである。 同上の使用者の入力と、音声合成装置の内部状態と、出力された合成音声が与える印象とをそれぞれ対比して示す図ある。 本発明の実施の形態3における音声合成装置の機能ブロック図である。 同上の音声合成装置の動作を示すフローチャートである。 同上の感情表示部によって表示される画面を示す図である。 本発明の実施の形態4における音声合成装置の機能ブロック図である。 同上の表示部に表示される内容を示す図である。 同上の音響属性ベクトル生成部のルールを説明するための図である。 同上の音声合成装置の動作を示すフローチャートである。 従来の音声対話装置のブロック図である。
符号の説明
300,300a,300b 音声合成装置
301 テキスト入力部
302 感情入力部
303 属性付き辞書
304 言語解析部
305 言語属性解析部
306 感情データベース
307a、307b、307c、307d パターン検索部
308 発話スタイル制御部
309 音声合成部
310 音声出力部
311 韻律生成部
312 韻律変形部
313 パラメータ素片データベース
314 パラメータ選択部
315 声質パラメータ変形部
316 波形生成部
325 パラメータ変形部
333 音声素片データベース
334 素片選択部
336 波形接続部
344 パラメータ生成部
401 話者属性入力部
402 データベース選択部
403 スイッチ
406 データベース群
501 聴取者属性入力部
502 データベース選択部
506 データベース群
600 音声合成装置
601 発話スタイル入力部
603 内容語入力部
604 変換テーブル格納部
605a、605b 音響属性ベクトル生成部
608 意味クラス・属性付き辞書
609 構文データベース
610 文生成部
611 読み記号生成部
612 せりふ表示部
700 音声合成装置
701 感情表示部
800 音声合成装置
801 重み入力部
802 重み制御部
803 パターン選択部
804 文変換部
810 表示部
811 選択入力部

Claims (17)

  1. テキストを合成音声に変換して出力する音声合成装置であって、
    言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンを複数保持する感情パターン保持手段と、
    テキストの言語属性を示す入力言語属性情報を生成する言語属性生成手段と、
    感情を示す入力感情情報を取得する感情取得手段と、
    前記感情パターン保持手段に保持されている複数の感情パターンから、前記入力言語属性情報および前記入力感情情報に近い内容を示す前記言語属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索手段と、
    前記パターン検索手段により抽出された感情パターンに含まれる音響属性情報に基づいて、前記テキストに対して音声合成を行うことにより、前記音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成手段と
    を備えることを特徴とする音声合成装置。
  2. 前記感情パターンに含まれる前記感情情報、言語属性情報、および音響属性情報のうちの何れか1つの情報と他の情報とは、それぞれ相反する内容を示す
    ことを特徴とする請求項1記載の音声合成装置。
  3. 前記言語属性生成手段は、
    前記テキストを取得するテキスト取得手段と、
    前記テキスト取得手段により取得されたテキストに対して言語解析を行なうことにより前記入力言語属性情報を生成する解析手段とを備える
    ことを特徴とする請求項1記載の音声合成装置。
  4. テキストを合成音声に変換して出力する音声合成装置であって、
    言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンを複数保持する感情パターン保持手段と、
    音響的特徴を示す入力音響属性情報を取得する音響属性取得手段と、
    感情を示す入力感情情報を取得する感情取得手段と、
    前記感情パターン保持手段に保持されている複数の感情パターンから、前記入力音響属性情報および前記入力感情情報に近い内容を示す前記音響属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索手段と、
    前記パターン検索手段により抽出された感情パターンに含まれる言語属性情報に基づいて、文を構成するための構成単位の選択を行うことにより、前記言語属性情報の示す言語属性を有するテキストを生成するテキスト生成手段と、
    前記入力音響属性情報に基づいて、前記テキストに対して音声合成を行うことにより、前記入力音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成手段と
    を備えることを特徴とする音声合成装置。
  5. 前記音声合成装置は、さらに、
    文を構成するための各構成単位、および前記各構成単位の言語属性を記憶している属性記憶手段を備え、
    前記テキスト生成手段は、前記属性記憶手段に記憶されている言語属性に基づいて、前記属性記憶手段から選択された1つまたは複数の構成単位の全体的な言語属性が、前記パターン検索手段により抽出された感情パターンの言語属性情報の示す言語属性に近くなるように、前記属性記憶手段から1つまたは複数の構成単位を選択する
    ことを特徴とする請求項4記載の音声合成装置。
  6. 前記属性記憶手段は、前記各構成単位の意味内容に応じて、前記各構成単位を複数のクラスに分けて記憶しており、
    前記テキスト生成手段は、前記属性記憶手段から前記複数のクラスに従って前記構成単位を選択する
    ことを特徴とする請求項5記載の音声合成装置。
  7. 前記音声合成装置は、さらに、
    言語的意味内容を有する内容語を取得する内容語取得手段と、
    複数の構文を記憶している構文記憶手段とを備え、
    前記テキスト生成手段は、前記内容語取得手段により取得された内容語に応じた前記構成単位の選択を行い、選択された前記構成単位を、前記構文記憶手段に記憶されている何れかの構文に当てはめることによりテキストを生成する
    ことを特徴とする請求項4記載の音声合成装置。
  8. 前記音声合成装置は、さらに、
    シナリオを取得するシナリオ取得手段を備え、
    前記テキスト生成手段は、前記シナリオ取得手段に取得されたシナリオに合ったテキストを生成する
    ことを特徴とする請求項4記載の音声合成装置。
  9. テキストを合成音声に変換して出力する音声合成装置であって、
    言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンを複数保持する感情パターン保持手段と、
    テキストを取得するテキスト取得手段と、
    音響的特徴を示す入力音響属性情報を取得する音響属性取得手段と、
    感情を示す入力感情情報を取得する感情取得手段と、
    前記感情パターン保持手段に保持されている複数の感情パターンから、前記入力音響属性情報および前記入力感情情報に近い内容を示す前記音響属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索手段と、
    前記パターン検索手段により抽出された感情パターンに含まれる言語属性情報に基づいて、前記テキストを変形することにより、前記言語属性情報の示す言語属性を有する変形テキストを生成するテキスト変形手段と、
    前記パターン検索手段により抽出された感情パターンに含まれる音響属性情報に基づいて、前記変形テキストに対して音声合成を行うことにより、前記音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成手段と
    を備えることを特徴とする音声合成装置。
  10. 前記音声合成装置は、さらに、
    文を構成するための各構成単位、および前記各構成単位の言語属性を記憶している属性記憶手段を備え、
    前記テキスト変形手段は、前記属性記憶手段に記憶されている各言語属性に基づいて、前記属性記憶手段に記憶されている構成単位が適用された前記変形テキストの言語属性が、前記パターン検索手段により抽出された感情パターンの言語属性情報の示す言語属性に近くなるように、前記属性記憶手段に記憶されている構成単位を前記テキストに適用して前記変形テキストを生成する
    ことを特徴とする請求項9記載の音声合成装置。
  11. 前記属性記憶手段は、前記各構成単位の意味内容に応じて、前記各構成単位を複数のクラスに分けて記憶しており、
    前記テキスト変形手段は、前記属性記憶手段から前記複数のクラスに従って前記構成単位を選択して前記テキストに適用する
    ことを特徴とする請求項10記載の音声合成装置。
  12. 記憶手段を用いてテキストを合成音声に変換して出力する音声合成方法であって、
    前記記憶手段には、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンが複数格納されており、
    前記音声合成方法は、
    テキストの言語属性を示す入力言語属性情報を生成する言語属性生成ステップと、
    感情を示す入力感情情報を取得する感情取得ステップと、
    前記記憶手段に格納されている複数の感情パターンから、前記入力言語属性情報および前記入力感情情報に近い内容を示す前記言語属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索ステップと、
    前記パターン検索ステップで抽出された感情パターンに含まれる音響属性情報に基づいて、前記テキストに対して音声合成を行うことにより、前記音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成ステップと
    を含むことを特徴とする音声合成方法。
  13. 記憶手段を用いてテキストを合成音声に変換して出力する音声合成方法であって、
    前記記憶手段には、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンが複数格納されており、
    前記音声合成方法は、
    音響的特徴を示す入力音響属性情報を取得する音響属性取得ステップと、
    感情を示す入力感情情報を取得する感情取得ステップと、
    前記記憶手段に格納されている複数の感情パターンから、前記入力音響属性情報および前記入力感情情報に近い内容を示す前記音響属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索ステップと、
    前記パターン検索ステップで抽出された感情パターンに含まれる言語属性情報に基づいて、文を構成するための構成単位の選択を行うことにより、前記言語属性情報の示す言語属性を有するテキストを生成するテキスト生成ステップと、
    前記入力音響属性情報に基づいて、前記テキストに対して音声合成を行うことにより、前記入力音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成ステップと
    を含むことを特徴とする音声合成方法。
  14. 記憶手段を用いてテキストを合成音声に変換して出力する音声合成方法であって、
    前記記憶手段には、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンを複数格納されており、
    前記音声合成方法は、
    テキストを取得するテキスト取得ステップと、
    音響的特徴を示す入力音響属性情報を取得する音響属性取得ステップと、
    感情を示す入力感情情報を取得する感情取得ステップと、
    前記記憶手段に格納されている複数の感情パターンから、前記入力音響属性情報および前記入力感情情報に近い内容を示す前記音響属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索ステップと、
    前記パターン検索ステップで抽出された感情パターンに含まれる言語属性情報に基づいて、前記テキストを変形することにより、前記言語属性情報の示す言語属性を有する変形テキストを生成するテキスト変形ステップと、
    前記パターン検索ステップで抽出された感情パターンに含まれる音響属性情報に基づいて、前記変形テキストに対して音声合成を行うことにより、前記音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成ステップと
    を含むことを特徴とする音声合成方法。
  15. 記憶手段を用いてテキストを合成音声に変換して出力するためのプログラムであって、
    前記記憶手段には、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンが複数格納されており、
    前記プログラムは、
    テキストの言語属性を示す入力言語属性情報を生成する言語属性生成ステップと、
    感情を示す入力感情情報を取得する感情取得ステップと、
    前記記憶手段に格納されている複数の感情パターンから、前記入力言語属性情報および前記入力感情情報に近い内容を示す前記言語属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索ステップと、
    前記パターン検索ステップで抽出された感情パターンに含まれる音響属性情報に基づいて、前記テキストに対して音声合成を行うことにより、前記音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成ステップと
    をコンピュータに実行させることを特徴とするプログラム。
  16. 記憶手段を用いてテキストを合成音声に変換して出力するためのプログラムであって、
    前記記憶手段には、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンが複数格納されており、
    前記プログラムは、
    音響的特徴を示す入力音響属性情報を取得する音響属性取得ステップと、
    感情を示す入力感情情報を取得する感情取得ステップと、
    前記記憶手段に格納されている複数の感情パターンから、前記入力音響属性情報および前記入力感情情報に近い内容を示す前記音響属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索ステップと、
    前記パターン検索ステップで抽出された感情パターンに含まれる言語属性情報に基づいて、文を構成するための構成単位の選択を行うことにより、前記言語属性情報の示す言語属性を有するテキストを生成するテキスト生成ステップと、
    前記入力音響属性情報に基づいて、前記テキストに対して音声合成を行うことにより、前記入力音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成ステップと
    をコンピュータに実行させることを特徴とするプログラム。
  17. 記憶手段を用いてテキストを合成音声に変換して出力するためのプログラムであって、
    前記記憶手段には、言語属性を示す言語属性情報と、音響的特徴を示す音響属性情報と、前記言語属性と前記音響的特徴によって表現される感情を示す感情情報とから構成される感情パターンを複数格納されており、
    前記プログラムは、
    テキストを取得するテキスト取得ステップと、
    音響的特徴を示す入力音響属性情報を取得する音響属性取得ステップと、
    感情を示す入力感情情報を取得する感情取得ステップと、
    前記記憶手段に格納されている複数の感情パターンから、前記入力音響属性情報および前記入力感情情報に近い内容を示す前記音響属性情報および前記感情情報を有する感情パターンを検索して抽出するパターン検索ステップと、
    前記パターン検索ステップで抽出された感情パターンに含まれる言語属性情報に基づいて、前記テキストを変形することにより、前記言語属性情報の示す言語属性を有する変形テキストを生成するテキスト変形ステップと、
    前記パターン検索ステップで抽出された感情パターンに含まれる音響属性情報に基づいて、前記変形テキストに対して音声合成を行うことにより、前記音響属性情報の示す音響的特徴を有する合成音声を生成する音声合成ステップと
    をコンピュータに実行させることを特徴とするプログラム。
JP2006001631A 2006-01-06 2006-01-06 音声合成装置 Pending JP2007183421A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006001631A JP2007183421A (ja) 2006-01-06 2006-01-06 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006001631A JP2007183421A (ja) 2006-01-06 2006-01-06 音声合成装置

Publications (1)

Publication Number Publication Date
JP2007183421A true JP2007183421A (ja) 2007-07-19

Family

ID=38339582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006001631A Pending JP2007183421A (ja) 2006-01-06 2006-01-06 音声合成装置

Country Status (1)

Country Link
JP (1) JP2007183421A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
US8626489B2 (en) 2009-08-19 2014-01-07 Samsung Electronics Co., Ltd. Method and apparatus for processing data
JP2015064480A (ja) * 2013-09-25 2015-04-09 ヤマハ株式会社 音声合成装置およびプログラム
JP2015072490A (ja) * 2012-03-14 2015-04-16 株式会社東芝 テキスト音声合成方法及びシステム
JP2015102772A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102773A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102771A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2017194510A (ja) * 2016-04-18 2017-10-26 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
CN108090174A (zh) * 2017-12-14 2018-05-29 北京邮电大学 一种基于系统功能语法的机器人应答方法及装置
CN109949791A (zh) * 2019-03-22 2019-06-28 平安科技(深圳)有限公司 基于hmm的情感语音合成方法、装置及存储介质
US10490181B2 (en) 2013-05-31 2019-11-26 Yamaha Corporation Technology for responding to remarks using speech synthesis
CN112233648A (zh) * 2019-12-09 2021-01-15 北京来也网络科技有限公司 结合rpa及ai的数据的处理方法、装置、设备及存储介质
JP6993034B1 (ja) 2021-05-14 2022-01-13 Aiインフルエンサー株式会社 コンテンツ再生方法、及びコンテンツ再生システム
CN116708951A (zh) * 2023-06-18 2023-09-05 北京家瑞科技有限公司 基于神经网络的视频生成方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム
US8626489B2 (en) 2009-08-19 2014-01-07 Samsung Electronics Co., Ltd. Method and apparatus for processing data
JP2015072490A (ja) * 2012-03-14 2015-04-16 株式会社東芝 テキスト音声合成方法及びシステム
JP2016066088A (ja) * 2012-03-14 2016-04-28 株式会社東芝 音声合成方法、装置及びプログラム
US10490181B2 (en) 2013-05-31 2019-11-26 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP2015064480A (ja) * 2013-09-25 2015-04-09 ヤマハ株式会社 音声合成装置およびプログラム
JP2015102772A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102773A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2015102771A (ja) * 2013-11-27 2015-06-04 日産自動車株式会社 音声発生装置、音声変形装置及び方法
JP2017194510A (ja) * 2016-04-18 2017-10-26 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
CN108090174A (zh) * 2017-12-14 2018-05-29 北京邮电大学 一种基于系统功能语法的机器人应答方法及装置
CN108090174B (zh) * 2017-12-14 2022-01-07 北京邮电大学 一种基于系统功能语法的机器人应答方法及装置
CN109949791A (zh) * 2019-03-22 2019-06-28 平安科技(深圳)有限公司 基于hmm的情感语音合成方法、装置及存储介质
CN112233648A (zh) * 2019-12-09 2021-01-15 北京来也网络科技有限公司 结合rpa及ai的数据的处理方法、装置、设备及存储介质
CN112233648B (zh) * 2019-12-09 2024-06-11 北京来也网络科技有限公司 结合rpa及ai的数据的处理方法、装置、设备及存储介质
JP6993034B1 (ja) 2021-05-14 2022-01-13 Aiインフルエンサー株式会社 コンテンツ再生方法、及びコンテンツ再生システム
JP2022175923A (ja) * 2021-05-14 2022-11-25 Aiインフルエンサー株式会社 コンテンツ再生方法、及びコンテンツ再生システム
CN116708951A (zh) * 2023-06-18 2023-09-05 北京家瑞科技有限公司 基于神经网络的视频生成方法和装置
CN116708951B (zh) * 2023-06-18 2024-02-09 北京家瑞科技有限公司 基于神经网络的视频生成方法和装置

Similar Documents

Publication Publication Date Title
JP2007183421A (ja) 音声合成装置
CN108962217B (zh) 语音合成方法及相关设备
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP4826275B2 (ja) 応答生成装置、方法及びプログラム
Bosseaux Buffy the Vampire Slayer: Characterization in the musical episode of the TV series
JP2005516262A (ja) 音声合成
JP2006039120A (ja) 対話装置および対話方法、並びにプログラムおよび記録媒体
JP3616250B2 (ja) 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
JP2006227589A (ja) 音声合成装置および音声合成方法
Campbell Conversational speech synthesis and the need for some laughter
JP2005342862A (ja) ロボット
Campbell Developments in corpus-based speech synthesis: Approaching natural conversational speech
JP2007271655A (ja) 感情付加装置、感情付加方法及び感情付加プログラム
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
Aylett et al. Building and designing expressive speech synthesis
Fiannaca et al. Voicesetting: Voice authoring uis for improved expressivity in augmentative communication
JP2007264284A (ja) 感情付加装置、感情付加方法及び感情付加プログラム
JP2003302992A (ja) 音声合成方法及び装置
JP3270356B2 (ja) 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2003271194A (ja) 音声対話装置及びその制御方法
JP6222465B2 (ja) アニメーション生成装置、アニメーション生成方法およびプログラム
Tao Emotion control of Chinese speech synthesis in natural environment.
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
EP0982684A1 (en) Moving picture generating device and image control network learning device
JPH10171485A (ja) 音声合成装置