JP2012247557A - 音声合成装置、その方法及びプログラム - Google Patents

音声合成装置、その方法及びプログラム Download PDF

Info

Publication number
JP2012247557A
JP2012247557A JP2011118167A JP2011118167A JP2012247557A JP 2012247557 A JP2012247557 A JP 2012247557A JP 2011118167 A JP2011118167 A JP 2011118167A JP 2011118167 A JP2011118167 A JP 2011118167A JP 2012247557 A JP2012247557 A JP 2012247557A
Authority
JP
Japan
Prior art keywords
text
information
conversation
speech
reply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011118167A
Other languages
English (en)
Other versions
JP5650587B2 (ja
Inventor
Yusuke Ijima
勇祐 井島
Osamu Yoshioka
理 吉岡
Narihisa Nomoto
済央 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011118167A priority Critical patent/JP5650587B2/ja
Publication of JP2012247557A publication Critical patent/JP2012247557A/ja
Application granted granted Critical
Publication of JP5650587B2 publication Critical patent/JP5650587B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】非テキスト情報を考慮して抑揚を変更することで、より自然性の高い合成音声を生成する技術を提供する。
【解決手段】返信情報を用いて、テキスト情報を会話テキストまたは非会話テキストに分類し、一つの被返信テキスト情報に起因する一連の会話テキストを一つの会話テキスト集合としてまとめ、会話テキスト集合に含まれる会話テキストに対応する投稿者情報に基づき、その会話テキスト集合の投稿者間の友好度を求め、会話テキストに含まれる単語に基づき、その会話テキストに対する評価を算出し、1つ以上の会話テキスト集合または非会話テキストを、その投稿順に並び替え、友好度が高いほど抑揚が大きくなるように、評価がポジティブであるほど抑揚が大きくなるように、テキスト統合ステップで並び替えられた投稿順に従ってテキスト情報に対する合成音声を生成する。
【選択図】図1

Description

本発明は、投稿時間の経過に従って配列された1つ以上のテキスト情報と、そのテキスト情報の投稿者に関する情報(以下「投稿者情報」という)と、そのテキスト情報が他のテキスト情報に対する返信か否かを示す情報(以下「返信情報」という)と、を含む情報ソースを用いて、テキスト情報に対する合成音声を生成する技術に関する。特に、ある投稿者と他の投稿者が会話するようにテキスト情報を投稿することができるサービス(以下「テキストベース会話型サービス」という)において、その投稿のテキスト情報に対する音声合成を行う技術に関する。なお、二人の投稿者によって行われる会話を特に対話ともいう。テキストベース会話型サービスの例としてはConsumer Generated Media(以下「CGM」という)等が挙げられ、さらに、CGMの例としては、ブログや電子掲示板、twitter(登録商標)等が挙げられる。
近年、テキストベース会話型サービスの普及に伴い、テキスト情報が爆発的に増加している。そして、ユーザの読むテキスト情報も増加している。移動時間や別の作業時間にそのテキスト情報を音声として取得することができれば、ユーザは効率的に情報を取得することができる。そのような目的から音声合成システムを利用してテキストベース会話型サービスのテキスト情報を読上げるツールが開発されている(非特許文献1参照)。ユーザが長時間、合成音声を聴取しても疲れないように、読上げツールは自然性の高い合成音声を生成することが望ましい。なお、以下において、テキストベース会話型サービスに対してテキスト情報を投稿するものを「投稿者」といい、テキストベース会話型サービスのテキスト情報を合成音声により取得しようとするものを「ユーザ」という。
twitter(登録商標)等においては複数の投稿者間での投稿のやりとりが頻繁に行われている。人と人とが普段行う対話では、独話(講演や再朗読等)に比べ、音声特徴量のばらつきが大きくなることが知られている(非特許文献2参照)。
「棒読みちゃん」、[online]、[平成23年5月11日検索]、インターネット<URL: http://chi.usamimi.info/Program/Application/BouyomiChan/> 郡山知樹、能勢隆、小林隆夫、「HMMに基づく対話音声合成の検討」、日本音響学会2009年秋季発表論文集、2009年、pp.255-256
非特許文献2では、対話音声合成の研究としてHMM(Hidden Markov Model:隠れマルコフモデル)による手法の研究が行われている。この手法では、まずHMMにより対話音声の抑揚や発話速度をモデル化する。音声合成時には、テキストの読みやアクセントといったテキスト情報から得られる情報に基づき抑揚を推定することで、従来の読上げ音声より対話らしい音声が合成されることが確認されている。しかし、会話において、テキストの読みやアクセントといったテキスト情報から得られる情報以外の情報(以下「非テキスト情報」という、例えば、対話者間の仲の良さやその会話内容)もその抑揚に影響を与えている。そのため、非特許文献2の手法では、十分な自然性を持つ合成音声は得られていないと考えられる。よって、非特許文献2の手法で音声合成を行うと、会話としての自然性が低い合成音声が生成され、ユーザが長時間、合成音声を聞くと疲れてしまいやすい。
本発明は、非テキスト情報を考慮して抑揚を変更することで、より自然性の高い合成音声を生成する技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様に係る音声合成装置は、投稿時間の経過に従って配列された1つ以上のテキスト情報と、そのテキスト情報の投稿者に関する情報(以下「投稿者情報」という)と、そのテキスト情報が他のテキスト情報に対する返信か否かを示す情報(以下「返信情報」という)と、を含む情報ソースを用いて、テキスト情報に対する合成音声を生成する。会話テキストとは返信されるテキスト情報(以下「被返信テキスト情報」という)または被返信テキスト情報に対する返信であるテキスト情報であり、非会話テキストとは会話テキスト以外のテキスト情報であり、返信情報を用いて、テキスト情報を会話テキストまたは非会話テキストに分類し、一つの被返信テキスト情報に起因する一連の会話テキストを一つの会話テキスト集合としてまとめるテキスト情報分類部と、会話テキスト集合に含まれる会話テキストに対応する投稿者情報に基づき、その会話テキスト集合の投稿者間の友好度を求める友好度取得部と、単語と、その単語に対するポジティブまたはネガティブの評価と、が記憶される単語辞書記憶部と、単語辞書記憶部を参照して、会話テキストに含まれる単語に基づき、その会話テキストに対する評価を算出する評価算出部と、1つ以上の会話テキスト集合または非会話テキストを、その投稿順に並び替えるテキスト統合部と、友好度が高いほど抑揚が大きくなるように、評価がポジティブであるほど抑揚が大きくなるように、テキスト統合部で並び替えられた投稿順に従ってテキスト情報に対する合成音声を生成する音声合成部と、を含む。
上記の課題を解決するために、本発明の第二の態様に係る音声合成方法は、投稿時間の経過に従って配列された1つ以上のテキスト情報と、そのテキスト情報の投稿者に関する情報(以下「投稿者情報」という)と、そのテキスト情報が他のテキスト情報に対する返信か否かを示す情報(以下「返信情報」という)と、を含む情報ソースを用いて、テキスト情報に対する合成音声を生成する。会話テキストとは返信されるテキスト情報(以下「被返信テキスト情報」という)または被返信テキスト情報に対する返信であるテキスト情報であり、非会話テキストとは会話テキスト以外のテキスト情報であり、返信情報を用いて、テキスト情報を会話テキストまたは非会話テキストに分類し、一つの被返信テキスト情報に起因する一連の会話テキストを一つの会話テキスト集合としてまとめるテキスト情報分類ステップと、会話テキスト集合に含まれる会話テキストに対応する投稿者情報に基づき、その会話テキスト集合の投稿者間の友好度を求める友好度取得ステップと、単語と、その単語に対するポジティブまたはネガティブの評価と、が記憶される単語辞書記憶部を参照して、会話テキストに含まれる単語に基づき、その会話テキストに対する評価を算出する評価算出ステップと、1つ以上の会話テキスト集合または非会話テキストを、その投稿順に並び替えるテキスト統合ステップと、友好度が高いほど抑揚が大きくなるように、評価がポジティブであるほど抑揚が大きくなるように、テキスト統合ステップで並び替えられた投稿順に従ってテキスト情報に対する合成音声を生成する音声合成ステップと、を含む。
本発明に係る音声合成技術では、非テキスト情報を考慮して抑揚を変更するため、より自然性の高い合成音声を生成することができるという効果を奏する。
音声合成装置100、200の機能ブロック図。 音声合成装置100、200の処理フローを示す図。 情報ソースに含まれる投稿情報のデータ例を示す図。 テキスト情報記憶部181に記憶されるデータ例を示す図。 投稿者情報記憶部187に記憶されるデータ例を示す図。 テキスト情報分類部110の分類例を示す図。 友好度取得部、評価算出部及び無音区間取得部の処理フローを示す図。 単語辞書記憶部185に記憶されるデータ例を示す図。 テキスト統合部160の処理フローを示す図。 音声合成部170の機能ブロック図。 音声合成部170の処理フローを示す図。 音声合成部270の機能ブロック図。 音声合成部270の処理フローを示す図。 音声合成装置300の機能ブロック図。 音声合成装置300の処理フローを示す図。 音声合成部370の機能ブロック図。 音声合成部370の処理フローを示す図。 重回帰HMMにおけるスタイル空間の例を示す図。
以下、本発明の実施形態について、説明する。
<第一実施形態に係る音声合成装置100>
図1及び図2を用いて、本実施形態に係る音声合成装置100を説明する。音声合成装置100は、テキスト情報分類部110と、評価算出部120と、友好度取得部130と、無音区間取得部140と、抑揚修正情報生成部150と、テキスト統合部160と、音声合成部170と、テキスト情報記憶部181と、単語辞書記憶部185と、投稿者情報記憶部187と、を含む。
音声合成装置100は、情報ソースを入力とし、情報ソースに含まれるテキスト情報に対する合成音声を生成し、出力する。以下、各部の処理内容を説明する。
なお、情報ソースM01には、投稿時間の経過に従って配列された1つ以上のテキスト情報と、そのテキスト情報(投稿)の識別子(以下「投稿ID」という)と、そのテキスト情報の投稿者情報(例えば、投稿者情報は投稿者の識別子(以下「投稿者ID」という)を含む)と、そのテキスト情報の返信情報と、その投稿時間と、が含まれる(図3参照)。このテキスト情報と、投稿識別子と、投稿者情報と、返信情報、投稿時間と、を合わせて投稿情報と呼ぶ。図3の場合、1つの情報ソースM01内に11個の投稿情報(m0101〜m0111)が含まれている。この投稿情報は、図4に示すようにテキスト情報記憶部181に格納される。
なお、本実施形態では、そのテキスト情報が他のテキスト情報に対する返信を示す場合、返信情報として他のテキスト情報の投稿IDが割り当てられている。例えば、投稿情報m0101の返信情報「−」は、投稿情報m0101のテキスト情報が他のテキスト情報に対する返信ではないことを示し、投稿情報m0103の返信情報「02」は、投稿情報m0103のテキスト情報が投稿ID「02」のテキスト情報に対する返信であることを示す。
また、投稿者情報には、投稿者ID以外に、性別や年代、現住所、出身地、趣味、その投稿者に対する読者のリスト(以下「読者リスト」という)等が含まれてもよい。但し、投稿情報毎にこれらの情報が紐付けられていると、情報量が大きくなる。そこで、本実施形態では、情報ソースに投稿者ID、性別、年代、現住所、出身地、趣味、読者リスト等の情報も含まれるが、これらの情報は投稿情報とは別に受信し、投稿者情報記憶部187に記憶する(図5参照)。音声合成装置100は、投稿情報に含まれる投稿者IDに基づき、投稿者情報記憶部187を参照して、投稿者ID以外の投稿者情報を取得することができる。
ここで、読者とは、ある投稿者の投稿を閲覧するように登録されている他の投稿者をいい、twitter(登録商標)のフォロワー等を意味する。
また、情報ソースに性別、年代、現住所、出身地、趣味、読者リスト等の情報が含まれていない場合、利用者によって事前に登録され、投稿者情報記憶部187に記憶される構成としてもよい。
本実施形態では、図示しない情報取得部を介して情報ソースを受信し、情報ソースに含まれる投稿情報と投稿者情報とを取得し、それぞれテキスト情報記憶部181と投稿者情報記憶部187に記憶する。
<テキスト情報分類部110>
テキスト情報分類部110は、返信情報を用いて、テキスト情報を会話テキストまたは非会話テキストに分類し、一つの被返信テキスト情報に起因する一連の会話テキストを一つの会話テキスト集合としてまとめる(s110)。なお、会話テキストとは返信されるテキスト情報(以下「被返信テキスト情報」という)または被返信テキスト情報に対する返信であるテキスト情報(以下「返信テキスト情報」という)であり、非会話テキストとは会話テキスト以外のテキスト情報である。
例えば、テキスト情報分類部110は、テキスト情報記憶部181から投稿IDと返信情報を取得する。本実施形態では、あるテキスト情報が他のテキスト情報に対する返信を示す場合(つまり、返信テキスト情報の場合)、返信情報として他のテキスト情報(被返信テキスト情報)の投稿IDが割り当てられている。そこで、まず、返信情報として他のテキスト情報の投稿IDが割り当てられていないテキスト情報が被返信テキスト情報か否かを判断する。テキスト情報text(p)に対する返信が存在するか否かを調べるために、返信情報としてテキスト情報text(p)の投稿IDを割り当てられているテキスト情報text(q)が存在するか否かを調べる。但し、情報ソースに含まれるテキスト情報の個数をPとし、情報ソースに含まれるテキスト情報をtext(p)(p=1,2,…,P)とし、q=1,2,…,Pとし、p≠qとする。
存在する場合には、そのテキスト情報text(p)(被返信テキスト情報)とテキスト情報text(q)(返信テキスト情報)を会話テキストに分類し、同一の会話テキスト集合IDを付与する。さらに、被返信テキスト情報または返信テキスト情報の投稿IDを返信情報として割り当てられているテキスト情報が存在するか否か調べ、存在する場合には、そのテキスト情報を会話テキストに分類し、同一の会話テキスト集合IDを付与する。
返信テキスト情報ではなく、かつ、被返信テキスト情報でもない、言い換えると、返信情報として他のテキスト情報の投稿IDを割り当てられておらず、かつ、他のテキスト情報の返信情報としてそのテキスト情報の投稿IDを割り当てられていない場合、そのテキスト情報を非会話テキストに分類し、会話テキスト集合IDとして非会話テキストであることを示す情報(例えば「−」)を付与する。
例えば、まず、返信情報が割り当てられていないテキスト情報text(1)の投稿ID「01」を返信情報として割り当てられているテキスト情報がtext(2)〜text(11)の中に存在するか否かを調べる。存在しないため、テキスト情報text(1)を非会話テキストに分類し、会話テキスト集合IDとして「−」を付与する。
次に、返信情報が割り当てられていないテキスト情報text(2)の投稿ID「02」を返信情報として割り当てられているテキスト情報がtext(3)〜text(11)の中に存在するか否かを調べる。text(3)の返信情報は「02」なので、テキスト情報text(2)及びtext(3)を会話テキストに分類し、同一の会話テキスト集合IDとして「01」を付与する。さらに、テキスト情報text(2)及びtext(3)の投稿ID「02」または「03」を返信情報として割り当てられているテキスト情報がtext(4)〜text(11)の中に存在するか否かを調べる。text(7)の返信情報が「03」なので、テキスト情報text(7)を会話テキストに分類し、同一の会話テキスト集合ID「01」を付与する。さらに、同様の処理を繰り返す。このようにして一つの被返信テキスト情報text(2)に起因する一連の会話テキストtext(2)、text(3)、text(7)、text(8)の会話テキスト集合IDとして同一の「01」を付与する。同様に、一つの被返信テキスト情報text(5)に起因する一連の会話テキストtext(5)、text(6)、text(9)、text(10)、text(11)の会話テキスト集合IDとして同一の「02」を付与する。
以下、情報ソースに含まれる会話テキスト集合の個数をJとし、会話テキスト集合j(j=1,2,…,J)に含まれる会話テキストの個数をNとし、会話テキスト集合jに含まれる会話テキストをtext(j,n)(n=1,2,…,N)とし、会話テキスト集合jに含まれる話者数をMとし、情報ソースに含まれる非会話テキストの個数をKとし、情報ソースに含まれる非会話テキスト情報をtext(k)(k=1,2,…,K)とする。よって、情報ソースに含まれるテキスト情報の個数PはP=K+N+N+…+Nである。
このようにしてテキスト情報分類部110は、各テキスト情報に対し会話テキスト集合IDを付与し、これをテキスト情報記憶部181に格納する(図4参照)。
図6はテキスト情報分類部110において分類された投稿情報の例を示す。このように会話テキスト集合毎に分類されたテキスト情報を、分類毎に読上げたほうが、図3の投稿順のテキスト情報をそのまま読上げるよりも会話として自然性の高い合成音声を生成することができることがわかる。
<友好度取得部130>
友好度取得部130は、会話テキスト集合jに含まれる会話テキストtext(j,n)に対応する投稿者情報に基づき、その会話テキスト集合jに含まれる投稿者間の友好度を求める(s130)。
例えば、会話テキスト集合ID「01」の会話テキスト集合に含まれる投稿者間の友好度を求める場合、友好度取得部130は、テキスト情報記憶部181を参照して、会話テキスト集合ID「01」の会話テキストtext(2)、text(3)、text(7)、text(8)の投稿者ID「A」及び「B」を取得する(図4参照)。さらに、投稿者IDに基づき、投稿者情報記憶部187を参照して、投稿者ID以外の投稿者情報(性別等)も取得する(図5参照)。その投稿者情報に基づき、その会話テキスト集合の投稿者間の友好度を求める。
友好度とは、ある投稿者Xと他の投稿者Yの仲が良いか否かを示す指標である。例えば、投稿者Xと投稿者Yとの共通の読者が多い場合には、投稿者Xと投稿者Yの仲が良い(友好度が高い)と仮定し、友好度を以下のようにして求める。友好度取得部130は、投稿者Xの読者数LNと、投稿者Yの読者数LNと、投稿者Xと投稿者Yの共通の読者数COMXYとを読者リストを用いてカウントし、投稿者Xと投稿者Yとの間の友好度fXY
Figure 2012247557
として求める。但し、min(・)は、与えられた集合の最小値を返す関数である。
例えば、図4の会話テキスト集合IDが「01」の会話テキスト集合に含まれる会話テキストに対応する投稿者情報の読者リストに基づいた場合、投稿者Aの読者数LN=5であり、投稿者Bの読者数LN=7であり、共通の読者数COMAB=2である。よって、fABは2/5となる。
なお、友好度は読者リストだけでなく、その他の投稿者情報(例えば、性別、年代、現住所、出身地、趣味等)を用いて求めてもよい。この場合、性別等が一致するほど投稿者Xと投稿者Yの仲が良い(友好度が高い)と仮定する。LN、LNはそれぞれ投稿者X及びYの読者数と年代等の項目の数との総和を表し、COMXYは投稿者Xと投稿者Yの共通の読者数と共通する項目の数との総和を表す。
例えば、図4の会話テキスト集合IDが「02」の会話テキスト集合に含まれる会話テキストに対応する投稿者情報の読者リストとその他の投稿者情報(例えば、年代、現住所、出身地、趣味)に基づいた場合、投稿者Aの読者数5であり項目数4なので、LN=9であり、投稿者Cの読者数5であり項目数4なので、LN=9である。さらに、共通の読者数3(BとFとG)、共通の項目の数1(趣味)なので、COMBC=4である。よって、fACは4/9となる。
なお、会話テキスト集合中に3名以上の投稿者の会話が含まれる場合もあるが、その場合は、会話テキスト集合に含まれる全ての投稿者間の友好度を算出する(図7のs1〜s8参照、なお、図7の例では会話テキスト集合に含まれる全ての投稿者に対し1から始まる連番を付与しているものとする)。例えば、投稿者が、3名(A,B,C)の場合、AとB間の友好度fAB、BとC間の友好度fBC、CとA間の友好度fCAとを算出する。算出する際の式は上記式(1)と同様である。
友好度取得部130は、会話テキスト集合jに含まれる会話テキストtext(j,n)に対し、そのテキスト情報の投稿者と返信対象となる投稿者との間の友好度を付与し、テキスト情報記憶部181に格納する(図4参照)。例えば、AがB及びCに対し返信した場合には、その会話テキストに対し、AとB間の友好度fABと、CとA間の友好度fCAとを付与する。この場合、BとC間の友好度fBCを付与する必要はない。
なお、情報ソース取得時に、情報ソースに含まれる全ての投稿者間の友好度を予め算出しておき図示しない記憶部に記憶しておき、友好度取得部130では、会話テキスト集合の投稿者間の友好度を記憶部から取得する構成としてもよい。
<評価算出部120及び単語辞書記憶部185>
評価算出部120は、テキスト情報記憶部181から会話テキストtext(j,n)を取得し、単語辞書記憶部185を参照して、会話テキストtext(j,n)に含まれる単語に基づき、その会話テキストtext(j,n)に対する評価を算出する(s120)。なお、単語辞書記憶部185には、単語と、その単語に対するポジティブまたはネガティブの評価と、が記憶されている(図8参照)。例えば、予め用意されたポジティブな投稿に含まれやすい単語をポジティブとして、予め用意されたネガティブな投稿に含まれやすい単語をネガティブとして、単語辞書記憶部185に記憶する。その際、単語辞書記憶部185に手動で単語及びその評価を登録してもよいし、単語辞書を機械学習等により自動的に構築し単語辞書記憶部185に記憶してもよい。
評価算出部120は、単語辞書記憶部185を参照して、会話テキストtext(j,n)に含まれる各単語が、ポジティブな単語か、ネガティブな単語か、それ以外の単語か、を判定し、ポジティブな単語の個数pw(j,n)とネガティブな単語の個数nw(j,n)をカウントし、その会話テキストtext(j,n)に対する評価e(j,n)を以下の式により算出する(図7のs16参照)。
Figure 2012247557
例えば、図4の投稿ID「03」の会話テキストtext(1,2)の場合、ポジティブな単語の個数pw(1,2)は3個(「ドライブ」、「いい」、「行く」)であり、ネガティブな単語の個数nw(1,2)は1個(「どこ」)なので、式(2)より、会話テキストtext(1,2)の評価は、e(1,2)=(3-1)/(3+1)=0.5である。
評価算出部120は、会話テキストtext(j,n)に対し、評価e(j,n)を付与し、テキスト情報記憶部181に格納する(図4参照)。
<無音区間取得部140>
無音区間取得部140は、会話テキスト集合j内の会話テキスト間の投稿時間に基づき、一つ前の会話テキストtext(j,n−1)の投稿時間t(j,n−1)と会話テキストtext(j,n)の投稿時間t(j,n)との差rt(j,n)(以下「返信時間」という)が大きいほど、大きくなるような値(以下「無音区間情報」という)を求める(s140)。
例えば、無音区間取得部140は、テキスト情報記憶部181を参照し、同一の会話テキスト集合IDを持つ会話テキストの投稿時間を取得し、一つ前の会話テキストtext(j,n−1)の投稿時間t(j,n−1)と会話テキストtext(j,n)の投稿時間t(j,n)との差rt(j,n)を以下の式により算出する(図7のs12参照)。
rt(j,n)=0 (n=1)
rt(j,n)=t(j,n)-t(j,n-1) (n>1) (3)
さらに、無音区間取得部140は、返信時間を用いて、以下の式により、無音区間情報silt(j,n)を求める(図7のs13参照)。
Figure 2012247557
但し、sildefを生成される合成音声の間の通常時間、silmaxを生成される合成音声の間の最大時間とし、rt(j,n)を実際に得られる返信時間とし、rtmaxを返信時間に対する閾値とし、baseを対数の底とする。
なお、予め返信時間に対応する無音区間情報を計算しておき、図示しない記憶部に記憶しておき、rt(j,n)がrtmaxよりも大きいときには、silmaxを出力し、rtmaxよりも小さいときには、そのrt(j,n)に対応するsilt(j,n)を出力する構成としてもよい。
無音区間取得部140は、会話テキストtext(j,n)に対し、無音区間情報silt(j,n)を付与し、テキスト情報記憶部181に格納する(図4参照)。なお、非会話テキストの合成音声の間は、通常時間sildefとしており、この例では、sildef=5[秒]としている。
このような構成とすることで、返信時間が早いほど、前の投稿からの間は短くなり、返信時間に応じた間を生成することができる。また、baseとrtmaxを大きくすると同一の返信時間でも間は短く、小さくすると間が長くなるように調整することができる。
<抑揚修正情報生成部150>
抑揚修正情報生成部150は、テキスト情報記憶部181を参照して、テキスト情報の投稿者と返信対象となる投稿者との間の友好度と、評価e(j,n)とを取得する。抑揚修正情報生成部150は、これらの値を用いて、友好度が高いほど抑揚が大きくなるように、評価がポジティブであるほど抑揚が大きくなるように、抑揚を修正するための抑揚修正情報pr(j,n)を会話テキストtext(j,n)に対して生成する(s150)。なお、抑揚とは、音のピッチのパタンを意味し、ピッチレンジ(F0パタンの最大値と最小値の幅)や発話速度、音高(以下、「抑揚パラメータ」という)により変化する。さらに、抑揚が大きいとは抑揚パラメータのばらつきが大きいことを意味し、抑揚が小さいとは抑揚パラメータのばらつきが小さいことを意味する。抑揚が大きくなると生成される合成音声は感情豊かに聞こえ、抑揚が小さくなると読上げ調(棒読み)に聞こえる。なお、投稿者間の仲がいいほど、また、会話内容がポジティブであるほど、その会話は感情豊かになり、投稿者間の仲が疎遠であるほど、また、会話内容がネガティブであるほど、その会話は感情表現に乏しく、読上げ調(棒読み)になると考えられる。これらの点を考慮して抑揚修正情報を生成する。
例えば、抑揚修正情報生成部150は、会話テキストtext(j,n)に対する抑揚修正情報pr(j,n)を以下の式を用いて算出する(図7のs18参照)。
Figure 2012247557
但し、wを0以上1以下の実数とし、(M−1)を返信対象となる話者数とし(なお、Mは前述の通り、会話テキスト集合jに含まれる話者数である)、RSP(j,n)を返信対象となる話者の集合とし、fPQを投稿者Pと返信対象となる話者Qとの友好度とする。例えば、投稿者Cが2名の投稿者A,Bに対して返信を行う場合、(M−1)=2、RSP(j,n)={A,B}となる。図4の例のように、返信対象となる話者数(M−1)が1名の場合(つまり、2名の投稿者による対話の場合)、f(j,n)は両者間の友好度となるが、2名以上の場合(つまり、3名以上の投稿者による会話の場合)、投稿者と各返信対象となる各投稿者の友好度の平均値がf(j,n)となる。抑揚修正情報pr(j,n)は、−1以上1以下の実数となり、友好度が高いほど高い値を、また、評価e(j,n)が高いほど(評価がポジティブであるほど)高い値をとる。
抑揚修正情報生成部150は、会話テキストtext(j,n)に対し、生成した抑揚修正情報pr(j,n)を付与し、テキスト情報記憶部181に格納する(図4参照)。後述する音声合成部170において、この抑揚修正情報を用いて、抑揚を修正することで、非テキスト情報(友好度及び評価)を考慮した合成音声を生成することができる。
なお、音声合成装置100は、会話テキスト集合jに対して、友好度取得処理(s4)を行い(s1、s23、s24)、会話テキスト集合jの会話テキストtext(j,n)に対して無音区間取得処理(s13)、評価算出処理(s16)を行い、さらに、抑揚修正情報生成処理(s18)を行う(s1、s11、s21、s22、s23、s24)。
<テキスト統合部160>
テキスト統合部160は、1つ以上の会話テキスト集合または非会話テキストを、その投稿順に並び替える(s160)。例えば、テキスト情報に対し、以下のようにして、そのテキスト情報が音声合成される順番(以下「合成番号」という)を付加して、投稿順に並び替える(図9参照)。
テキスト統合部160は、テキスト情報記憶部181を参照し、会話テキスト集合jの最初の会話テキストの投稿時間t(j,1)、及び、非会話テキストの投稿時間t(k)を取得する。会話テキスト集合のインデックスj、非会話テキストのインデックスk、合成番号のインデックスpに対し初期設定を行う(s31)。次に、会話テキスト集合jの最初の会話テキストの投稿時間t(j,1)と非会話テキストの投稿時間t(k)とを比較する(s32)。
非会話テキストの投稿時間t(k)のほうが早い場合には、その非会話テキストの合成番号O(k)をpとして設定する(s34)。k及びpをインクリメントする(s34)。全ての非会話テキストkに対しの合成番号を設定したか否かを判定し(s35)、設定している場合には、非会話テキストの投稿時間t(k)に対し∞を代入する(s36)。
会話テキスト集合jの最初の会話テキストの投稿時間t(j,1)のほうが早い場合には、会話テキスト集合jに含まれる会話テキストのインデックスnに対し初期設定を行う(s37)。その会話テキストの合成番号O(j,n)をpとして設定する(s38)。n及びpをインクリメントする(s39)。会話テキスト集合jに含まれる全ての会話テキストに対しの合成番号O(j,n)を設定したか否かを判定し(s40)、設定している場合には、jをインクリメントし(s41)、会話テキスト集合jに対し上記処理(s37〜s40)を行ったか否かを判定し(s42)、処理をしている場合には、会話テキスト集合jの最初の会話テキストの投稿時間t(j,1)に対し∞を代入する(s43)。
情報ソースに含まれる全てのテキスト情報に対し合成番号を付加したか否かを判定し(s44)、付加している場合には、処理を終える。
テキスト統合部160は、上述の処理により、テキスト情報に対し合成番号を付与し、テキスト情報記憶部181に格納する(図4参照)。
会話中に、独り言や他の会話が割り込むと、元の会話の内容が理解しづらくなるが、音声合成部170において、合成番号の順番で音声を合成し、出力することで、一つ一つの会話を、そのまとまり毎に視聴することができ、ユーザにとって、より自然性の高い合成音声となる。また、会話テキスト集合と非会話テキストを投稿順に音声合成することができる。
<音声合成部170>
音声合成部170は、友好度が高いほど抑揚が大きくなるように、評価がポジティブであるほど抑揚が大きくなるように、テキスト情報に対する合成音声を生成する(s170)。
例えば、音声合成部170は、テキスト情報記憶部181を参照して、テキスト情報と合成番号、抑揚修正情報、無音区間情報を取得する。
素片接続型音声合成方法(例えば特開平1−284898記載の方法)により音声を合成する場合について、図10及び図11を用いて説明する。
音声合成部170は、無音区間生成部171とテキスト解析部173と韻律生成部175と韻律モデル記憶部176と抑揚修正部177と素片選択部178と音声素片データベース記憶部(図中、「音声素片DB記憶部」と表す)179とを有する。
音声合成部170は、テキスト情報の合成番号pに従って、音声を合成する(s1701、s1702、s1703)。無音区間生成部171は、合成番号pと無音区間情報silt(p)を入力とし、無音区間情報silt(p)を用いて、無音区間を生成し(s171)、出力する。この無音区間は、一つ前の合成音声と現在の合成音声の間の間である。つまり、無音区間生成部171は、無音区間情報silt(p)に基づき、生成される合成音声間の間を定める。なお、無音区間情報を付加されていない非テキスト情報に対しては、所定の無音区間(例えば、5秒)を生成する。
次に、テキスト解析部173は、テキスト情報を入力とし、このテキスト情報を解析して係り受けや品詞解析等の形態素解析、及び漢字かな変換、アクセント処理を行い、コンテキスト(音韻の区別を示す記号列(以下「音韻系列」という)、品詞情報、呼気段落内モーラ数、アクセント形、発話スピード等からなる)を生成し(s173)、出力する。
韻律生成部175は、コンテキストを入力とし、コンテキストに基づき、韻律モデル記憶部176内の韻律モデルを用いて、音声合成のための韻律情報(例えば、ピッチパタン、音素継続時間長、振幅パタン)を生成し(s175)、出力する。
抑揚修正部177は、韻律情報と抑揚修正情報を入力とし、抑揚修正情報を用いて韻律情報を修正し(s177)、修正した韻律情報を出力する。
例えば、以下の式により韻律情報を修正する。
f0ms=f0mean+(f0os-f0mean)・(1+prp) (11)
ここで、f0m、f0oは、それぞれピッチレンジ修正後、修正前の有声区間の対数F0パタンであり、s=1,2,…,Sであり、Sは対数F0パタンの有声区間のフレーム数であり、f0meanは補正前のF0パタンの各フレームの対数F0の平均である。
このような補正を行うことによって、prが正の値の場合は抑揚が大きいF0パタンが生成され、負の値の場合は抑揚が小さいF0パタンが生成される。なお、抑揚修正情報を付加されていない非会話テキストに対しては、所定の抑揚修正情報(例えば、0)として韻律情報を生成する構成としてもよい。
素片選択部178は、修正された韻律情報と音韻系列を入力とし、音声素片データベース記憶部179を参照して、修正された韻律情報と音韻系列に対して最適な波形を選択する(s178)。
音声素片データベース記憶部179には、発声時の種々の情報(音韻種別、音韻環境、音素内の平均ピッチ、ピッチの形状を示すための一次直線で近似した場合の傾き、音素の継続時間長、波形の中心部での数ピッチの始点・終点を示す時間長調整用情報、正規化した音素波形のRMS値(振幅))と実際の波形データが記憶されている。
なお、素片選択部178では、選択した波形データを変形する構成としてもよいし、対応する波形データが存在しない場合には対応する波形データを生成する構成としてもよい。
音声合成部170は、生成した無音区間と選択した波形データとを、合成音声として出力する。
<効果>
本発明に係る音声合成技術では、非テキスト情報を考慮して抑揚を変更するため、より自然性の高い合成音声を生成することができるという効果を奏する。
また、従来技術では、音声の抑揚や発話速度のみを研究の対象としており、合成音声間の間等は考慮されていない。そのため、合成音声間の間は全て一定で読上げている。実際の会話の場合には、音声間の間は異なるため、従来技術で音声合成を行うと、会話としての自然性が低い合成音声が生成され、ユーザが長時間合成音声を聞くと疲れてしまう。本実施形態の構成であれば、会話音声として、より自然な合成音声間の間を有するため、自然性の高い合成音声の生成が可能となる。
合成音声の自然性が高くなることで、読上げツールの合成音声を長時間聴取しても疲れにくくなる。
<変形例>
本実施形態では返信情報として、被返信テキスト情報の投稿IDを用いているが、他の情報を用いてもよい。例えば、テキスト情報自体に含まれる情報を返信情報として使用してもよい。挨拶に対する返事や質問に対する答え等を予め会話パタンとして記憶しておき、この会話パタンに当てはまるテキスト情報の集合を会話テキスト集合として分類してもよい。また、返信情報として、投稿者IDを用いて、どのテキスト情報に対する返信かではなく、どの投稿者に対する返信かを明らかにし、投稿者により関係付けられるテキスト情報の集合を会話テキスト集合として分類してもよい。
また、情報量は大きくなるが、投稿情報毎に全ての投稿者情報(性別等)が付加されていてもよい。
情報ソースには、テキスト情報の投稿時間が含まれなくともよい。その場合、時間の経過に従って配列されたテキスト情報に基づき、合成番号を付与すればよい。但し、この場合、無音区間取得部140は、投稿時間に基づいて無音区間情報を作成することができないため、構成として設けなくともよい。また、その場合、無音区間生成部171も設けなくともよい。
本実施形態では、各部はテキスト情報記憶部181を介して情報を入出力しているが、各部が直接情報を入出力してもよい。その場合、テキスト統合部160は、テキスト情報に対し合成番号を付与するのではなく、そのテキスト情報の順番を並び替え、統合テキスト(テキスト情報と抑揚修正情報と無音区間情報からなるテキスト情報)を生成する構成としてもよい。
本実施形態では、会話テキスト集合の最初の会話テキストtext(j,1)については、投稿時点では、まだ会話となることを意識した投稿ではない。言い換えると、他のテキスト情報によって返信されることによって、初めて会話テキストとなる。その点を考慮して、以下のように、抑揚修正情報を生成してもよい。
pr(j,n)=0 (n=1)
pr(j,n)=w(2f(j,n)-1)+(1-w)e(j,n) (n>1)
この場合、会話テキスト集合の最初の会話テキストに対しては、評価、友好度を求めない構成としてもよい。そのような構成とすることで、計算量を減らすことができる。
本実施形態では、抑揚修正情報として、ピッチレンジのみを考慮しているが、その他のパラメータに係る抑揚修正情報として用いてもよい。例えば、発話速度や音高等に係る抑揚修正情報を用いることができる。
例えば、抑揚修正情報生成部150において、音高に係る抑揚修正情報pit(j,n)、発話速度に係る抑揚修正情報sr(j,n)をそれぞれ以下のようにして求める。
pit(j,n)=1 (n=1)
pit(j,n)=1+pitrange(w(2f(j,n)-1)+(1-w)e(j,n)) (n>1)
sr(j,n)=1 (n=1)
sr(j,n)=1+srrange(w(2f(j,n)-1)+(1-w)e(j,n)) (n>1)
なお、pitrange、srrangeはそれぞれ発話速度、音高の変動幅を調整するパラメータであり、0以上1以下の実数である。音声合成部170の抑揚修正部177では、以下のようにして抑揚に係る情報である対数F0パタンと音素継続長を修正する。
f0ms=pit(j,n)・f0mean+(f0os-f0mean)・(1+prp)
durmk=sr(j,n)・durok
ここで、durm、duroは、それぞれ修正後、修正前の合成したいテキスト情報の音素列中のk番目の音素の音素継続長である。音素継続長の修正に合わせて、F0パタンの時間情報も同様に線形伸縮を行う。この場合、pr(n,j)、pit(j,n)、sr(j,n)が正の値の場合は抑揚が大きい、負の場合は抑揚が小さいF0パタンが生成される。このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、発話速度や音高等を抑揚修正情報として用いるため、より自然性の高い音声合成ができる。
本実施形態では、音声合成部170において、素片接続型音声合成方法を用いたが、友好度が高いほど抑揚が大きくなるように、評価がポジティブであるほど抑揚が大きくなるように、テキスト情報に対する合成音声を生成することができれば、他の合成方法(例えば、フォルマント合成方法)を用いてもよい。
本実施形態では、非会話テキストに対して、評価を求めていないが、非会話テキストに対しても評価を求め、その評価に応じた抑揚修正情報を生成し、抑揚修正情報を用いて、音声合成を行う構成としてもよい。このような構成とすることで、非会話テキストもその内容に応じた抑揚を設定することができる。
<第二実施形態に係る音声合成装置200>
図1及び図2を用いて、本実施形態に係る音声合成装置200を説明する。第一実施形態と異なる部分についてのみ説明する。音声合成装置200は、テキスト情報分類部110と、評価算出部120と、友好度取得部130と、無音区間取得部140と、抑揚修正情報生成部150と、テキスト統合部160と、音声合成部270と、テキスト情報記憶部181と、単語辞書記憶部185と、投稿者情報記憶部187と、を含む。音声合成部270の構成及び処理内容が第一実施形態とは異なる。
<音声合成部270>
音声合成部270は、友好度が高いほど抑揚が大きくなるように、評価がポジティブであるほど抑揚が大きくなるように、テキスト情報に対する合成音声を生成する(s270)。
例えば、音声合成部270は、テキスト情報記憶部181を参照して、テキスト情報と合成番号、抑揚修正情報、無音区間情報を取得する。さらに、テキスト情報に対応する投稿者IDに基づき投稿者情報記憶部187を参照して、投稿者ID以外の投稿者情報(性別等)を取得する。
素片接続型音声合成方法により音声を合成する場合について、図12及び図13を用いて説明する。
音声合成部270は、無音区間生成部171とテキスト解析部173とデータベース選択部274(図中、「DB選択部」と表す)と韻律生成部175と韻律モデル記憶部276と抑揚修正部177と素片選択部178と音声素片データベース記憶部279とを有する。データベース選択部274を有する点及び韻律モデル記憶部276及び音声素片データベース記憶部279に記憶されるデータが音声合成部170とは異なる。
韻律モデル記憶部276には、複数の発話者の音声データに基づいて個別に作成された複数の韻律モデルを記憶されている。
同様に音声素片データベース記憶部279には、複数の発話者の音声データに基づいて個別に作成された複数の音声波形データベースが記憶されている。
音声合成部270のデータベース選択部274は、投稿者情報を入力とし、この投稿者情報を用いて、韻律モデル及び音声波形データベースを一つ選択する(s274)。
韻律生成部175は、選択された韻律モデルを用いて、音声合成のための韻律情報を生成する。また、素片選択部178は、選択された音声波形データベースを参照して、修正された韻律情報と音韻系列に対して最適な波形を選択する。
例えば、予め性別、年代等が異なるN名の発話者の音声データに基づいて、N名分の韻律モデル、音声波形データベースを作成する。データベース選択部274は、用意してあるN名の韻律モデル及び音声波形データベースのうち、投稿者の性別と同じ性別の韻律モデル及び音声波形データベース(S名分)を選択する。選択したS名の韻律モデル及び音声波形データベースの年齢と投稿者の年齢との差の絶対値を求め、差が最小の発話者をそのテキスト情報の韻律モデル及び音声波形データベースとして選択する。なお、なまり等を考慮し、出身地や現住所等が異なる発話者の音声データに基づいて、韻律モデル、音声波形データベースを作成し、出身地や現住所等も同様に韻律モデル及び音声波形データベースを選択する際の指標として利用してもよい。
<効果>
このような構成とすることで第一実施形態と同様の効果を得ることができる。第一実施形態では、非テキスト情報を用いて抑揚を変化させた音声合成を行うことが可能であるが、全て共通の韻律モデル、音声波形データベースを使用して音声合成を行っているため、同じ話者の合成音声しか生成することができない。そこで、本実施形態では予め発話者の性別・年齢等が登録された複数の音声データに基づき作成された韻律モデル、音声波形データベースを用意する。投稿者情報に応じて、これらの韻律モデル、音声波形データベースの中から適切なものを選択することで、投稿者の特徴に近い合成音声の生成を可能とする。
<第三実施形態に係る音声合成装置300>
図14及び図15を用いて、本実施形態に係る音声合成装置300を説明する。第一実施形態と異なる部分についてのみ説明する。音声合成装置300は、テキスト情報分類部110と、評価算出部120と、友好度取得部130と、無音区間取得部140と、テキスト統合部160と、音声合成部370と、テキスト情報記憶部181と、単語辞書記憶部185と、投稿者情報記憶部187と、を含む。抑揚修正情報生成部150を含まない点、音声合成部370の構成及び処理内容が第一実施形態とは異なる。
<音声合成部370>
音声合成部370は、友好度が高いほど抑揚が大きくなるように、評価がポジティブであるほど抑揚が大きくなるように、テキスト情報に対する合成音声を生成する(s370)。
例えば、音声合成部370は、テキスト情報記憶部181を参照して、テキスト情報と合成番号、友好度、評価、無音区間情報を取得する。図16及び図17を用いて、重回帰HMMに基づくスタイル制御方法(参考文献1参照)を用いた音声合成方法を説明する。
[参考文献1]宮永圭介、益子貴史、小林隆夫、「HMM音声合成における多様なスタイル実現のための制御法」、電子情報通信学会技術研究報告、2004年、SP2004-7、pp.35-40
音声合成部370は、無音区間生成部171とテキスト解析部173と韻律生成部375と韻律モデル記憶部376と素片選択部178と音声素片データベース記憶部179とを有する。抑揚修正部177を有さない点、韻律生成部375の処理内容及び韻律モデル記憶部376に記憶されるデータが音声合成部170とは異なる。
韻律生成に友好度、評価を直接使用する手法として、あらかじめ友好度や評価の値に対応する韻律モデルを学習し、合成時には入力される友好度等に適した韻律モデルを選択することが考えられる。しかし、友好度及び評価は実数であるため、韻律モデルを選択するのではなく、値に応じて生成する韻律を制御できることが望ましい。そこで、重回帰HMMに基づくスタイル制御手法(参考文献1参照)を用いる。
この手法では、まずポジティブな読み方による音声データ、ネガティブな読み方による音声データ、友好度が高い読み方による音声データ、友好度が低い読み方による音声データのそれぞれに基づき予め韻律モデル(HMM)を個別に学習する。
これらの韻律モデルと各表現に与えるベクトル(スタイルベクトル)を用いて、図18に示すようなスタイル空間を持つモデル(重回帰HMM)を学習する。図18の例では、スタイル空間は2次元であり、友好度が低い読み方(読み上げ調)(0,0)、友好度が高い読み方(1,0)、ポジティブな読み方(0,1)、ネガティブな読み方(0,-1)と各表現にスタイルベクトルを与えている。韻律モデル記憶部376には、この韻律モデル(重回帰HMM)が記憶される。
韻律生成部375は、学習した韻律モデルに任意のスタイルベクトルを与えることで、以下の重回帰式より各HMMの状態iの平均ベクトルμを算出する。
μi=Hiξ,
ξ=[1,νT]T
ここで、Hは重回帰HMMの状態iのパラメータである回帰行列、νは合成時に与えるスタイルベクトルである。さらに、韻律生成部375は、回帰行列Hとスタイルベクトルνにより計算されたHMMの平均ベクトルμを用いて、韻律情報を生成し(s375、参考文献2参照)、出力する。
[参考文献2]益子貴史、徳田恵一、宮崎昇、小林隆夫、「多空間確率分布HMMによるピッチパターン生成」、電子情報通信学会論文誌、2000年、J83-D-II(7)、pp.1600-1609
言い換えると、音声合成部370は以下の処理を行う。音声合成部370の韻律生成部375は、テキスト解析部173から各テキスト情報に対しコンテキストを取得し、各テキスト情報に対しテキスト記憶部181を参照して友好度と評価を取得し、友好度と評価に基づき各テキスト情報に対しスタイルベクトルνを生成する。さらに、韻律生成部375は、韻律モデル記憶部376に記憶されるスタイル空間を持つモデル(具体的には回帰行列H)とスタイルベクトルνにより、上述の式からHMMの平均ベクトルμを計算する。韻律生成部375は、平均ベクトルμとコンテキストとを用いて韻律情報を生成する(s375、参考文献2参照)。音声合成部370の素片選択部178は、上述の方法により生成された韻律情報とコンテキストに含まれる音韻系列とを入力とし、音声素片データベース記憶部179を参照して、韻律情報と音韻系列に対して最適な波形を選択する(s178)。音声合成部370は、生成した無音区間と選択した波形データとを、合成音声として出力する。
これにより、スタイルベクトルに応じた韻律情報を生成することができる。例えば、スタイルベクトルに(0,0)を与えた場合は読上げ調の韻律が生成され、(0.5,0)を与えた場合は友好度が少し高い韻律を生成することが可能である。
<効果>
このような構成とすることで第一実施形態と同様の効果を得ることができる。第一実施形態では、友好度、評価を用いて抑揚修正情報を算出した後、韻律情報の算出を行っているが、友好度、評価から直接韻律情報を生成できればより自然な抑揚が表現できると考えられる。そこで、本実施形態では、予め友好度、評価に対応する韻律モデルを学習し、友好度、評価を付加された会話テキストに対応した韻律情報を直接生成する。本実施形態では、スタイルベクトルとして、友好度と各投稿の評価を使用することで、これらの値に応じた韻律を生成することが可能である。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述した音声合成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

Claims (8)

  1. 投稿時間の経過に従って配列された1つ以上のテキスト情報と、そのテキスト情報の投稿者に関する情報(以下「投稿者情報」という)と、そのテキスト情報が他のテキスト情報に対する返信か否かを示す情報(以下「返信情報」という)と、を含む情報ソースを用いて、前記テキスト情報に対する合成音声を生成する音声合成装置であって、
    会話テキストとは返信されるテキスト情報(以下「被返信テキスト情報」という)または前記被返信テキスト情報に対する返信であるテキスト情報であり、非会話テキストとは前記会話テキスト以外のテキスト情報であり、前記返信情報を用いて、前記テキスト情報を前記会話テキストまたは前記非会話テキストに分類し、一つの被返信テキスト情報に起因する一連の会話テキストを一つの会話テキスト集合としてまとめるテキスト情報分類部と、
    前記会話テキスト集合に含まれる会話テキストに対応する投稿者情報に基づき、その会話テキスト集合の投稿者間の友好度を求める友好度取得部と、
    単語と、その単語に対するポジティブまたはネガティブの評価と、が記憶される単語辞書記憶部と、
    前記単語辞書記憶部を参照して、前記会話テキストに含まれる単語に基づき、その会話テキストに対する評価を算出する評価算出部と、
    1つ以上の会話テキスト集合または非会話テキストを、その投稿順に並び替えるテキスト統合部と、
    前記友好度が高いほど抑揚が大きくなるように、前記評価がポジティブであるほど抑揚が大きくなるように、前記テキスト統合部で並び替えられた投稿順に従って前記テキスト情報に対する合成音声を生成する音声合成部と、を含む、
    音声合成装置。
  2. 請求項1記載の音声合成装置であって、
    前記友好度が高いほど抑揚が大きくなるように、前記評価がポジティブであるほど抑揚が大きくなるように、抑揚を修正するための抑揚修正情報を会話テキストに対して生成する抑揚修正情報生成部を、さらに含み、
    前記音声合成部において、前記テキスト情報を解析して音韻系列を生成し、この音韻系列に基づき、韻律モデルを用いて音声合成のための韻律情報を生成し、前記抑揚修正情報を用いてこの韻律情報を修正し、音声波形データベースを参照して、修正された韻律情報と前記音韻系列に対応する波形を読出して音声合成する、
    音声合成装置。
  3. 請求項1記載の音声合成装置であって、
    ポジティブな読み方による音声データ、ネガティブな読み方による音声データ、友好度が高い読み方による音声データ、友好度が低い読み方による音声データのそれぞれに基づき学習された韻律モデルと、各表現に与えるベクトルを用いて、学習されたスタイル空間を持つモデルが記憶される韻律モデル記憶部をさらに含み、
    前記音声合成部において、テキスト情報を解析して音韻系列を生成し、この音韻系列と前記友好度と前記評価に基づき、前記韻律モデル記憶部に記憶されるスタイル空間を持つモデルを用いて音声合成のための韻律情報を生成し、音声波形データベースを参照して、前記韻律情報と前記音韻系列に対応する波形を読出して音声合成する、
    音声合成装置。
  4. 請求項1から3の何れかに記載の音声合成装置であって、
    前記投稿者情報には、その投稿者に対する読者のリスト(以下「読者リスト」という)が含まれ、
    投稿者Xの読者数をLNとし、投稿者Yの読者数をLNとし、前記投稿者Xと前記投稿者Yの共通の読者数をCOMXYとし、前記友好度取得部において、前記投稿者Xと前記投稿者Yとの間の友好度fXY
    Figure 2012247557

    として求め、
    会話テキストに含まれるポジティブな単語の個数をpwとし、ネガティブな単語の個数をnwとし、前記評価算出部において、その会話テキストに対する評価eを
    Figure 2012247557

    として算出する、
    音声合成装置。
  5. 請求項1〜4の何れかに記載の音声合成装置であって、
    前記情報ソースには、前記テキスト情報の投稿時間が含まれ、
    前記会話テキスト集合内の前記会話テキスト間の投稿時間に基づき、一つ前の会話テキストn−1の投稿時間と会話テキストnの投稿時間との差(以下「返信時間」という)が大きいほど、大きくなるような値(以下「無音区間情報」という)を求める無音区間取得部を、さらに含み、
    前記音声合成部において、生成される合成音声間の間を前記無音区間情報に基づき定める、
    音声合成装置。
  6. 請求項2〜5の何れかに記載の音声合成装置であって、
    複数の発話者の音声データに基づいて個別に作成された複数の韻律モデルと複数の音声波形データベースを含み、
    前記音声合成部は、前記投稿者情報を用いて、前記韻律モデル及び前記音声波形データベースを一つ選択し、選択した前記韻律モデル及び前記音声波形データベースを用いて、前記テキスト情報に対する合成音声を生成する、
    音声合成装置。
  7. 投稿時間の経過に従って配列された1つ以上のテキスト情報と、そのテキスト情報の投稿者に関する情報(以下「投稿者情報」という)と、そのテキスト情報が他のテキスト情報に対する返信か否かを示す情報(以下「返信情報」という)と、を含む情報ソースを用いて、前記テキスト情報に対する合成音声を生成する音声合成方法であって、
    会話テキストとは返信されるテキスト情報(以下「被返信テキスト情報」という)または前記被返信テキスト情報に対する返信であるテキスト情報であり、非会話テキストとは前記会話テキスト以外のテキスト情報であり、前記返信情報を用いて、前記テキスト情報を前記会話テキストまたは前記非会話テキストに分類し、一つの被返信テキスト情報に起因する一連の会話テキストを一つの会話テキスト集合としてまとめるテキスト情報分類ステップと、
    前記会話テキスト集合に含まれる会話テキストに対応する投稿者情報に基づき、その会話テキスト集合の投稿者間の友好度を求める友好度取得ステップと、
    単語と、その単語に対するポジティブまたはネガティブの評価と、が記憶される単語辞書記憶部を参照して、前記会話テキストに含まれる単語に基づき、その会話テキストに対する評価を算出する評価算出ステップと、
    1つ以上の会話テキスト集合または非会話テキストを、その投稿順に並び替えるテキスト統合ステップと、
    前記友好度が高いほど抑揚が大きくなるように、前記評価がポジティブであるほど抑揚が大きくなるように、前記テキスト統合ステップで並び替えられた投稿順に従って前記テキスト情報に対する合成音声を生成する音声合成ステップと、を含む、
    音声合成方法。
  8. 請求項1〜6の何れかに記載の音声合成装置として、コンピュータを機能させるためのプログラム。
JP2011118167A 2011-05-26 2011-05-26 音声合成装置、その方法及びプログラム Expired - Fee Related JP5650587B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011118167A JP5650587B2 (ja) 2011-05-26 2011-05-26 音声合成装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011118167A JP5650587B2 (ja) 2011-05-26 2011-05-26 音声合成装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012247557A true JP2012247557A (ja) 2012-12-13
JP5650587B2 JP5650587B2 (ja) 2015-01-07

Family

ID=47468054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011118167A Expired - Fee Related JP5650587B2 (ja) 2011-05-26 2011-05-26 音声合成装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5650587B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041411A (ja) * 2000-07-28 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> テキスト読み上げロボット、その制御方法及びテキスト読み上げロボット制御プログラムを記録した記録媒体
JP2002055925A (ja) * 2000-08-07 2002-02-20 Hitachi Ltd 音声読み上げ装置および情報処理装置
JP2006227589A (ja) * 2005-01-20 2006-08-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
JP2007011308A (ja) * 2005-05-30 2007-01-18 Kyocera Corp 文書表示装置及び文書読み上げ方法
JP2007271655A (ja) * 2006-03-30 2007-10-18 Brother Ind Ltd 感情付加装置、感情付加方法及び感情付加プログラム
JP2008276543A (ja) * 2007-04-27 2008-11-13 Toyota Central R&D Labs Inc 対話処理装置、応答文生成方法、及び応答文生成処理プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041411A (ja) * 2000-07-28 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> テキスト読み上げロボット、その制御方法及びテキスト読み上げロボット制御プログラムを記録した記録媒体
JP2002055925A (ja) * 2000-08-07 2002-02-20 Hitachi Ltd 音声読み上げ装置および情報処理装置
JP2006227589A (ja) * 2005-01-20 2006-08-31 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
JP2007011308A (ja) * 2005-05-30 2007-01-18 Kyocera Corp 文書表示装置及び文書読み上げ方法
JP2007271655A (ja) * 2006-03-30 2007-10-18 Brother Ind Ltd 感情付加装置、感情付加方法及び感情付加プログラム
JP2008276543A (ja) * 2007-04-27 2008-11-13 Toyota Central R&D Labs Inc 対話処理装置、応答文生成方法、及び応答文生成処理プログラム

Also Published As

Publication number Publication date
JP5650587B2 (ja) 2015-01-07

Similar Documents

Publication Publication Date Title
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
CN105304080B (zh) 语音合成装置及方法
Yamagishi et al. Acoustic modeling of speaking styles and emotional expressions in HMM-based speech synthesis
US6970820B2 (en) Voice personalization of speech synthesizer
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
US11282503B2 (en) Voice conversion training method and server and computer readable storage medium
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US20090254349A1 (en) Speech synthesizer
US8447603B2 (en) Rating speech naturalness of speech utterances based on a plurality of human testers
CN103778912A (zh) 引导式说话人自适应语音合成的系统与方法及程序产品
US11443731B2 (en) Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
WO2021123792A1 (en) A Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
US9384728B2 (en) Synthesizing an aggregate voice
CN102473416A (zh) 音质变换装置及其方法、元音信息制作装置及音质变换系统
Shahin et al. Talking condition recognition in stressful and emotional talking environments based on CSPHMM2s
Pravena et al. Development of simulated emotion speech database for excitation source analysis
JP2016151736A (ja) 音声加工装置、及びプログラム
Shechtman et al. Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence Architecture.
CN117690456A (zh) 一种基于神经网络的小语种口语智能训练方法、系统及设备
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
CN105895079A (zh) 语音数据的处理方法和装置
KR20210117827A (ko) 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
KR20200122916A (ko) 대화 시스템 및 그 제어 방법
JP5650587B2 (ja) 音声合成装置、その方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141113

R150 Certificate of patent or registration of utility model

Ref document number: 5650587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees