JP2009265279A

JP2009265279A - 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム

Info

Publication number: JP2009265279A
Application number: JP2008113202A
Authority: JP
Inventors: Susumu Takatsuka; 進高塚
Original assignee: Sony Ericsson Mobile Communications Japan Inc
Current assignee: Sony Corp
Priority date: 2008-04-23
Filing date: 2008-04-23
Publication date: 2009-11-12
Also published as: US9812120B2; US20090271202A1; CN101567186B; US20180018956A1; EP2112650B1; EP2112650A1; US10720145B2; EP3086318A1; EP3086318B1; EP2112650B8; CN101567186A

Abstract

【課題】テキスト読み上げ音声が聞く人に機械的な印象を与えず、表現力豊かな再生音声出力となり、聞く人にとって有益な演出等が施された再生音声となるようにする。
【解決手段】
コンテンツ選択インターフェース部１は、ユーザからの指示に応じて、テキストコンテンツ記録メモリ３からテキストコンテンツを選択する。演出判断部２は、選択されたテキストコンテンツに関連付けられたユーザ情報、日時情報、ＢＧＭデータを選択すると共に、ユーザ情報と日時情報のテキストデータを生成する。そして、テキストコンテンツにユーザ情報、日時情報のテキストデータを加えたものをテキスト音声変換再生部７で音声信号に変換する。ミキサ部９では、テキスト音声変換再生部７からの音声信号に、ＢＧＭ再生部からのＢＧＭ音声信号が合成され、その合成音声信号がスピーカ１１から出力される。
【選択図】図１

Description

本発明は、例えばテキストデータから変換した音声に様々な演出を施す場合に好適な音声合成装置、音声合成方法及び音声合成プログラム、携帯情報端末、音声合成システムに関する。

従来より、パーソナルコンピュータやゲーム機器により実現されている機能の一つとして、テキストデータを音声信号に変換してスピーカから出力する機能（いわゆる音声読み上げ機能）が知られている。

当該音声読み上げ機能に使用されるテキスト−音声変換（Text-to-Speech）の手法としては、従来より大きく分けて二通りの手法が知られている。

その一つは録音編集方式であり、もう一つは規則合成方式である。

上記録音編集方式は、言葉等を人間が発声した音声を録音しておき、その録音された音声を組み合わせる等の編集を行うことにより、所望の言葉や文などの音声を合成する手法である。なお、当該音声編集方式では、人間の生の声に近い自然な仕上がりの音声が得られるが、録音した音声を組み合わせて所望の言葉や文などを造るため、稀に組み合わせでは造れない言葉や文が生ずる場合がある。また例えば、幾つかのキャラクターがテキストを読み上げるようなケースに当該録音編集方式による音声変換を適用したとすると、それらキャラクターの数の分だけ、それぞれ異なる音質（声色）の音声データが必要になる。特に音質のクオリティを上げようとすると、１キャラクターあたり例えば６００ＭＢ（メガバイト）もの音声データが必要になる。

一方、規則合成方式は、音声を構成する「音素」や「音節」などの要素を組み合わせて音声を合成する手法である。この規則合成方式では、「音素」や「音節」などの要素を自由に組み合わせることができるため自由度が高い。また、規則合成方式では、素材となる音素データが必要ないので、例えば携帯情報端末のような搭載メモリ容量に限りがある機器の組み込みアプリケーションの音声合成機能に適している。ただし、規則合成方式の場合は、上述の録音編集方式に比べ、合成音声が機械的な音声になり易い。

その他にも、例えば特開２００１−５１６８８号の公開特許公報（特許文献１）には、電子メールの文字情報から文字を発音する音声を合成すると共に、その合成音声に音楽や擬音などを加算して出力するような音声合成を用いた電子メール読み上げ装置が開示されている。

また例えば、特開２００２−３５４１１１号の公開特許公報（特許文献２）には、マイクロホンからの音声と、バックグラウンドミュージック（ＢＧＭ）記録部から再生されたＢＧＭとを合成してスピーカ等から出力するような音声信号合成装置等が開示されている。

また例えば、特開２００５−１０６９０５号の公開特許公報（特許文献３）には、電子メールやウェブサイトに含まれるテキストデータを音声データに変換し、さらに、その音声データを音声信号に変換してスピーカ等から出力するような音声出力システム等が開示されている。

さらに例えば、特開２００３−２２３１８１号の公開特許公報（特許文献４）には、テキストデータを絵文字とその他の文字データに分け、絵文字はイントネーション制御データに変換され、文字データをイントネーション制御データに基づくイントネーションを有する音声信号に変換してスピーカ等から出力するような文字−音声変換装置等が開示されている。

またさらに、特開２００７−２９３２７７号の公開特許公報（特許文献５）には、ＲＳＳコンテンツからテキストを抽出してスピーチに変換するようなＲＳＳコンテンツ管理の方法等が開示されている。

特開２００１−５１６８８号公報（図１）特開２００２−３５４１１１号公報（図１）特開２００５−１０６９０５号公報（図１）特開２００３−２２３１８１号公報（図１）特開２００７−２９３２７７号公報（図１）

ところで、上述したような従来のテキスト−音声変換の各技術では、あくまでテキストデータを音声信号に変換して再生するだけである。このため、再生出力された音声は、機械的な音声であり、演出力に乏しいという欠点がある。

例えば、上記録音編集方式では、前述したように人間の生の声に近い自然な仕上がりの音声が得られるが、あくまでテキストを音声に変換したもののみであり面白みに欠ける。また、規則合成方式では、前述したように合成音声が機械的な音声になり易く、表現力に乏しい欠点がある。

一方、上述の公開特許公報に挙げたように、音声にＢＧＭを追加したりイントネーションを追加することで、或る程度の演出を加える技術も存在するが、それらは聞く人にとって必ずしも有益な演出であるとは言い難い。

本発明は、例えばテキストデータから変換された音声信号を再生出力するような場合に、聞く人に機械的な印象を与えることなく、表現力が豊かな再生音声出力を得ることができる音声合成装置、音声合成方法及び音声合成プログラム、携帯情報端末、音声合成システムを提供することを目的とする。

また本発明は、聞く人にとって或る程度有益な演出等が施された再生音声を出力可能とする音声合成装置、音声合成方法及び音声合成プログラム、携帯情報端末、音声合成システムを提供することを目的とする。

本発明は、音声変換するテキストコンテンツを選択し、その選択されたテキストコンテンツに関連付けられた少なくともテキスト化可能な関連情報を選択し、さらに、その関連情報をテキストデータ化して、先に選択されたテキストコンテンツのデータに付加する。そして、そのテキストデータを音声信号に変換して出力する。これにより、本発明は、上述した課題を解決する。

すなわち本発明によれば、テキストコンテンツが選択されると、そのテキストコンテンツの関連情報をも選択し、その関連情報をテキスト化してテキストデータに付加し、当該付加後のテキストデータを音声変換している。言い換えると、本発明によれば、テキストデータを単に音声変換するのみではなく、関連情報による演出等が施されたテキストデータの音声変換を行っている。

本発明においては、音声変換するテキストコンテンツを選択し、さらにその選択されたテキストコンテンツに関連付けられた関連情報をテキストデータ化して付加し、そのテキストデータを音声信号に変換して出力する。これにより本発明においては、例えばテキストデータから変換された音声信号を再生出力するような場合に、聞く人に機械的な印象を与えることなく、表現力が豊かな再生音声出力を得ることができる。また本発明においては、また聞く人にとって或る程度有益な演出等が施された再生音声を出力可能となる。

以下、図面を参照しながら、本発明の一実施形態について説明する。

なお、本実施形態はあくまで一例であり、本発明はこの例に限定されないことは言うまでもない。

〔音声合成装置の概略的な内部構成〕
図１には、本発明実施形態の音声合成装置の概略的な内部構成例を示す。

なお、本実施形態の音声合成装置は、据え置き型の各種機器のみならず、携帯電話端末やＰＤＡ（PDA：Personal Digital Assistants）、ノート型等のパーソナルコンピュータ、ナビゲーション装置や携帯型ＡＶ機器、携帯型ゲーム機など様々なモバイル機器にも適用可能である。また、本発明の音声合成装置は、各構成要素がそれぞれ独立した機器からなる音声合成システムであっても良い。本実施形態では、音声合成装置が適用される機器の一例として携帯電話端末を挙げている。また、本実施形態において、テキストを音声に変換する方式は、録音編集方式と規則合成方式の何れにも適用可能であるが、本実施形態は特に規則合成方式のような機械的な合成音声に表現力を加える際に好適である。

図１に示す本実施形態の携帯電話端末は、コンテンツ選択インターフェース部１、演出判断部２、テキストコンテンツ記録メモリ３、ユーザ情報記録メモリ４、日時記録部５、バックグラウンドミュージック（ＢＧＭ）記録メモリ６、テキスト音声変換再生部７、ＢＧＭ再生部８、ミキサ部９、音声認識・ユーザ指示判定部１０、及び、スピーカ又はヘッドフォン１１を有して構成されている。

テキストコンテンツ記録メモリ３には、例えば、電子メール、ユーザのスケジュール、料理のレシピ、道案内（ナビゲーション）情報、インターネット等を通じてダウンロードされたニュースや天気予報，株価，テレビジョン番組表，ウェブページ，ウェブログ，占い情報など、様々なテキストコンテンツのデータ（特にテキストデータ）が記録されている。なお、以下の説明では、テキストコンテンツのデータを簡略化してテキストコンテンツ或いは単にコンテンツと表記することにする。これらテキストコンテンツはあくまで一例として挙げたものであり、テキストコンテンツ記録メモリ３には、その他の様々なテキストコンテンツも記録されている。

ユーザ情報記録メモリ４には、テキストコンテンツ記録メモリ３に記録されているテキストコンテンツに各々関連したユーザ情報が記録されている。各テキストコンテンツとユーザ情報の関連付けは、ユーザによる事前の設定や、コンテンツ毎の事前の設置、後述する音声合成プログラム制作者による設定などより行われている。また、テキストコンテンツ内に元々ユーザ情報が含まれている場合には、上述のようなテキストコンテンツとユーザ情報の関連付けは事前に行われていなくても良い。なお、各コンテンツに関連するユーザ情報の一例としては、当該携帯電話端末の使用者の名前や電子メール送信者の名前、予定スケジュールの参加者の名前等のような、少なくともテキスト化可能な情報を挙げることができる。勿論、テキストコンテンツの中にはユーザ情報が関連付けられていないものがあっても良い。

上記日時記録部５には、テキストコンテンツ記録メモリ３に記録されている各コンテンツに関連付けられた日時情報が記録されている。各コンテンツと日時情報との関連付けは、ユーザによる事前の設定情報や、コンテンツ毎の事前の設置情報、後述する音声合成プログラム制作者による設定情報などに応じて行われている。なお、各コンテンツに関連する日時情報としては、現在の年月日時刻等の日時情報を挙げることができ、その他にもコンテンツ毎に特有の日時情報であっても良い。上記特有の日時情報としては、一例として、ニュースの場合にはそのニュースの配信日時の情報等、スケジュール帳の場合には予定スケジュールの日時等の情報等、電子メールの場合にはその電子メールの受信日時や送信日時の情報等のような、少なくともテキスト化可能な情報を挙げることができる。勿論、テキストコンテンツの中には日時情報が関連付けられていないものがあっても良い。

上記ＢＧＭ記録メモリ６には、複数のＢＧＭデータが記録されている。このＢＧＭ記録メモリ６内のＢＧＭデータは、テキストコンテンツ記録メモリ３に記録されている各コンテンツにそれぞれ関連付けられているものと、関連付けられていないものとに分けられる。各コンテンツとＢＧＭデータの関連付けは、ユーザによる事前の設定情報や、コンテンツ毎の事前の設置情報、音声合成プログラム制作者による設定情報などに応じて行われる。また、各コンテンツとＢＧＭデータの関連付けはランダムに行われても良い。当該ランダムな関連付けを行うか否かは、予め設定されていても良い。また、当該ランダムな関連付けは、後述するコンテンツ選択インターフェース部１でコンテンツが選択された際に自動的に行われても良い。

音声認識・ユーザ指示判定部１０は、マイクロフォンを通じて入力されたユーザの音声認識を行い、その音声認識結果からユーザの指示入力内容を判定する。

コンテンツ選択インターフェース部１は、上記テキストコンテンツ記録メモリ３に記録されている各テキストコンテンツの中から、ユーザが所望のコンテンツを選択するためのインターフェース部である。当該コンテンツの選択は、上記テキストコンテンツ記録メモリ３に記録されている各テキストコンテンツの中からユーザが直接選択する場合と、ユーザからの起動指示入力に応じて当該携帯電話端末内のアプリケーションプログラムが起動した時に自動的に行われる場合とがある。なお、ユーザが選択指示を入力する場合、例えばディスプレイ画面上に複数のコンテンツ選択メニューが表示される。そして、ユーザにより、当該コンテンツ選択メニュー表示画面の中から、例えばキーやタッチパネル操作を通じて所望のコンテンツの選択指示が入力された時に、コンテンツ選択インターフェース部１は当該コンテンツを選択する。アプリケーションの起動に応じたコンテンツの選択は、例えばディスプレイ画面上の複数のアプリケーション起動アイコンがユーザにより選択指示されることにより、そのアプリケーションが起動した時に行われる。その他にも、コンテンツの選択は、音声認識を介した音声により行われても良い。この場合、上記音声認識・ユーザ指示判定部１０において、ユーザの音声認識が行われ、その認識結果からユーザの指示入力内容が判定される。そして、その音声認識によるユーザ指示入力がコンテンツ選択インターフェース部１へ送られる。これにより、コンテンツ選択インターフェース部は、ユーザの音声指示入力に応じたコンテンツを選択する。

演出判断部２は、本発明の音声合成プログラムを実行し、上記コンテンツ選択インターフェース部１を通じてユーザが選択したテキストコンテンツを、上記テキストコンテンツ記録メモリ３から取り出す。なお、本発明にかかる音声合成プログラムは、予め携帯電話端末の出荷時に内部メモリ等にインストールされている場合だけでなく、例えばディスク状記録媒体や外部半導体メモリ等を介してインストールされたり、外部インターフェースを通じたケーブル或いは無線を介してインストールされたものであっても良い。

同時に、演出判断部２は、当該選択されたテキストコンテンツに関連したユーザ情報、日時情報、ＢＧＭ情報等を選択する。すなわち、演出判断部２は、コンテンツ選択インターフェース部１にてテキストコンテンツが選択されると、そのコンテンツに関連したユーザ情報が存在する場合にはそのユーザ情報をユーザ情報記録メモリ４から取り出す。また、演出判断部２は、選択されたテキストコンテンツに関連した日時情報が存在する場合にはその日時情報を日時情報記録部５から取り出す。同様に、演出判断部２は、選択されたテキストコンテンツに関連したＢＧＭデータが存在する場合にはそのＢＧＭデータをＢＧＭ記録メモリ６から取り出す。なお、テキストコンテンツとＢＧＭデータとの関連付けがランダム設定になされている場合には、演出判断部２は、ＢＧＭ記録メモリ６からランダムにＢＧＭデータを取り出す。

そして、演出判断部２は、それらユーザ情報や日時情報、ＢＧＭデータを基に、上記選択されたテキストコンテンツに演出を施す。

すなわち例えば、上記ユーザ情報をユーザの名前等のテキストデータに変換し、同様に日時情報を日時等のテキストデータに変換して、それらユーザ名や日時等のテキストデータを上記選択されたテキストコンテンツの例えば前や途中、最後などに適宜付け加えるようにする。

テキスト音声変換再生部７は、演出判断部２から上記テキストコンテンツとそれに付け加えられた演出用のユーザ名や日時のテキストデータが送られてくると、それらのテキストデータを音声信号に変換する。そして、当該テキスト変換音声信号をミキサ部９へ出力する。

また、ＢＧＭ再生部８は、上記演出判断部２からＢＧＭデータが送られてくると、そのＢＧＭデータからＢＧＭ音声信号（音楽信号）を生成する。

ミキサ部９は、テキスト音声変換部７からテキスト変換音声信号が供給され、またＢＧＭ再生部９からＢＧＭ音声信号が供給されると、それらをミックスしてスピーカ又はヘッドホン（以下、スピーカ１１とする。）に出力する。

これにより、スピーカ１１からは、テキストから変換された音声とＢＧＭがミックスされた音声が出力される。すなわち、本実施形態の場合、その音声は、テキストコンテンツを単にテキスト−音声変換したものにＢＧＭを加えたのみではなく、例えばユーザ名や日時の音声等が演出として付け加えられた音声となっている。これらユーザ名や日時等は、テキストコンテンツに関連したものであるため、本実施形態において付加される演出は、その音声を聞く人にとって有益なものとなる。

〔演出の一例〕
ここで、上記演出判断部２がテキストコンテンツに付け加える演出について、以下に幾つかの具体例を挙げて説明する。なお、本発明は以下の具体例に限定されないことは言うまでもない。

上記テキストコンテンツに演出が加えられる一例として、テキストコンテンツが受信電子メールである場合、上記ユーザ情報は、例えばその電子メールの送信元情報と当該携帯電話端末の使用者情報となされ、日時情報は、例えば現在の日時とその受信電子メールの受信日時となされる。なお、電子メールの送信元情報は、実際には電子メールアドレス情報であるが、携帯電話端末のアドレス帳内に当該電子メールアドレスに関連した名前等が登録されている場合には、上記送信元情報としてその名前を用いることができる。

すなわち、当該受信電子メールをテキスト−音声変換により読み上げて音声出力することがユーザにより指示された場合、演出判断部２は、例えば、ユーザ情報記録メモリ４から使用者情報を取り出し、また、日時記録部５から現在日時情報を取り出して、それらの情報から、当該使用者への呼びかけと現在の日時を表すテキストデータを生成する。また同時に、演出判断部２は、図示しない電子メール受信部にて受信されて上記テキストコンテンツ記録メモリ３に記録された受信電子メールのデータから、送信元の名前を表すテキストデータと、その受信電子メールの受信日時を表すテキストデータを生成する。そして、演出判断部２は、それらテキストデータを適宜繋げて演出用のテキストデータを生成する。より具体的に説明すると、上記使用者氏名が例えば「Ａ」で、現在日時が例えば「夜」の時間帯、送信元の名前が例えば「Ｂ」で、電子メール受信日時が例えば「４月８日午後６時３０分」であるような場合、演出判断部２は、一例として「Ａさんこんばんは、Ｂさんからのメールを午後６時３０分に受信しました。」のようなテキストデータを演出用のデータとして生成する。その後、演出判断部２は、上述の演出用のテキストデータを、受信電子メールのタイトル及び本文のテキストデータの例えば前に付け加え、それらテキストデータをテキスト音声変換再生部７へ送る。

また同時に、演出判断部２は、電子メールのコンテンツについて予め設定してあるか、若しくはランダムに設定されているＢＧＭのデータを、ＢＧＭ記録メモリ６から読み出す。なお、電子メールのコンテンツについて予め設定されたＢＧＭデータは、例えばアドレス帳の各登録者名毎に予め設定されたものであっても良いし、受信フォルダについて予め設定されたものや、グループ分けされた受信フォルダ毎に予め設定されたもの、或いは、ランダムに設定されたものであっても良い。演出判断部２は、上記ＢＧＭ記録メモリ６から読み出したＢＧＭデータを、ＢＧＭ再生部８へ送る。

これにより、上記ミキサ部９でミックスされ、最終的にスピーカ１１から出力される音声は、上述したように、「Ａさんこんばんは、Ｂさんからのメールを午後６時３０分に受信しました。」の演出用音声の後に受信電子メールのタイトル及び本文を読み上げた音声と、演出用のＢＧＭ音楽とがミックスされたものとなる。

上記テキストコンテンツに演出が加えられる他の例として、テキストコンテンツがインターネット等からダウンロードしたニュースである場合、上記ユーザ情報は、例えば当該携帯電話端末の使用者情報となされ、日時情報は、例えば現在の日時とそのニュースの配信受信日時となされる。

すなわち、当該ニュースをテキスト−音声により読み上げて音声出力することがユーザにより指示された場合、演出判断部２は、例えば、ユーザ情報記録メモリ４から使用者情報を取り出し、また、日時記録部５から現在日時情報を取り出して、それらの情報から、当該使用者への呼びかけと現在の日時を表すテキストデータを生成する。また同時に、演出判断部２は、図示しないインターネット接続部を通じてダウンロードされて上記テキストコンテンツ記録メモリ３に記録されたニュースの配信データから、ニュースのトピックスを表すテキストデータと、各ニュースの配信日時を表すテキストデータを生成する。そして、演出判断部２は、それらテキストデータを適宜繋げて演出用のテキストデータを生成する。より具体的に説明すると、上記使用者氏名が例えば「Ａ」で、現在日時が例えば「朝」の時間帯、ニュースのトピックスが例えば「ガソリン税」で、ニュースの配信日時が例えば「４月８日午前９時」であるような場合、演出判断部２は、一例として「Ａさんおはようございます。ガソリン税に関する午前９時のニュースです。」のようなテキストデータを演出用のデータとして生成する。その後、演出判断部２は、上述の演出用のテキストデータを、ニュース本文のテキストデータの例えば前に付け加え、それらテキストデータをテキスト音声変換再生部７へ送る。その他に、ニュースを読み上げる擬人化されたキャラクタ「Ｃ」等が設定されているような場合には、一例として、「本日のニュースを、ニュースキャスターＣがお伝えします。」などの上記演出用のテキストデータを付け加えるようにしても良い。

また同時に、演出判断部２は、ニュースのコンテンツについて予め設定してあるか、若しくはランダムに設定されているＢＧＭのデータを、ＢＧＭ記録メモリ６から読み出す。なお、ニュースのコンテンツについて予め設定されたＢＧＭデータは、例えばニュースに対して予め設定されたものであっても良いし、例えばニュースのジャンル毎やニュースの配信元毎に予め設定されたもの、或いは、ランダムに設定されたものであっても良い。演出判断部２は、上記ＢＧＭ記録メモリ６から読み出したＢＧＭデータを、ＢＧＭ再生部８へ送る。

これにより、上記ミキサ部９でミックスされ、最終的にスピーカ１１から出力される音声は、上述したように、「Ａさんおはようございます。ガソリン税に関する午前９時のニュースです。」の演出用音声の後にニュース本文を読み上げた音声と、演出用のＢＧＭ音楽とがミックスされたものとなる。

上記テキストコンテンツに演出が加えられるさらに他の例として、テキストコンテンツが料理のレシピである場合、上記ユーザ情報は、例えば当該携帯電話端末の使用者情報となされ、日時情報は、例えば現在の日時と料理のレシピ中の各種時間となされる。

すなわち、当該料理のレシピをテキスト−音声により読み上げて音声出力することがユーザにより指示された場合、演出判断部２は、例えば、ユーザ情報記録メモリ４から使用者情報を取り出し、また、日時記録部５から現在日時情報を取り出して、それらの情報から、当該使用者への呼びかけと現在の日時を表すテキストデータを生成する。また同時に、演出判断部２は、テキストコンテンツ記録メモリ３に記録されている料理のレシピのデータから、その料理のタイトルを表すテキストデータと、料理の手順を説明するテキストデータを生成する。そして、演出判断部２は、それらテキストデータを適宜繋げて演出用のテキストデータを生成する。より具体的に説明すると、上記使用者氏名が例えば「Ａ」で、現在日時が例えば「昼」の時間帯、料理のタイトルが例えば「ハンバーグ」であるような場合、演出判断部２は、一例として「Ａさんこんにちは。美味しいハンバーグを作りましょう。」のようなテキストデータを演出用のデータとして生成する。その後、演出判断部２は、上述の演出用のテキストデータを、料理の手順を説明するテキストデータの例えば前に付け加え、それらテキストデータをテキスト音声変換再生部７へ送る。また特に、料理の手順のように、ハンバーグを焼く時間などのように途中で或る時間を計測する必要がある場合、演出判断部２は、その時間のカウントも行う。その他に、料理のレシピを読み上げる擬人化されたキャラクタ「Ｃ」等が設定されているような場合には、一例として、「美味しいハンバーグの作り方を、私Ｃがお伝えします。」などの上記演出用のテキストデータを付け加えるようにしても良い。

また同時に、演出判断部２は、料理レシピのコンテンツについて予め設定してあるか、若しくはランダムに設定されているＢＧＭのデータを、ＢＧＭ記録メモリ６から読み出す。なお、料理レシピのコンテンツについて予め設定されたＢＧＭデータは、例えばその料理レシピに対して予め設定されたものであっても良いし、例えば料理のジャンル毎に予め設定されたもの、或いは、ランダムに設定されたものであっても良い。演出判断部２は、上記ＢＧＭ記録メモリ６から読み出したＢＧＭデータを、ＢＧＭ再生部８へ送る。

これにより、上記ミキサ部９でミックスされ、最終的にスピーカ１１から出力される音声は、上述したように、「Ａさんこんにちは。美味しいハンバーグを作りましょう。」の演出用音声の後に料理の手順の説明文を読み上げた音声と、演出用のＢＧＭ音楽とがミックスされたものとなる。

なお、本発明実施形態において、上記演出判断部２がテキストコンテンツに付け加える演出は、上述した具体例の他にも多種多様の演出が可能であるが、冗長になるため、ここではそれら全てについて説明することは行わないこととする。

また、本実施形態では、上述したようなテキスト−音声変換によるテキスト読み上げの処理が行われている時に、例えばユーザから音声による指示入力等がなされた場合には、その指示入力に従って、テキスト読み上げの一時停止や再開、終了、繰り返し、別のテキストコンテンツの読み上げへの移行などが行われる。すなわち、音声認識・ユーザ指示判定部１０は、マイクロフォン等を通じて入力された音声についていわゆる音声認識を行い、その音声認識結果からユーザの指示入力内容を判定し、その指示入力内容を演出判断部２へ伝える。これにより、演出判断部２は、ユーザから上記一時停止、再開、終了、繰り返し、別のテキストコンテンツの読み上げへの移行などの何れの指示がなされたかを判断し、その指示に応じた処理を行う。

〔テキスト−音声変換処理のフロー〕
図２には、本実施形態の携帯電話端末において、テキストコンテンツの選択から、当該コンテンツへの演出の付加までの処理の流れを示す。なお、この図２に示したフローチャートの処理は、演出判断部２が本発明の音声合成プログラムを実行することにより行われる処理である。

図２において、演出判断部２は、音声合成プログラムの起動後、コンテンツ選択インターフェース部１からの入力待ち状態となる。そして、ステップＳ１の処理として、当該コンテンツ選択インターフェース部１を通じてユーザにより何れかのテキストコンテンツの選択指示が入力されると、演出判断部２は、その選択指示に応じたテキストコンテンツをテキストコンテンツ記録メモリ３から読み出す。

次に、ステップＳ２の処理として、演出判断部２は、そのテキストコンテンツに関連したユーザ情報がユーザ情報記録メモリ４内に設定されているか判断する。そして、演出判断部２は、上記ユーザ情報が設定されている時にはステップＳ３へ処理を進め、設定されていないときにはステップＳ４へ処理を進める。

ステップＳ３の処理に進むと、演出判断部２は、前述したように、そのユーザ情報に応じたテキストデータをテキスト音声変換再生部７へ送って音声化させるようにする。

一方、ステップＳ４の処理に進むと、演出判断部２は、上記テキストコンテンツに関連した日時情報が日時記録部５に設定されているか判断する。そして、演出判断部２は、上記日時情報が設定されている時にはステップＳ５へ処理を進め、設定されていないときにはステップＳ６へ処理を進める。

ステップＳ５の処理に進むと、演出判断部２は、前述したように、その日時情報に応じたテキストデータをテキスト音声変換再生部７へ送って音声化させるようにする。

一方、ステップＳ６の処理に進むと、演出判断部２は、上記テキストコンテンツの例えば種類を判定し、次のステップＳ７へ処理を進める。

ステップＳ７の処理に進んだ場合、演出判断部２は、上記テキストコンテンツの種類に関連したＢＧＭデータがＢＧＭ記録メモリ６に設定されているか判断する。そして、演出判断部２は、上記ＢＧＭデータが設定されている時にはステップＳ８へ処理を進め、設定されていないときにはステップＳ９へ処理を進める。

ステップＳ８の処理に進むと、演出判断部２は、前述したように、そのＢＧＭデータをＢＧＭ記録メモリ６から読み出してＢＧＭ再生部８へ送って再生させるようにする。

一方、ステップＳ９の処理に進むと、演出判断部２は、ＢＧＭをランダム選曲する設定がなされているか判断する。そして、演出判断部２は、上記ランダム選曲が設定されている時にはステップＳ１０へ処理を進め、設定されていないときにはステップＳ１１へ処理を進める。

ステップＳ１０の処理に進むと、演出判断部２は、ＢＧＭ記録メモリ６からランダムに選び出したＢＧＭデータをＢＧＭ再生部８へ送って再生させるようにする。

一方、ステップＳ１１の処理に進むと、演出判断部２は、上記テキストコンテンツのデータをテキスト音声変換再生部７へ送り、音声化させるようにする。

その後、演出判断部２は、ステップＳ１２の処理として、上記テキスト音声変換再生部７で前述のようにテキストが音声化された音声信号をミキサ部９へ出力させ、同時に、ＢＧＭ再生部８で再生させたＢＧＭ音声信号をミキサ部９へ出力させる。これにより、ミキサ部９では、テキストから変換された音声信号とＢＧＭ音声信号とが合成されることになり、その合成音声がスピーカ１１から出力されることになる。

〔ネットワーク上の情報を用いた音声合成装置の概略的な内部構成〕
前述したユーザ情報や日時情報、テキストコンテンツ、ＢＧＭデータは、例えばネットワーク上のサーバ等に用意されていても良い。

図３には、それら情報をネットワーク上に用意した場合の音声合成装置の概略的な内部構成例を示す。なお、図３において、図１と同じ構成要素にはそれぞれ同じ指示符号を付して適宜それらの説明は省略する。

図３の構成例の場合、本発明の音声合成装置の一例である携帯電話端末は、コンテンツ選択インターフェース部１、演出判断部２、テキスト音声変換再生部７、ＢＧＭ再生部８、ミキサ部９、音声認識・ユーザ指示判定部１０、及び、スピーカ又はヘッドフォン１１を有して構成されている。すなわち、この図３の構成例の場合、テキストコンテンツはネットワーク上のテキストコンテンツ記録装置２３に用意されている。同様に、テキストコンテンツに関連付けられたユーザ情報はネットワーク上のユーザ情報記録装置２４に、テキストコンテンツに関連付けられた日時情報はネットワーク上の日時記録装置２５に用意されている。また、ＢＧＭデータについても、ネットワーク上のＢＧＭ記録装置２６に用意されている。これらテキストコンテンツ記録装置２３、ユーザ情報記録装置２４、日時記録装置２５、ＢＧＭ記録装置２６は、例えばサーバからなり、図示しないネットワークインターフェース部を介して演出判断部２に接続可能となされている。

この図３の構成例において、テキストコンテンツの選択やそのテキストコンテンツへの演出の付加、それらを音声化した音声信号とＢＧＭの合成の処理については上述の図１及び図２の例と同様である。但し、この例の場合は、テキストコンテンツ記録装置２３、ユーザ情報記録装置２４、日時記録装置２５、ＢＧＭ記録装置２６と、演出判断部２との間のデータのやり取りは、ネットワークインターフェース部を通じて行われる。

なお、インターネット上のウェブページのコンテンツを取得するような場合において、演出判断部２は、そのウェブページの例えばＵＲＬ（Uniform Resource Locator）に含まれる情報を基に、そのページから取得されるコンテンツの種類を判断することもできる。そして、演出判断部２は、ＢＧＭ選曲の際に、当該コンテンツの種類に応じたＢＧＭを選ぶようなことが可能となる。一例を挙げて説明すると、例えばニュースのウェブページの場合、そのページのＵＲＬ内には「ｎｅｗｓ」等の文字が記述されていることが多い。したがって、演出判断部２は、当該ＵＲＬ内に「ｎｅｗｓ」等の文字を検出した場合には、そのウェブページから得られるコンテンツはニュースのジャンルに含まれると判断する。そして、演出判断部２は、ＢＧＭ記録装置２６からＢＧＭデータを取得する際には、当該ニュースのコンテンツに関連して予め設定したＢＧＭデータを選択する。その他にも、ＵＲＬではなく、ウェブページ内に記載された文字等（ｎｅｗｓ等）からコンテンツの種類を判断するようにしても良い。

また一般に、インターネットブラウザ画面には、ユーザがジャンル等により分けたフォルダ（いわゆるブックマークのフォルダ）内にＵＲＬが登録されていることが多い。したがって、インターネットのウェブページからコンテンツを取得する場合、演出判断部２は、何れのフォルダ内のＵＲＬによりウェブページが表示されたかどうかを監視することにより、そのウェブページから得られるコンテンツのジャンル等を判断することも可能である。

〔ホームオーディオシステムとの連携による音声合成〕
テキスト−音声変換された音声とＢＧＭとの合成は、例えばテキスト−音声変換された音声用のスピーカから出力された音声と、ＢＧＭ用のスピーカから出力された音声とを、空気中で合成することにより実現しても良い。

すなわち例えば、テキスト−音声変換された音声については例えば携帯電話端末のスピーカから出力し、一方、ＢＧＭについては例えばホームオーディオシステムのスピーカから出力させるようにすれば、それら音声は空気中で合成されることになる。

この例の場合、携帯電話端末には、少なくとも、コンテンツ選択インターフェース部、演出判断部、テキスト音声変換再生部が設けられる。なお、日時情報やユーザ情報、テキストコンテンツは、図１の例のように携帯電話端末内に記録されていても良いし、図３の例のようにネットワーク上に用意されていても良い。

一方、ＢＧＭ記録装置とＢＧＭ再生装置は、例えばホームオーディオシステムを構成する装置の一つとなされる。なお、ＢＧＭデータは、携帯電話端末内に記録されていて、前述のように選択されたＢＧＭデータが、例えば無線通信などにより当該携帯電話端末からホームオーディオシステムのＢＧＭ再生装置へ転送されても良い。

その他にも、例えば携帯電話端末には、コンテンツ選択インターフェース部と演出判断部のみ用意し、テキスト−音声変換についてはテキスト音声変換装置が行い、当該テキスト音声変換装置からの音声信号と、ホームオーディオシステムのＢＧＭ再生装置からのＢＧＭ再生音楽信号を、同じくホームオーディオシステムのミキサ装置により合成して、当該ホームオーディオシステムのスピーカから出力するようにしても良い。

〔まとめ〕
以上説明したように、本実施形態によれば、テキストコンテンツの音声読み上げ指示がなされた時、そのコンテンツに関連したユーザ情報や日時情報、ＢＧＭ情報が選択され、それらユーザ情報，日時情報，ＢＧＭ情報により、上記テキストコンテンツの読み上げ音声に演出が付加されることにより、聞く人に機械的な印象を与えることなく、表現力が豊かな読み上げ音声出力を得ることができる。また、コンテンツに付加される演出は、そのコンテンツに関連したユーザ情報や日時情報に基づいた演出となされているため、聞く人にとって或る程度有益な演出等が施された読み上げ音声が得られることになる。

なお、上述した実施形態の説明は、本発明の一例である。このため、本発明は上述した実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることはもちろんである。

上述した実施形態において、テキストコンテンツを読み上げる際の言語は、何れかの一つの言語に限定されず、日本語、英語、フランス語、ドイツ語、ロシア語、アラビア語、中国語など何れの言語であっても良い。

本発明実施形態の音声合成装置の概略的な内部構成例を示すブロック図である。テキストコンテンツの選択から演出の付加までの処理の流れを示すフローチャートである。ユーザ情報，日時情報，テキストコンテンツ，ＢＧＭデータ等をネットワーク上のサーバ等に用意した場合の音声合成装置の概略的な内部構成例を示すブロック図である。

符号の説明

１コンテンツ選択インターフェース部、２演出判断部、３テキストコンテンツ記録メモリ、４ユーザ情報記録メモリ、５日時記録部、６ＢＧＭ記録メモリ、７テキスト音声変換再生部、８ＢＧＭ再生部、９ミキサ部、１０音声認識・ユーザ指示判定部、１１スピーカ、２３テキストコンテンツ記録装置、２４ユーザ情報記録装置、２５日時記録装置、２６ＢＧＭ記録装置

Claims

音声変換するテキストコンテンツを選択するコンテンツ選択部と、
上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた、少なくともテキスト化可能な関連情報を選択する関連情報選択部と、
上記関連情報選択部にて選択された関連情報をテキスト化し、そのデータを上記コンテンツ選択部にて選択されたテキストコンテンツのテキストデータに付加するデータ付加部と、
上記データ付加部からのテキストデータを音声信号に変換するテキスト音声変換部と、
上記テキスト音声変換部からの音声信号を出力する音声出力部と、
を有する音声合成装置。
上記関連情報選択部は、上記選択されたテキストコンテンツに関連付けられた音楽データを選択し、
上記音声出力部は、上記テキスト音声変換部からの音声信号に上記音楽データの音声信号を合成して出力する請求項１記載の音声合成装置。
上記関連情報選択部は、上記コンテンツ選択部にて選択可能な複数のテキストコンテンツに関連付けられて予め記録された複数の関連情報の中から、上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた上記関連情報を選択する請求項１又は請求項２記載の音声合成装置。
上記コンテンツ選択部は、ネットワーク上の複数のテキストコンテンツの中から所望のテキストコンテンツを選択し、
上記関連情報選択部は、上記コンテンツ選択部にて選択可能な複数のテキストコンテンツに関連付けられてネットワーク上に用意された複数の関連情報の中から、上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた上記関連情報を選択する請求項１又は請求項２記載の音声合成装置。
音声変換するテキストコンテンツを、コンテンツ選択部が選択するステップと、
上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた、少なくともテキスト化可能な関連情報を、関連情報選択部が選択するステップと、
データ付加部が、上記関連情報選択部にて選択された関連情報をテキスト化し、そのデータを上記コンテンツ選択部にて選択されたテキストコンテンツのテキストデータに付加するステップと、
上記データ付加部からのテキストデータを、テキスト音声変換部が音声信号に変換するステップと、
音声出力部が、上記テキスト音声変換部からの音声信号を出力するステップと、
を有する音声合成方法。
上記関連情報選択部が、上記選択されたテキストコンテンツに関連付けられた音楽データを選択するステップを有し、
上記音声出力部が、上記テキスト音声変換部からの音声信号に上記音楽データの音声信号を合成して出力するステップを有する請求項５記載の音声合成方法。
音声変換するテキストコンテンツを選択するコンテンツ選択部と、
上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた、少なくともテキスト化可能な関連情報を選択する関連情報選択部と、
上記関連情報選択部にて選択された関連情報をテキスト化し、そのデータを上記テキスト選択部にて選択されたテキストコンテンツのテキストデータに付加するデータ付加部と、
上記データ付加部からのテキストデータを音声信号に変換するテキスト音声変換部と、
上記テキスト音声変換部からの音声信号を出力する音声出力部として、
コンピュータを機能させる音声合成プログラム。
上記関連情報選択部は、上記選択されたテキストコンテンツに関連付けられた音楽データを選択し、
上記音声出力部は、上記テキスト音声変換部からの音声信号に上記音楽データの音声信号を合成して出力する請求項７記載の音声合成プログラム。
ユーザからの指示入力を取得する指示入力部と、
音声変換するテキストコンテンツを、上記ユーザからの指示入力に応じて選択するコンテンツ選択部と、
上記コンテンツ選択部にて選択されたテキストコンテンツに関連付けられた、少なくともテキスト化可能な関連情報を選択する関連情報選択部と、
上記関連情報選択部にて選択された関連情報をテキスト化し、そのデータを上記コンテンツ選択部にて選択されたテキストコンテンツのテキストデータに付加するデータ付加部と、
上記データ付加部からのテキストデータを音声信号に変換するテキスト音声変換部と、
上記テキスト音声変換部からの音声信号を出力する音声出力部と、
を有する携帯情報端末。
上記関連情報選択部は、上記選択されたテキストコンテンツに関連付けられた音楽データを選択し、
上記音声出力部は、上記テキスト音声変換部からの音声信号に上記音楽データの音声信号を合成して出力する請求項９記載の携帯情報端末。
音声変換するテキストコンテンツをユーザからの指示入力に応じて選択し、当該選択したテキストコンテンツに関連付けられた少なくともテキスト化可能な関連情報を選択し、当該選択された関連情報をテキスト化して、そのデータを上記ユーザの指示入力に応じて選択されたテキストコンテンツのテキストデータに付加する選択付加装置と、
上記選択付加装置からのテキストデータを音声信号に変換するテキスト音声変換装置と、
上記テキスト音声変換装置からの音声信号に応じた音声を空気中に出力する音声出力装置とを、
少なくとも有する音声合成システム。
上記選択付加装置は、上記選択されたテキストコンテンツに関連付けられた音楽データを選択し、
上記音声出力装置は、上記テキスト音声変換装置からの音声信号に上記音楽データの音声信号を合成し、その合成音声信号に応じた音声を出力する請求項１１記載の音声合成システム。
上記選択付加装置は、上記選択されたテキストコンテンツに関連付けられた音楽信号を選択し、
上記音声出力装置は、上記テキスト音声変換装置からの音声信号に応じた音声を空気中に出力する装置と、上記選択付加装置からの音楽信号に応じた音声を空気中に出力装置とからなる請求項１１記載の音声合成システム。