JP2006301063A

JP2006301063A - コンテンツ提供システム、コンテンツ提供装置および端末装置

Info

Publication number: JP2006301063A
Application number: JP2005119465A
Authority: JP
Inventors: 拓弥 ▲高▼橋; Takuya Takahashi
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-04-18
Filing date: 2005-04-18
Publication date: 2006-11-02

Abstract

【課題】音声合成により生成された音声を容易に認識できるようにする。
【解決手段】コンテンツ提供装置３０は、テキストデータが示す文章を音声合成し、合成された音声を表す音声データを生成する。コンテンツ提供装置３０は、生成した音声データを解析し、音声データが再生された時に母音が発音される時点を特定する。そして、この特定した各時点と、各時点で発音される母音とを対応付けた時点データを生成する。次にコンテンツ提供装置３０は、キャラクタの顔画像データ、このキャラクタの口元の画像を表す顔パーツ画像データ、音声データ、および時点データとを統合したコンテンツデータを携帯電話機１０Ａへ送信する。携帯電話機１０Ａが音声データを再生し、時点データが表す時点になると、顔画像データが表す画像と顔パーツ画像データが表す画像とが合成され、発音しているキャラクタの画像が表示される。
【選択図】図１

Description

本発明は、音声と画像を提供する技術に関する。

音声を再生すると共に、人間が音声を発した時の顔画像を表示する技術として特許文献１に開示された技術がある。特許文献１に開示された番組送出システムは、テキスト形式の文章データから音声合成により生成された音声と、この音声を発した時の顔のコンピュータグラフィック画像とを組み合わせ、人間が文章を読んでいる時と同じ顔の動画像と、合成された音声とをテレビ放送する。人間は、音だけではなく、視覚的な情報（発音した時の口の形等）も合わせて話し言葉を聞き取っていることが知られている。音声合成により生成された音声は、どのように発音しているのか聞き取りにくい場合があるが、このシステムによれば、音声出力に合わせて顔の画像が変化するので、単純に音声だけを聞き取る場合と比較して、出力された音声をより容易に認識することができるという効果を得られる。
特開２００２−３００４３４号公報

ところで、近年、画像の配信はテレビ放送のように電波を用いた配信だけでなく、インターネットを利用してデータ通信により配信することも行われている。上述したシステムにより生成された音声と動画像とを配信する場合、例えば、ＡＤＳＬ（Asymmetric Digital Subscriber Line）や光ファイバ等の高速通信回線によりインターネットに接続され、容量の大きなデータを高速に処理できる装置においては、フレームレートの高い画像を配信しても問題なく画像を再生することができる。しかし、例えば、携帯電話機のように、移動体通信網の構成やハードウェア構成上、高速でのデータ通信およびデータ処理を行うことが難しい装置においては、容量の大きなデータを受信して処理するのに非常に時間がかかるため、スムーズに音声や顔画像が再生されず、出力された音声を容易に認識できなくなる虞がある。

本発明は、上述した背景の下になされたものであり、大容量のデータを使用しなくとも、音声合成により生成された音声を容易に認識できるようにする技術を提供することを目的とする。

上述した課題を解決するために本発明は、文字列を表すテキストデータに基づいて音声合成を行い、合成された音声を表す音声データを生成する音声データ生成手段と、前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点を特定する特定手段と、前記特定手段により特定された時点と、該時点で発音される母音とを対応付けた時点データを生成する時点データ生成手段と、母音を発音した時の顔の画像を表す画像データと、前記音声データと、前記時点データとを端末装置へ送信するコンテンツ送信手段とを備えたコンテンツ提供装置と、前記コンテンツ送信手段により送信された前記画像データと、前記音声データと、前記時点データとを受信するコンテンツ受信手段と、前記音声データを再生する音声再生手段と、前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、該時点に対応付けされた母音を発音した時の顔の画像を、前記コンテンツ受信手段により受信された画像データに基づいて表示する表示手段とを有する端末装置と、を備えたコンテンツ提供システムを提供する。

この態様において、前記テキストデータは、テキストデータが表す文字列を発音した際のイントネーションを表す抑揚データを有し、前記音声データ生成手段は、テキストデータに基づいて音声合成を行う際に、前記抑揚データが表すイントネーションを有する音声を合成するようにしてもよい。

また、この態様において、前記端末装置は、入力された文字列を表すテキストデータを生成するテキストデータ生成手段と、前記テキストデータ生成手段により生成されたテキストデータを前記コンテンツ提供装置へ送信するデータ送信手段とを備え、前記コンテンツ提供装置は、前記データ送信手段により送信されたテキストデータを受信するデータ受信手段を備え、前記音声データ生成手段は、前記データ受信手段により受信されたテキストデータに基づいて音声合成を行うようにしてもよい。

また、この態様において、前記データ送信手段は、キャラクタを表すキャラクタデータを送信し、前記データ受信手段は、前記キャラクタデータを受信し、前記コンテンツ送信手段は、前記キャラクタデータが表すキャラクタの顔の画像を示す画像データを送信するようにしてもよい。

また、この態様において、前記コンテンツ送信手段は、顔の画像を表す顔画像データと、母音を発音した時の口元の画像を表す顔パーツ画像データと、前記音声データと、前記時点データとを端末装置へ送信し、前記コンテンツ受信手段は、前記顔画像データと、前記顔パーツ画像データと、前記音声データと、前記時点データとを受信し、前記表示手段は、前記顔画像データが表す画像を表示し、前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、前記受信手段により受信された顔パーツ画像データの画像と、前記顔画像データの画像とを合成し、該時点に対応付けされた母音を発音した顔の画像を表示するようにしてもよい。
また、この態様において、前記コンテンツ送信手段は、表情の異なる複数の顔画像データを送信し、前記表示手段は、定められた時点において複数の顔画像データのいずれかを選択し、顔の画像を変更するようにしてもよい。

また本発明は、文字列を表すテキストデータに基づいて音声合成を行い、合成された音声を表す音声データを生成する音声データ生成手段と、前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点を特定する特定手段と、前記特定手段により特定された時点と、該時点で発音される母音とを対応付けた時点データを生成する時点データ生成手段と、母音を発音した時の顔の画像を表す画像データと、前記音声データと、前記時点データとを端末装置へ送信するコンテンツ送信手段とを備えたコンテンツ提供装置を提供する。

また本発明は、母音を発音した時の顔の画像を表す画像データと、音声を表す音声データと、前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点と該時点で発音される母音とを対応付けた時点データとを受信するコンテンツ受信手段と、前記音声データを再生する音声再生手段と、前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、該時点に対応付けされた母音を発音した時の顔の画像を、前記コンテンツ受信手段により受信された画像データに基づいて表示する表示手段とを有する端末装置を提供する。

本発明によれば、大容量のデータを使用しなくとも音声合成により生成された音声を容易に認識できるようになる。

［第１実施形態］
［全体構成］
図１は、本発明の実施形態に係る通信システムの全体構成を示した図である。
携帯電話機１０Ａ，１０Ｂは、例えばＰＤＣ（Personal Digital Cellular）方式に準拠した携帯電話機であり、移動体通信網２０を介して音声通信やデータ通信を行うことが可能となっている。なお、携帯電話機１０Ａ，１０Ｂは、各々同じ構成であるため、以下、特に区別する必要のない場合には携帯電話機１０と称する。また、本システムにおいては、多数の携帯電話機１０が存在するが、図面が煩雑になるのを防ぐために二つの携帯電話機１０Ａ，１０Ｂのみを例示している。
移動体通信網２０は、携帯電話機１０に音声通話サービスやデータ通信サービスを提供する通信網であり、携帯電話機１０が他の電話機と行う音声通信や、当該通信網に接続されている装置と携帯電話機１０との間で行われるデータ通信を中継する。
コンテンツ提供装置３０は、移動体通信網２０に接続されており、携帯電話機１０とデータ通信を行うことが可能となっている。コンテンツ提供装置３０は、携帯電話機１０と通信を行い、音声データや画像データ等のデータを携帯電話機１０へ提供する。
電子メールサーバ４０は、移動体通信網２０に接続されており、携帯電話機１０とデータ通信を行うことが可能となっている。電子メールサーバ４０は、携帯電話機１０と通信を行い、携帯電話機１０のユーザ宛てに送信された電子メールを、ユーザが所有する携帯電話機１０へ配信する。

［携帯電話機の構成］
次に携帯電話機１０の構成について説明する。図２は携帯電話機１０のハードウェアの要部構成を示したブロック図である。なお、携帯電話機１０は、音声が入力されるマイクロホン、音声を出力するスピーカ、音声を処理する音声処理部等を備えているが、図１においては本発明に関わる要部のみを図示している。図２に示したように、携帯電話機１０の各部は、バス１０１に接続されており、このバス１０１を介して各部間でデータの授受を行う。無線通信部１０６は、携帯電話機１０が音声通信やデータ通信を行う際、移動体通信網２０の無線基地局（図示略）との間で通信の仲介を行う通信インターフェースとして機能する。操作部１０７は、携帯電話機１０を操作するための複数のキー（図示略）を有しており、キーが押下されると、押下されたキーを示す信号をＣＰＵ（Central Processing Unit）１０２へ供給する。表示部１０８は、液晶ディスプレイ装置を備えており、ＣＰＵ１０２の制御の下、文字やグラフィック画面、携帯電話機１０を操作するためのメニュー画面などを表示する。

記憶部１０５は、データを永続的に記憶する不揮発性メモリを有しており、携帯電話機１０に各種機能を実現させるアプリケーションソフトウェアとして、例えば、ＷＷＷ（World Wide Web）ブラウザの機能を実現させるブラウザソフトウェアや、電子メールの送受信を行う機能を実現させる電子メールソフトウェアを記憶している。

ＲＯＭ（Read Only Memory）１０３には、ＯＳ（Operating System）ソフトウェアが記憶されており、ＣＰＵ１０２はＲＯＭ１０３からＯＳソフトウェアを読み出し、ＲＡＭ（Random Access Memory）１０４を作業エリアとして携帯電話機１０の各部の制御を行う。そしてＯＳソフトウェアを起動したＣＰＵ１０２は、ＣＰＵ１０２に入力される信号に応じた処理を行う。例えば、携帯電話機１０の使用者が、操作部１０７が有するキーを操作してアプリケーションソフトウェアの実行を指示する操作を行うと、ＣＰＵ１０２は、操作部１０７から供給される信号と表示部１０８に表示されている画面とに基づいて使用者の指示を特定し、記憶部１０５からアプリケーションソフトウェアを読み出して起動する。ＣＰＵ１０２がアプリケーションソフトウェアを起動すると、起動したアプリケーションソフトウェアに応じて各種機能が実現する。

［コンテンツ提供装置の構成］
次にコンテンツ提供装置３０の構成について説明する。図３は、コンテンツ提供装置３０のハードウェア構成を示したブロック図である。図３に示したように、コンテンツ提供装置３０の各部は、バス３０１に接続されており、このバス３０１を介して各部間でデータの授受を行う。通信部３０６は、通信線（図示略）で移動体通信網２０に接続されており、ＣＰＵ３０２が移動体通信網２０を介して通信を行う際、移動体通信網２０との間で通信の仲介をする通信インターフェースとして機能する。

記憶部３０５は、例えばハードディスク装置など、データを永続的に記憶する装置（図示略）を有しており、コンテンツ提供装置３０の各部を制御するための制御ソフトウェアを記憶している。また、記憶部３０５は、Ｗｅｂページを表すページデータ、アニメーション映画や漫画等に登場するキャラクタの顔画像を表す顔画像データ、キャラクタが母音を発音した時の口元の画像を表す顔パーツ画像データ等の各種データを記憶している。

ＲＯＭ３０３にはＩＰＬ（Initial Program Loader）が記憶されており、ＣＰＵ３０２はＲＯＭ３０３からＩＰＬを読み出して実行する。ＣＰＵ３０２はＩＰＬを実行すると、記憶部３０５から制御ソフトウェアを読み出して起動する。ＣＰＵ３０２が制御ソフトウェアを起動すると、ＷＷＷサーバ機能、クライアントとなる携帯電話機１０と通信を行う機能や音声合成を行う機能、携帯電話機１０へ各種データを提供する機能等が実現する。

［実施形態の動作］
次に本実施形態の動作について説明する。まず、携帯電話機１０Ａのユーザ（以下、ユーザＡと称する）が、操作部１０７のキーを操作し、ブラウザソフトウェアの起動を指示する操作を行うと、携帯電話機１０Ａはブラウザソフトウェアを起動する。この後ユーザＡがコンテンツ提供装置３０に記憶されているページデータのＵＲＬ（Uniform Resource Locator）を入力し、このページデータの取得を指示するキー操作を操作部１０７にて行うと、携帯電話機１０Ａとコンテンツ提供装置３０とが通信を行い、入力されたＵＲＬで特定されるページデータがコンテンツ提供装置３０から携帯電話機１０へ送信される。

携帯電話機１０Ａは、ページデータを取得すると、例えば、図５（ａ）に示したＷｅｂページを表示部１０８に表示する。このＷｅｂページにおいては、リストボックスＢＸ１１では複数のキャラクタの中から好みのキャラクタを選択することが可能となっており、テキストボックスＢＸ１２では文章を入力することが可能となっている。ユーザＡは、リストボックスＢＸ１１にてキャラクタを選択し、音声に変換したい文章をテキストボックスＢＸ１２に入力する。この後、ユーザＡが操作部１０７を操作し、Ｗｅｂページに表示されている送信ボタンＢ１１を押下する操作を行うと、携帯電話機１０Ａは、選択されたキャラクタを示すキャラクタデータと、入力された文章を示すテキストデータとを生成してコンテンツ提供装置３０へ送信する。

このキャラクタデータとテキストデータとがコンテンツ提供装置３０の通信部３０６にて受信されると、ＣＰＵ３０２は、受信したテキストデータを解析し、テキストデータが示す文章を周知の音声合成技術を用いて順次音声に変換し、変換した音声を表す音声データを生成する（図４：ステップＳＡ１）。

次にＣＰＵ３０２は、受信したキャラクタデータで特定されるキャラクタの顔画像データと、このキャラクタの口元の画像を表す顔パーツ画像データとを記憶部３０５から読み出す（ステップＳＡ２）。そしてＣＰＵ３０２は、読み出した顔画像データと、「あ」〜「お」までの顔パーツ画像データ、および生成した音声データを用い、携帯電話機１０へ提供するコンテンツデータを生成する。

具体的には、まずＣＰＵ３０２は、生成した音声データを解析し、音声データが再生された時に母音が発音される時点を特定する（ステップＳＡ３）。例えば、「おはよう、きょうもてんきいいね」という音声の場合、図６に示したように、音声の再生開始時を基準とし、母音が発音される時点ｔ１〜ｔ１３を特定する。そしてＣＰＵ３０２は、この特定した各時点と、各時点で発音される母音とを対応付けた時点データを生成する（ステップＳＡ４）。例えば「おはよう、きょうもてんきいいね」という音声の場合、図７に示したように、時点ｔ１と母音「お」とが対応付けられ、時点ｔ２と母音「あ」とが対応付けられた時点データが生成される。

ＣＰＵ３０２は、時点データの生成が終了すると、この生成した時点データと、ステップＳＡ１で生成した音声データと、ステップＳＡ２で読み出した顔画像データおよび顔パーツ画像データとを統合したコンテンツデータ生成し（ステップＳＡ５）、生成したコンテンツデータを携帯電話機１０Ａへ送信する（ステップＳＡ６）。

携帯電話機１０Ａは、このコンテンツデータを受信すると、受信したコンテンツデータを記憶部１０５に記憶し、図５（ｂ）に例示した画面を表示部１０８に表示する。そして図５（ｂ）に例示した画面が表示された後、表示されている再生ボタンＢ２１を押下する操作をユーザＡが行うと、携帯電話機１０Ａは記憶部１０５に記憶したコンテンツデータを再生する。

携帯電話機１０Ａがコンテンツデータを再生すると、テキストボックスＢＸ１２に入力された文章を読み上げる音声が音声データに基づいて出力される。また、音声の出力開始と同時に、リストボックスＢＸ１１で選択されたキャラクタの顔の静止画像が、コンテンツデータに含まれている顔画像データに基づいて表示部１０８に表示される。そして、音声の出力が開始されてからの時間が計時され、時点データが表す時点になると、携帯電話機１０Ａは、顔画像データが表す画像と顔パーツ画像データが表す画像とを合成し、表示されているキャラクタの顔の口元を変化させる処理を行う。例えば、「おはよう、きょうもてんきいいね」という音声の場合、「お」が発音されるｔ１の時点では、顔画像データの画像と「お」の口の形を表す顔パーツ画像データの画像とが合成されて「お」を発音している顔の静止画像となる。そして、ｔ１からｔ２の間は「お」を発音している顔の画像となり、「あ」が発音されるｔ２の時点では、顔画像データの画像と「あ」の口の形を表す顔パーツ画像データの画像とが合成されて「あ」を発音している顔の画像となる。

この後、ユーザＡが、電子メールソフトウェアの起動を指示する操作を行うと、携帯電話機１０Ａは電子メールソフトウェアを起動する。ユーザＡが記憶部１０５に記憶されたコンテンツデータを添付ファイルとして指定し、携帯電話機１０Ｂのユーザ（以下、ユーザＢと称する）に付与されている電子メールアドレスを電子メールの宛先として入力し、電子メールを送信する操作を行うと、携帯電話機１０Ａから送信された電子メールは、電子メールサーバ４０を介して携帯電話機１０Ｂへ送信される。

この電子メールが携帯電話機１０Ｂにて受信された後、ユーザＢが携帯電話機１０Ｂを操作し、受信した電子メールを開封して添付ファイルを再生する操作を行うと、携帯電話機１０Ｂは、電子メールに添付されたコンテンツデータを再生する。携帯電話機１０Ｂがコンテンツデータを再生すると、テキストボックスＢＸ１２に入力された文章を読み上げる音声が音声データに基づいて出力される。また、リストボックスＢＸ１１で選択されたキャラクタの顔画像が表示部１０８に表示される。この表示された画像は、母音の発音時点になると、表示された顔の口元が母音を発音する際の口の形に変化する。

このように本実施形態によれば、合成された音声と共に、文章を読んでいる時と同じ顔のキャラクタの画像が提供される。音声に加えて表情の変化を見られるため、音声だけを提供する場合と比較して、音声の認識率が高まり、また娯楽性も高まることとなる。また、出力される画像は静止画像の組み合わせとなり、画像に関するデータの容量が少なくなるため、高速でのデータ通信およびデータ処理を行うことが難しい装置においても口の形の変化を示し、合成された音声を容易に認識させることができる。

［第２実施形態］
次に本発明の第２実施形態について説明する。本発明の第２実施形態は、コンテンツ提供装置３０が記憶しているデータ、コンテンツ提供装置３０が行う処理、およびコンテンツ提供装置３０から携帯電話機１０へ提供されるコンテンツデータの内容が第１実施形態と異なる。

コンテンツ提供装置３０の記憶部３０５は、Ｗｅｂページを表すページデータ、楽曲を表す楽曲データ、アニメーション映画や漫画等に登場するキャラクタの顔画像を表す顔画像データ、キャラクタが母音を発音した時の口元の画像を表す顔パーツ画像データ、キャラクタの背景を表す背景画像データ等の各種データを記憶している。

次に、本実施形態の動作について説明する。
まず、ブラウザソフトウェアが起動されている携帯電話機１０Ａにおいて、ユーザＡがコンテンツ提供装置３０に記憶されているページデータのＵＲＬを入力し、このページデータの取得を指示するキー操作を操作部１０７にて行うと、携帯電話機１０Ａとコンテンツ提供装置３０とが通信を行い、入力されたＵＲＬで特定されるページデータがコンテンツ提供装置３０から携帯電話機１０へ送信される。

携帯電話機１０Ａは、ページデータを取得すると、図９（ａ）に例示したＷｅｂページを表示部１０８に表示する。このＷｅｂページにおいては、リストボックスＢＸ２１では、複数の楽曲から好みの楽曲を選択することができ、また、リストボックスＢＸ２２では、複数のキャラクタの中から好みのキャラクタを選択することができる。また、リストボックスＢＸ２３ではキャラクタの背景となる画像を選択することができ、リストボックスＢＸ２４では、予め定められた文章を選択することが可能となっている。なお、本実施形態においては、ページデータが取得された時点では、図９（ａ）に例示したように、テンプレートとして予め定められた楽曲名、キャラクタ名、背景名、および定型文が表示されるようになっている。

ユーザＡは、リストボックスＢＸ２１で楽曲、リストボックスＢＸ２２でキャラクタ、リストボックスＢＸ２３で背景画像を選択する。また、リストボックスＢＸ２４で音声に変換したい文章を選択する。この後、ユーザＡが操作部１０７を操作し、Ｗｅｂページに表示されている送信ボタンＢ１１を押下する操作を行うと、携帯電話機１０Ａは、選択された楽曲名を示す楽曲名データと、選択されたキャラクタを示すキャラクタデータと、選択された背景画像名を示す背景名データと、選択された文章を示すテキストデータとをコンテンツ提供装置３０へ送信する。

この楽曲名データ、キャラクタデータ、背景名データ、およびテキストデータとがコンテンツ提供装置３０の通信部３０６にて受信されると、ＣＰＵ３０２は、受信したテキストデータをまず解析し、テキストデータが示す文章を周知の音声合成技術を用いて順次音声に変換し、変換した音声を表す音声データを生成する（図８：ステップＳＢ１）。

次にＣＰＵ３０２は、受信したキャラクタデータで特定されるキャラクタの顔画像データ、このキャラクタの口元の画像を表す顔パーツ画像データ、および背景名データで特定される背景の背景画像データを記憶部３０５から読み出す。また、ＣＰＵ３０２は、受信した楽曲名データで特定される楽曲の楽曲データを記憶部３０５から読み出す（ステップＳＢ２）。そしてＣＰＵ３０２は、読み出した顔画像データと、「あ」〜「お」までの顔パーツ画像データ、楽曲データ、背景画像データ、および生成した音声データを用い、携帯電話機１０へ提供するコンテンツデータを生成する。

具体的には、まずＣＰＵ３０２は、生成した音声データを解析し、音声データが再生された時に母音が発音される時点を第１実施形態と同様に特定する（ステップＳＢ３）。そしてＣＰＵ３０２は、この特定した各時点と、各時点で発音される母音とを対応付けた時点データを第１実施形態と同様に生成する（ステップＳＢ４）。ＣＰＵ３０２は、時点データの生成が終了すると、この生成した時点データと、ステップＳＢ１で生成した音声データと、ステップＳＢ２で読み出した楽曲データ、背景画像データ、顔画像データおよび顔パーツ画像データとを統合したコンテンツデータ生成し（ステップＳＢ５）、生成したコンテンツデータを携帯電話機１０Ａへ送信する（ステップＳＢ６）。

携帯電話機１０Ａは、このコンテンツデータを受信すると、受信したコンテンツデータを記憶部１０５に記憶し、図９（ｂ）に例示した画面を表示部１０８に表示する。そして図９（ｂ）に例示した画面が表示された後、表示されている再生ボタンＢ２１を押下する操作をユーザＡが行うと、携帯電話機１０Ａは記憶部１０５に記憶したコンテンツデータを再生する。

携帯電話機１０Ａがコンテンツデータを再生すると、リストボックスＢＸ２４で選択された文章を読み上げる音声が音声データに基づいて出力され、リストボックスＢＸ２１で選択された楽曲が楽曲データに基づいて出力される。また、音声の出力開始と同時に、リストボックスＢＸ２２で選択されたキャラクタの顔の静止画像が、コンテンツデータに含まれている顔画像データに基づいて表示部１０８に表示され、リストボックスＢＸ２３で選択された背景の画像が、背景画像データに基づいて表示部１０８に表示される。そして、音声の出力が開始されてからの時間が計時され、時点データが表す時点になると、携帯電話機１０Ａは、顔画像データが表す画像と顔パーツ画像データが表す画像とを合成し、表示されているキャラクタの顔の口元を変化させる処理を行う。例えば、「またあしたね」という音声の場合、「ま」の母音である「あ」が発音される時点では、顔画像データの画像と「あ」の口の形を表す顔パーツ画像データの画像とが合成されて「あ」を発音している顔の静止画像となる。そして、「し」が発音されるまでの間は「あ」を発音している顔の画像となり、「し」が発音される時点では、顔画像データの画像と「し」の母音である「い」の口の形を表す顔パーツ画像データの画像とが合成されて「い」を発音している顔の画像となる。

この後、電子メールソフトウェアが起動された携帯電話機１０Ａにおいて、ユーザＡが記憶部１０５に記憶されたコンテンツデータを添付ファイルとして指定し、ユーザＢに付与されている電子メールアドレスを電子メールの宛先として入力し、電子メールを送信する操作を行うと、携帯電話機１０Ａから送信された電子メールは、電子メールサーバ４０を介して携帯電話機１０Ｂへ送信される。

この電子メールが携帯電話機１０Ｂにて受信された後、ユーザＢが携帯電話機１０Ｂを操作し、受信した電子メールを開封して添付ファイルを再生する操作を行うと、携帯電話機１０Ｂは、電子メールに添付されたコンテンツデータを再生する。
携帯電話機１０Ｂがコンテンツデータを再生すると、リストボックスＢＸ２１で選択された楽曲が楽曲データに基づいて出力され、リストボックスＢＸ２４で選択された文章を読み上げる音声が音声データに基づいて出力される。また、リストボックスＢＸ２３で選択された背景と、リストボックスＢＸ２２で選択されたキャラクタの顔画像が表示部１０８に表示される。この表示された画像は、母音の発音時点になると、口元の部分が母音を発音する際の口の形に変化する。

以上説明したように本実施形態でも、合成された音声と共に、文章を読んでいる時と同じ顔のキャラクタの画像が提供される。音声に加えて表情の変化を見られるため、音声だけを提供する場合と比較して、音声の認識率が高まり、また娯楽性も高まることとなる。また、出力される画像は静止画像の組み合わせとなり、画像に関するデータの容量が少なくなるため、高速でのデータ通信およびデータ処理を行うことが難しい装置においても口の形の変化を示し、合成された音声を容易に認識させることができる。

［変形例］
以上、本発明の実施形態について説明したが、例えば、上述した実施形態を以下のように変形して本発明を実施してもよい。

携帯電話機１０は、ＧＳＭ（Global System for Mobile Communications ）方式或いはＩＭＴ−２０００（International Mobile Telecommnucation-2000）方式に準拠した携帯電話機であってもよい。また、コンテンツ提供装置３０からコンテンツデータを受取るのは携帯電話機に限定されるものではなく、例えば、ＰＤＡ（Personal Digital Assistance）やパーソナルコンピュータ装置であってもよい。

同じキャラクタであっても笑顔や泣き顔、まばたき等の複数の顔画像データを用意し、音声再生中に所定の時点、またはランダムな時点で顔の画像を変えるようにしてもよい。また、母音を発音した時の顔の画像データを使用し、母音の発音時点においては、母音に対応する顔の画像データを再生するようにしてもよい。

携帯電話機１０からコンテンツ提供装置３０へキャラクタ名や文章を送信する際には、電子メールで送信するようにしてもよい。

携帯電話機１０のユーザが歌詞のある楽曲を選択した場合、その楽曲の歌詞に基づいて音声データを生成するようにしてもよく、また、テレビアニメの主題歌の場合には、テレビアニメに登場するキャラクタの画像を表示するようにしてもよい。

上述した実施形態では、コンテンツ提供装置３０が音声合成を行っているが、コンテンツ提供装置３０は、画像データを提供するようにし、音声合成と、時点データの生成を携帯電話機１０が行うようにしてもよい。

例えば、特開２００４−２３４０９６号公報に開示された技術を利用し、イントネーションを表す抑揚データをテキストデータに加え、合成する音声にイントネーションを付加するようにしてもよい。

本発明の実施形態に係る通信システムの全体構成図である。携帯電話機の要部構成を示したブロック図である。コンテンツ提供装置のハードウェア構成を示したブロック図である。コンテンツ提供装置が行う処理の流れを示したフローチャートである。携帯電話機に表示される画面を例示した図である。母音が発音される時点を例示した図である。時点データのフォーマットを例示した図である。第２実施形態に係るコンテンツ提供装置が行う処理の流れを示したフローチャートである。第２実施形態において携帯電話機に表示される画面を例示した図である。

符号の説明

１０，１０Ａ，１０Ｂ・・・携帯電話機、２０・・・移動体通信網、３０・・・コンテンツ提供装置、１０２・・・ＣＰＵ、１０５・・・記憶部、１０６・・・無線通信部、１０８・・・表示部、３０２・・・ＣＰＵ、３０５・・・記憶部、３０６・・・通信部。

Claims

文字列を表すテキストデータに基づいて音声合成を行い、合成された音声を表す音声データを生成する音声データ生成手段と、
前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点を特定する特定手段と、
前記特定手段により特定された時点と、該時点で発音される母音とを対応付けた時点データを生成する時点データ生成手段と、
母音を発音した時の顔の画像を表す画像データと、前記音声データと、前記時点データとを端末装置へ送信するコンテンツ送信手段と
を備えたコンテンツ提供装置と、
前記コンテンツ送信手段により送信された前記画像データと、前記音声データと、前記時点データとを受信するコンテンツ受信手段と、
前記音声データを再生する音声再生手段と、
前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、該時点に対応付けされた母音を発音した時の顔の画像を、前記コンテンツ受信手段により受信された画像データに基づいて表示する表示手段と
を有する端末装置と
を備えたコンテンツ提供システム。
前記テキストデータは、テキストデータが表す文字列を発音した際のイントネーションを表す抑揚データを有し、
前記音声データ生成手段は、テキストデータに基づいて音声合成を行う際に、前記抑揚データが表すイントネーションを有する音声を合成すること
を特徴とする請求項１に記載のコンテンツ提供システム。
前記端末装置は、
入力された文字列を表すテキストデータを生成するテキストデータ生成手段と、
前記テキストデータ生成手段により生成されたテキストデータを前記コンテンツ提供装置へ送信するデータ送信手段と
を備え、
前記コンテンツ提供装置は、
前記データ送信手段により送信されたテキストデータを受信するデータ受信手段を備え、
前記音声データ生成手段は、前記データ受信手段により受信されたテキストデータに基づいて音声合成を行うこと
を特徴とする請求項１または請求項２に記載のコンテンツ提供システム。
前記データ送信手段は、キャラクタを表すキャラクタデータを送信し、
前記データ受信手段は、前記キャラクタデータを受信し、
前記コンテンツ送信手段は、前記キャラクタデータが表すキャラクタの顔の画像を示す画像データを送信すること
を特徴とする請求項１に記載のコンテンツ提供システム。
前記コンテンツ送信手段は、顔の画像を表す顔画像データと、母音を発音した時の口元の画像を表す顔パーツ画像データと、前記音声データと、前記時点データとを端末装置へ送信し、
前記コンテンツ受信手段は、前記顔画像データと、前記顔パーツ画像データと、前記音声データと、前記時点データとを受信し、
前記表示手段は、前記顔画像データが表す画像を表示し、前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、前記受信手段により受信された顔パーツ画像データの画像と、前記顔画像データの画像とを合成し、該時点に対応付けされた母音を発音した顔の画像を表示すること
を特徴とする請求項１に記載のコンテンツ提供システム。
前記コンテンツ送信手段は、表情の異なる複数の顔画像データを送信し、
前記表示手段は、定められた時点において複数の顔画像データのいずれかを選択し、顔の画像を変更すること
を特徴とする請求項５に記載のコンテンツ提供システム。
文字列を表すテキストデータに基づいて音声合成を行い、合成された音声を表す音声データを生成する音声データ生成手段と、
前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点を特定する特定手段と、
前記特定手段により特定された時点と、該時点で発音される母音とを対応付けた時点データを生成する時点データ生成手段と、
母音を発音した時の顔の画像を表す画像データと、前記音声データと、前記時点データとを端末装置へ送信するコンテンツ送信手段と
を備えたコンテンツ提供装置。
母音を発音した時の顔の画像を表す画像データと、音声を表す音声データと、前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点と該時点で発音される母音とを対応付けた時点データとを受信するコンテンツ受信手段と、
前記音声データを再生する音声再生手段と、
前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、該時点に対応付けされた母音を発音した時の顔の画像を、前記コンテンツ受信手段により受信された画像データに基づいて表示する表示手段と
を有する端末装置。