JP2004362419A - 情報処理装置および方法 - Google Patents
情報処理装置および方法 Download PDFInfo
- Publication number
- JP2004362419A JP2004362419A JP2003162192A JP2003162192A JP2004362419A JP 2004362419 A JP2004362419 A JP 2004362419A JP 2003162192 A JP2003162192 A JP 2003162192A JP 2003162192 A JP2003162192 A JP 2003162192A JP 2004362419 A JP2004362419 A JP 2004362419A
- Authority
- JP
- Japan
- Prior art keywords
- information
- information processing
- processing apparatus
- data
- mentioned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】マルチメディアコンテンツの作成を行うユーザの負担を軽減し、さらに声質や画像、文体のキャラクタが一致したコンテンツの作成を容易にする。
【解決手段】本発明では、ユーザがマルチメディア的コンテンツを含むメールを作成しようとする際、まずユーザの作りたいメールのキャラクタを選択させることによって、そのキャラクタに合った音声合成パラメータ(声質データ)や画像データを選択しやすいようにソートしてユーザに提示し、さらにそのキャラクタに合った文章をユーザが書くように、キャラクタに個別のテキスト入力変換辞書を使用させる。これにより、テキストや画像及び音声の雰囲気が一致したマルチメディアメールを作成できる。
【選択図】 図1
【解決手段】本発明では、ユーザがマルチメディア的コンテンツを含むメールを作成しようとする際、まずユーザの作りたいメールのキャラクタを選択させることによって、そのキャラクタに合った音声合成パラメータ(声質データ)や画像データを選択しやすいようにソートしてユーザに提示し、さらにそのキャラクタに合った文章をユーザが書くように、キャラクタに個別のテキスト入力変換辞書を使用させる。これにより、テキストや画像及び音声の雰囲気が一致したマルチメディアメールを作成できる。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は情報処理装置および方法に関し、特に、マルチメディアコンテンツの作成を支援する装置および方法に関する。
【0002】
【従来の技術】
従来の技術では、携帯情報端末に対してマルチメディア的コンテンツを提供する際、サービス提供者側であらかじめ用意したコンテンツの場所を示すURLをテキストで書かれたメールに書き込み、ユーザはそのURLをたどることでコンテンツの参照を行う。用意されたコンテンツのうち、どれの参照を行うか選択する際には、列挙もしくは階層的構造により提示されたコンテンツのリストから、目的のものをユーザが探して確定するという作業を行う必要がある。
【0003】
【特許文献1】
特開2003−132049号公報
【特許文献2】
特開2002−132823号公報
【0004】
【発明が解決しようとする課題】
従来の技術では、画像や音声などのマルチメディア的コンテンツを含むメールを作成しようとすると、常にメールの内容に合った画像や音声が提供できるようにするには非常に多くの画像や音声をあらかじめ用意しておかなければならない。一方、あらかじめ用意されたデータが多くなるにつれ、サービスを利用するユーザにとってそれら画像や音声の選択にかかる労力が大きくなり、メールの作成が困難になる。
【0005】
【課題を解決するための手段】
本発明による情報処理装置は、第1の記憶部と、選択部とを備える。第1の記憶部は、複数の第1の情報と、複数の第1の情報に対応づけられた複数の第1のパラメータセットとを記憶する。複数の第1のパラメータセットの各々は、対応する第1の情報の雰囲気を特徴づけるものである。選択部は、第2の情報の雰囲気を特徴づける第2のパラメータセットと複数の第1のパラメータセットの各々とを用いて第2の情報と複数の第1の情報の各々との類似度を算出し、得られた類似度に基づいて複数の第1の情報のうち少なくとも1つを選択する。
【0006】
本発明による情報処理装置は、たとえばマルチメディアコンテンツの作成を支援するために用いられる。第1の情報と第2の情報とを用いたマルチメディアコンテンツを上記情報処理装置を利用してユーザが作成する際、まず、ある第2の情報が何らかの手段により決定される。この第2の情報と複数の第1の情報の各々との類似度に基づいて複数の第1の情報のうち少なくとも1つが選択部によって選択される。これにより、第2の情報にふさわしいであろうと(類似度に基づいて)考えられる第1の情報が少なくとも1つユーザに提供され、第1の情報の選択に関するユーザの負担が軽減される。第1および第2のパラメータセットは、対応する情報の雰囲気を特徴づけるものであるため、選択部によって算出される類似度は第1の情報と第2の情報との雰囲気の一致度合い(雰囲気の統一感)と相関がある。したがって、類似度の最も高い第1の情報を選択部が選択した場合には、第1の情報と第2の情報との雰囲気の一致度合いの高い(全体の雰囲気の統一感の高い)マルチメディアコンテンツを作成できる。
【0007】
好ましくは上記複数の第1のパラメータセットの各々は、対応する第1の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む。上記第2のパラメータセットは、第2の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む。
【0008】
好ましくは上記選択部は、第2の情報の内容を解析して第2のパラメータセットを生成する。
【0009】
好ましくは上記情報処理装置は第2の記憶部をさらに備える。第2の記憶部は、複数の第2の情報と、複数の第2の情報に対応づけられた複数の第2のパラメータセットとを記憶する。複数の第2のパラメータセットの各々は、対応する第2の情報の雰囲気を特徴づけるものである。選択部は、複数の第2の情報のうちのある1つ(以下、「第2の情報A」という。)に対応する第2のパラメータセットと複数の第1のパラメータセットの各々とを用いて第2の情報Aと複数の第1の情報の各々との類似度を算出する。
【0010】
好ましくは上記複数の第2のパラメータセットの各々は、対応する第2の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む。
【0011】
好ましくは上記選択部は、第2の情報Aをユーザに選択させる。
【0012】
好ましくは上記選択部は、得られた類似度に基づいて選択した第1の情報のうち1つをユーザに選択させる。
【0013】
好ましくは、上記第1および第2の情報は、マルチメディアコンテンツを作成するために用いられる情報である。
【0014】
好ましくは、上記第1および/または第2の情報は、マルチメディアコンテンツの構成要素である。マルチメディアコンテンツの構成要素としては、たとえば、画像データ、音声データ、テキストデータが挙げられる。
【0015】
好ましくは、上記第1および/または第2の情報は、マルチメディアコンテンツのある構成要素の雰囲気を制御するものである。たとえば、マルチメディアコンテンツの構成要素の1つである音声データの雰囲気(声質・調子など)を制御するデータ(声質データ)や、マルチメディアコンテンツの構成要素の1つであるテキストデータの雰囲気(文体)を制御する入力変換辞書などが挙げられる。
【0016】
好ましくは、上記第1または第2の情報は、マルチメディアコンテンツ全体に与えるべき雰囲気を示すものである。
【0017】
好ましくは上記情報処理装置は、与えられたテキストを音声データに変換する音声合成部をさらに備える。複数の第1の情報の各々は、音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)である。音声合成部は、選択部によって選択された声質データを用いて上記テキストを音声データに変換する。
【0018】
好ましくは上記複数の第1の情報の各々は画像データである。
【0019】
好ましくは上記複数の第1の情報の各々は表現スタイルである。
【0020】
好ましくは上記複数の第1の情報の各々は、あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書である。上記情報処理装置は、選択部によって選択された入力変換辞書を用いてユーザにテキストを入力させる。
【0021】
好ましくは上記第2の情報は表現スタイルである。
【0022】
好ましくは上記第2の情報は画像データである。
【0023】
好ましくは上記第2の情報は、あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書であり、上記音声合成部には、入力変換辞書を用いて入力されたテキストが与えられる。
【0024】
好ましくは上記第2の情報は、あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書であり、上記情報処理装置は、入力変換辞書を用いてユーザにテキストを入力させる。
【0025】
好ましくは上記情報処理装置は、与えられたテキストを音声データに変換する音声合成部をさらに備える。上記第2の情報は、音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)である。音声合成部は、上記声質データを用いて上記テキストを音声データに変換する。
【0026】
好ましくは上記情報処理装置は、選択部によって選択された入力変換辞書を用いて入力されたテキストを音声データに変換する音声合成部をさらに備える。上記第2の情報は、音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)である。音声合成部は、上記声質データを用いて上記テキストを音声データに変換する。
【0027】
本発明による情報処理方法はステップ(a)〜(c)を備える。ステップ(a)では、複数の第1の情報と複数の第1のパラメータセットとを対応づける。複数の第1のパラメータセットの各々は、対応する第1の情報の雰囲気を特徴づけるものである。ステップ(b)では、第2の情報の雰囲気を特徴づける第2のパラメータセットと複数の第1のパラメータセットの各々とを用いて第2の情報と複数の第1の情報の各々との類似度を算出する。ステップ(c)では、ステップ(b)によって得られた類似度に基づいて複数の第1の情報のうち少なくとも1つを選択する。
【0028】
本発明では、ユーザがマルチメディア的コンテンツを含むメールを作成しようとする際、まずユーザの作りたいメールのキャラクタを選択させることによって、そのキャラクタに合った音声合成パラメータ(声質データ)や画像データを選択しやすいようにソートしてユーザに提示し、さらにそのキャラクタに合った文章をユーザが書くように、キャラクタに個別のテキスト入力変換辞書を使用させる。これにより、テキストや画像及び音声の雰囲気が一致したマルチメディアメールを作成できる。
【0029】
本発明による音声合成サーバ装置は、クライアント携帯端末から送信されたテキストを音声合成技術を用いて音声データに変換する装置であって、特定の雰囲気に沿った文章の入力を行い易くなるようなテキスト入力変換辞書を複数持ち、直感的に選び易いキャラクタをユーザに複数提示してその中から1つを選択させることができ、各々のテキスト入力変換辞書とキャラクタの間の類似性を計算する手段を有し、これによってユーザの選択したキャラクタに沿った文章の入力に最適なテキスト入力変換辞書を決定し、ユーザにダウンロードさせることができ、ユーザは、ダウンロードしたテキスト入力変換辞書を用いてテキストの作成を行うことができる。
【0030】
上記サーバ装置では、ユーザの入力したい文章の雰囲気に合わせて、最適なテキスト入力変換辞書をダウンロードさせることにより、携帯端末でメールなどのテキストを入力するユーザが様々な文体を使い分ける場合でも、常にストレス無くテキスト入力作業が行えるようになる。
【0031】
好ましくは上記音声合成サーバ装置は、テキストの読み上げの雰囲気を定める声質データを複数持ち、上記テキスト入力変換辞書及びキャラクタと各々の声質データとの間の類似性を計算する手段を有し、音声合成を行う際にはユーザの選択したキャラクタとテキスト入力変換辞書に最適な声質データを用いることによって、入力されたテキストと声質の間の整合性が保たれる。
【0032】
上記サーバ装置では、ユーザの入力するテキストの文体に一致するような合成音の声質を自動的に選択するか、もしくは文体と声質の間の類似性によって、サーバ装置の保持する声質のリストをソートして表示することを可能とし、ユーザにとって、入力されたテキストとそれを読み上げる合成音の雰囲気を統一することが容易になる。
【0033】
好ましくは上記音声合成サーバ装置は、画像データを複数持ち、上記テキスト入力変換辞書、キャラクタ及び声質データと各々の画像データとの間の類似性を計算してそれらの最適な組み合わせを求める手段を有し、入力されたテキストと声質及び表示される画像の間の整合性が保たれる。
【0034】
上記サーバ装置では、ユーザの入力するテキストの文体、合成音の声質、及び画像データの類似性を計算し、これら3つのデータの雰囲気がどの程度一致しているかを求めることによって、マルチメディアコンテンツの雰囲気の統一性を確保することが容易になる。
【0035】
上記音声合成サーバ装置を用いて作成される、テキストと合成音声と画像のデータからなるマルチメディアコンテンツを、マルチメディアコンテンツの作成を行ったユーザにダウンロードさせることによって、クライアント端末へのメールや電話の着信報知用コンテンツやアラーム表示用コンテンツとして利用させることが好ましい。上記音声合成サーバ装置によって効率的に作成されたマルチメディアコンテンツを、コンテンツ作成者自らがクライアント端末に保持することによって、従来用いられていた着信メロディや着信音声などの音声メディアのみによる報知メッセージよりも個人の趣向が反映し易くオリジナリティと表現性の高い、マルチメディアコンテンツによる報知メッセージの利用が可能になる。
【0036】
本発明によるマルチメディアメール配信システムは、上記音声合成サーバ装置を用いて作成される、テキストと合成音声と画像のデータからなるマルチメディアコンテンツを、別に用意したメールサーバ、画像配信サーバ及び合成音声配信サーバを用いてマルチメディアメールとして送信を行える。このシステムでは、上記音声合成サーバ装置によって効率的に作成されたマルチメディアコンテンツを、作成された合成音を蓄積し配信する合成音配信サーバ装置と、コンテンツ作成者の選択した画像をコンテンツ閲覧者に配信する画像配信サーバ装置と、テキスト及び前記合成音及び画像を参照するためのインデックスとなるURLを含むメールを配信するメール配信サーバ装置によって、ネットワークの負荷を分散させつつ、ユーザによって作成されたマルチメディアコンテンツの配信を効率的に行うことができる。
【0037】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して詳しく説明する。なお、図面において同一または相当する部分には同じ参照符号を付しその説明は繰り返さない。
【0038】
(第1の実施形態)
第1の実施形態によるシステムの構成を図1に示す。このシステムでは、送信側ユーザの使用する携帯情報端末(以下「送信端末」)108と受信側ユーザの使用する携帯情報端末(以下「受信端末」)109との間でメールサーバ110を介してメールの送受信が行われる。送信端末108は、キャラクタサーバ111の保持する各種キャラクタデータを参照してマルチメディアメールを作成し、受信端末109はマルチメディアメール配信サーバ112を介して、作成されたマルチメディアメールを取得する。
【0039】
キャラクタサーバ111は、キャラクタ選択機100と、音声パラメータデータベース101と、入力変換辞書データベース102と、画像データベース103と、表現スタイルデータベース104と、音声合成エンジン105とを備える。
【0040】
音声パラメータデータベース101には、それぞれ異なったキャラクタ(男性、女性、子供など)に対応する声質データが複数格納されており、どの声質データを音声合成エンジン105に与えるか、キャラクタ選択機100により選択することで、音声合成エンジン105から出力される合成音の声質や口調などを変えることができる。音声パラメータデータベース101に格納されている声質データの各々には、男性1,女性1,子供1などのような声質番号(識別子)が付与されている。また音声パラメータデータベース101には、声質データの各々に対応づけてパラメータセットが格納されている。このパラメータセットは、対応する声質データの雰囲気を表すものであり、図2に示すように、明るさ,渋さ,若さ,ノリの各要素(パラメータ)に対して数値データが設定されている。
【0041】
入力変換辞書データベース102には、それぞれ異なったキャラクタに対応する入力変換辞書が複数格納されており、これら入力変換辞書のうちどれか1つを、キャラクタ選択機100により選択して送信端末108に与える。各入力変換辞書は、それぞれ別のキャラクタ性を持たせた文章を入力するのに適したものになっており、ユーザが入力したい文章に合った入力変換辞書を選ぶことで、ユーザの行う文章入力の作業が簡単になる。また入力変換辞書データベース102には、入力変換辞書の各々に対応づけてパラメータセットが格納されている。このパラメータセットは、対応する入力変換辞書の雰囲気を表すものであり、上述の声質データの場合と同様、明るさ,渋さ,若さ,ノリの各要素に対して数値データが設定されている。
【0042】
画像データベース103には、キャラクタ選択機100によって選択可能なキャラクタに対応する画像データが複数格納されており、これを送信端末108に提示したり、受信端末109に提示するためにマルチメディアメール配信サーバ112に送信したりすることができる。また画像データベース103には、画像データの各々に対応づけてパラメータセットが格納されている。このパラメータセットは、対応する画像データの雰囲気を表すものであり、上述の声質データの場合と同様、明るさ,渋さ,若さ,ノリの各要素に対して数値データが設定されている。
【0043】
表現スタイルデータベース104には、キャラクタ選択機100によって選択可能な表現スタイル(オヤジ風、貴族風、ギャル風など)とパラメータセットとが対応づけられて複数格納されている。表現スタイルの各々にはキャラクタ名(オヤジ風,貴族風,ギャル風,子供風,不良風など)が付与されている。表現スタイルは、ユーザが作成しようとしているマルチメディアメール(マルチメディアコンテンツ)にどのような雰囲気を与えるかを示すものである。パラメータセットは、対応する表現スタイル(キャラクタ名)の雰囲気を表すものであり、図3に示すように、明るさ,渋さ,若さ,ノリの各要素に対して数値データが設定されている。
【0044】
マルチメディアメール配信サーバ112は、合成音保持装置106と、画像保持装置107によって構成され、送信端末108から、メールサーバ110を介して受信端末109に送信されたメールに添付される画像や音声を、受信端末109に送信することを目的とする。
【0045】
以下、図1の機器構成で提供されるサービスの動作手順を説明する。
【0046】
このサービスは概略、図4に示されるフローに従って動作し、メールの表現スタイル選択(ステップ2100)、入力変換辞書のダウンロード(ステップ2101)、テキストの入力(ステップ2102)、合成音声の声質選択(ステップ2103)、画像の選択(ステップ2104)、完成したマルチメディアメールの送信(ステップ2105)というステップをたどる。各ステップでは既に処理済のステップの結果を利用することができ、例えばステップ2104では、ユーザがステップ2100でどの表現スタイルを選択し、ステップ2102でどのような文章を入力し、ステップ2103でどの声質を選択したかを考慮した上で、適切な画像を選択しやすいようにすることができる。
【0047】
以下、図4に示されるフローの各ステップを詳細に説明する。
【0048】
<ステップ2100>
1)送信側のユーザが、マルチメディアメールの作成を開始する。送信端末108はキャラクタサーバ111と通信し、表現スタイルのリストを要求する。キャラクタ選択機100は、選択可能な表現スタイル(キャラクタ名)のリストを表現スタイルデータベース104から取得して送信端末108に送る。送信端末108は、キャラクタサーバ111からのリストをディスプレイに表示しユーザに選択を促す(図5参照)。送信側のユーザは、表示されたキャラクタのリストから、入力したいメールのスタイルに最も近いものを1つ選択する(図5参照)。なお、ここでは「貴族風」の表現スタイルが選択されたものとする。
【0049】
<ステップ2101>
2)選択された表現スタイル(ここでは「貴族風」)に対応した入力変換辞書をダウンロードするかどうかの確認が送信端末108のディスプレイに表示される(図6参照)。「いいえ」を選ぶと、1)のキャラクタ選択画面に戻る。「はい」を選ぶと、選択されたキャラクタ(ここでは「貴族風」)を示すデータが、キャラクタサーバ111のキャラクタ選択機100に送信される。
【0050】
キャラクタサーバ111は、送信された表現スタイル(ここでは「貴族風」)に対応した入力変換辞書を入力変換辞書データベース102から選択し、その入力変換辞書を送信端末108に送信する。具体的には、渡された表現スタイル「貴族風」と入力変換辞書データベース102に格納されている入力変換辞書の各々との類似度を計算し、類似度が最も高い入力変換辞書を送信端末108に送信する。上述のとおり、ユーザの選ぶキャラクタ(表現スタイル)には明るさ・渋さ・若さ・ノリという4つのパラメータが与えられており、入力変換辞書データベース102の保持する入力変換辞書の各々にもそれぞれ同様のパラメータが与えられている。このとき、選択されたキャラクタ(表現スタイル)と各入力変換辞書との類似度は、それぞれを4次元空間上の点として、その間のユークリッド距離を計算することにより求められる。即ち、ここで各キャラクタ(表現スタイル)に割り振られる4つのパラメータをxi(1≦i≦4)、各入力変換辞書に割り振られる同様のパラメータをyi(1≦i≦4)とすると、キャラクタ(表現スタイル)と入力変換辞書との類似度は、
【数1】
で求められ、この値が小さいほど類似度が高いものとする。
【0051】
<ステップ2102>
3)入力変換辞書のダウンロードが終了すると、メール入力画面に移行する。メールの文章を入力するには、まず仮名の入力を行う(図7参照)。続いて、仮名漢字変換処理を行うと、2)でダウンロードされた入力変換辞書に基づいて変換処理が行われる(図8参照)。
4)メール入力が完了したら、ユーザはメニューから「完成」を選択する(図9参照)。
【0052】
<ステップ2103>
5)送信端末108が、キャラクタサーバ111のキャラクタ選択機100に対し、先ほど入力を行った文章の読み上げに適した声質のリストを要求する。このとき、キャラクタサーバ111に対し、文章の作成に使用したキャラクタは「貴族風」であるという情報が渡される。
【0053】
キャラクタサーバ111は、渡された情報を元に、音声パラメータデータベース101が保持する声質データのリストをソートする。具体的には、渡されたキャラクタ「貴族風」と、音声パラメータデータベース101に格納されている声質データの各々との類似度を計算し、音声パラメータデータベース101の持つ声質データのリストを類似度によってソートする。その後、類似度の最も低い声質データを類似度が最も高い声質データと類似度が2番目に高い声質データの間に挿入し、送信端末108に送信する声質データのリストとする。
【0054】
図3に示したように、ユーザの選ぶキャラクタには明るさ・渋さ・若さ・ノリという4つのパラメータが与えられており、音声パラメータデータベース101の保持する声質データにも図2に示したようにそれぞれ同様のパラメータが与えられている。このとき、選択されたキャラクタと各声質データの類似度は、それぞれを4次元空間上の点として、その間のユークリッド距離を計算することにより求められる。即ち、ここで各キャラクタに割り振られる4つのパラメータをxi(1≦i≦4)、各声質データに割り振られる同様のパラメータをyi(1≦i≦4)とすると、キャラクタと声質データの類似度は上述の[数1]で求められ、この値が小さいほど類似度が高いものとする。
【0055】
このような方法で、選択されたキャラクタと各声質データの類似度を求めることで、
・リストの先頭にあるキャラクタは、書かれたメールの読み上げに最も適したキャラクタである。
・リストの2番目にあるキャラクタは、書かれたメールの読み上げに最もミスマッチなキャラクタであり、それによって読み上げに面白味を出すことができる。
・リストの3番目以降のキャラクタは、ユーザが別のキャラクタを選択しやすいように、文章スタイルと声質の類似度によってソートされている。
という特徴を持ったリストを作る。
【0056】
送信端末108は、このリストを送信側ユーザに提示して、どれか1つのキャラクタの選択を促す(図10参照)。
6)送信側ユーザが、リストの先頭にある「男性1」のキャラクタ(声質)を選択する。送信端末108は、キャラクタサーバ111のキャラクタ選択機100にキャラクタ選択内容を、音声合成エンジン105にメール文章を送信して、キャラクタサーバ111からの合成音の送信を要求する。音声合成エンジン105は、キャラクタ選択機100が音声パラメータデータベース101から選択した「男性1」の声質データを使用して、送信端末108から受け取ったメール文章から合成音を生成し、送信端末108に送る。送信端末108は、受け取った合成音を再生して送信側ユーザにこのキャラクタでの読み上げの結果として試聴させる(図11参照)。
【0057】
<ステップ2104>
7)送信端末108が、キャラクタサーバ111のキャラクタ選択機100に対し、先ほど入力を行った文章に適した画像のリストを要求する。このとき、キャラクタサーバ111に対し、合成音の作成に使用したキャラクタは「貴族風」であるという情報が渡される。
【0058】
キャラクタサーバ111は、渡された情報を元に、画像データベース103が保持する画像データのリストをソートする。具体的には、渡されたキャラクタ「貴族風」と、画像データベース103に格納されている画像データの各々との類似度を上述と同様にして計算し、画像データベース103の持つ画像データのリストを類似度によってソートする。その後、類似度の最も低い画像データを類似度が最も高い画像データと類似度が2番目に高い画像データの間に挿入し、送信端末108に送信する画像データのリストとする。これによって、
・リストの先頭にあるキャラクタ(画像データ)は、合成音の声質と最も一致するキャラクタ(画像データ)である。
・リストの2番目にあるキャラクタ(画像データ)は、合成音の声質と最もミスマッチなキャラクタ(画像データ)であり、それによって読み上げに面白味を出すことができる。
・リストの3番目以降のキャラクタ(画像データ)は、ユーザが別のキャラクタ(画像データ)を選択しやすいように、合成音の声質と画像の類似度によってソートされている。
という特徴を持ったリストを作る。
【0059】
送信端末108は、このリストを送信側ユーザに提示して、どれか1つのキャラクタ(画像データ)の選択を促す(図12参照)。
8)送信側ユーザが、リストの先頭にある「男爵1」のキャラクタ(画像データ)を選択する。送信端末108は、キャラクタサーバ111のキャラクタ選択機100にキャラクタ選択内容を送信し、対応する画像の送信を要求する。送信端末108は、受け取った画像を表示して送信側ユーザの確認を求める(図13参照)。
【0060】
<ステップ2105>
9)送信端末108が、送信側ユーザに、受信側ユーザのメールアドレスの入力を求める。メールアドレスの入力が完了したら、送信側ユーザは「送信」を選択する(図14参照)。
10)送信端末108が、キャラクタサーバ111のキャラクタ選択機100にキャラクタ(画像データ)選択内容を、音声合成エンジン105にメール文章を送信し、マルチメディアメールのデータ作成を要求する。
【0061】
音声合成エンジン105は、キャラクタ選択機100が音声パラメータデータベース101から選択した「男性1」に対応する声質データを使用して、送信端末108から受け取ったメール文章から合成音を生成し、さらに、後でこの合成音を簡単に参照できるように、一意のラベル文字列を生成して、マルチメディアメール配信サーバ112に送信する。マルチメディアメール配信サーバ112は、音声合成エンジン105の生成した合成音を、一意のラベル文字列から簡単に参照できるような形で、合成音保持装置106に格納する。
【0062】
さらに、マルチメディアメール配信サーバ112は、キャラクタサーバ111の画像データベース103から、選択された画像を受け取って画像保持装置107に格納する。このとき、後でこの画像を簡単に参照できるように、一意のラベル文字列を生成して記憶しておく。
11)キャラクタサーバ111が、送信端末108に、音声合成エンジン105が生成した合成音を参照するためのラベル文字列と、画像データベース103から選択された画像を参照するためのラベル文字列を送信する。
【0063】
送信端末108は、キャラクタサーバ111から受け取った2つのラベル文字列から、一意に得られるURLを作成する。例えば、合成音を参照するためのラベル文字列として「abc123」が、画像を参照するためのラベル文字列として「xyz987」が与えられており、マルチメディアメール配信サーバ112のインターネットアドレスが「multimedia−mail.com」であれば、「http://multimedia−mail.com/abc123+xyz987」というURLを作成する。その上で、「メールが来ています。下記をクリック!」という本文と、作成したURLが書かれた内容のメールを作成し、宛先を受信端末109として、メールサーバ110に送信する。
12)メールサーバ110は、受信したメールに書かれた宛先に従って、このメールを受信端末109に送信し、受信端末109はメールの着信があった旨表示を行う(図15参照)。受信側ユーザがこのメールを読み(図16参照)、メールに書かれたURLを選択すると、受信端末109はマルチメディアメール配信サーバ112にアクセスして、そのURLに対応するデータの送信を要求する。即ち、URLに埋めこまれた、合成音を参照するためのラベル文字列と、画像を参照するためのラベル文字列をマルチメディアメール配信サーバ112に送信し、合成音保持装置106と画像保持装置107から、対応する合成音や画像のデータを受け取る。
【0064】
受信端末109は、マルチメディアメール配信サーバ112から受信した画像データを表示しつつ、同じくマルチメディアメール配信サーバ112から受信した合成音を再生し、送信側ユーザの作成したマルチメディアメールの内容を受信側ユーザに示す(図17参照)。
【0065】
以上の手順に従って、マルチメディアメールの作成及び送受信を行うサービスが実現できる。
【0066】
なお、上記2)で「いいえ」を選んだ場合、1)に戻る代わりに、送信端末108もしくはキャラクタサーバ111上に用意された、キャラクタに依存しない汎用の入力変換辞書を使用するようにしてもよい。また、ユーザに確認を求めず、1)で選択されたキャラクタに対応する入力変換辞書を、自動でダウンロードするようにしてもよい。
【0067】
同様に、上記6)でもユーザによる選択を要求せず、5)で作成されたソート済みリストで最適とされたものを自動で選択するようにしても良い。
【0068】
同様に、上記8)でもユーザによる選択を要求せず、7)で作成されたソート済みリストで最適とされたものを自動で選択するようにしても良い。
【0069】
また、上記5)で、類似度の尺度としてユークリッド距離の代わりに別のものを用いても良い。例えば、ユークリッド距離のlog値を用いてもよいし、各パラメータに対して重みwiを設定して、
【数2】
を類似度の尺度として用いても良い。
【0070】
また、上記7)では合成音の作成に使用したキャラクタと各画像のキャラクタとの間の類似度を用いてリストのソートを行っているが、同時にテキストの入力に使用した入力変換辞書のキャラクタを用いても良い。即ち、ある画像のキャラクタと、事前に合成音の作成に使用したキャラクタ間の類似度をDv、同じ画像のキャラクタと、事前にテキストの入力に使用した入力変換辞書のキャラクタ間の類似度Ddをとすると、例えばDv+Ddを、事前の選択内容とこの画像のキャラクタの間の類似度として用いることができる。
【0071】
(第2の実施形態)
第1の実施形態に記載の発明の機能を、マルチメディアメール配信サーバ112を用意することなく実現する構成を図18に示す。この構成では、上記第1の実施形態に記載の構成と比較して、キャラクタサーバ111にかかる負荷が大きくなるが、キャラクタサーバとは別にマルチメディアメール配信サーバ112を用意する必要が無く、また受信端末109に送信する合成音や画像を合成音保持装置106や画像保持装置107に保存しておく必要が無いため、送信側ユーザの作成するメールを受信側ユーザに配信する際に、サーバ側で用意する記憶容量が小さくて済むという利点がある。
【0072】
以下、図18の機器構成で提供されるサービスの動作手順を説明する。
1)〜9)は、上記第1の実施形態と同様の手順であるため省略する。
10)送信端末108が、キャラクタサーバ111のキャラクタ選択機100において、送信側ユーザが選択した声質データ及び画像データを指定するためのURLを作成する。例えば、送信側ユーザが選択した声質データ「男性1」を指定するためのラベル文字列として「123」が、画像データ「男爵1」を指定するためのラベル文字列として「xyz」が与えられており、マルチメディアメール配信サーバ112のインターネットアドレスが「multimedia−mail.com」であれば、「http://multimedia−mail.com/123+xyz」というURLを作成する。さらに、合成音で喋らせるメールの本文を、このURLの後ろに追加して「http://multimedia−mail.com/123+xyz?麿でおじゃる。」とし、マルチメディアメールの本体とする。このとき、URLに含めることが不可能な文字は、キャラクタサーバ111でデコードできる適当な方法でエンコードして記述する。
【0073】
以上の操作を行った上で、「メールが来ています。下記をクリック!」という本文と、作成したURLが書かれた内容のメールを作成し、宛先を受信端末109として、メールサーバ110に送信する。
11)メールサーバ110は、受信したメールに書かれた宛先に従って、このメールを受信端末109に送信し、受信端末109はメールの着信があった旨表示を行う(図15参照)。受信側ユーザがこのメールを読み(図16参照)、メールに書かれたURLを選択すると、受信端末109はキャラクタサーバ111にアクセスして、そのURLに対応するデータの送信を要求する。
【0074】
URLを受け取ったキャラクタサーバ111では、まずURLデコーダ200がこのURLを解釈して、URLがエンコードされていればそれをデコードした上で、声質データ及び画像データを指定するためのラベル文字列と、メール本文を表す文字列を切り離す。URLデコーダ200は次に、キャラクタ選択機100を通して、ラベル文字列「123」に対応する声質データ「男性1」とラベル文字列「xyz」に対応する画像データ「男爵1」を選択し、さらに音声合成エンジン105にメール本文の文字列「麿でおじゃる。」を渡して、マルチメディアメールのデータを作成し、受信端末109に送信する。
【0075】
受信端末109は、キャラクタサーバ111から受信した画像データを表示しつつ、同じくキャラクタサーバ111から受信した合成音を再生し、送信側ユーザの作成したマルチメディアメールの内容を受信側ユーザに示す(図17参照)。
【0076】
(第3の実施形態)
上記第2の実施形態に記載の発明の機能を、受信端末109とキャラクタサーバ111との通信を行うことなく実現する構成を図19に示す。この構成では、作成されるマルチメディアメールの閲覧に必要な全てのデータをメールサーバ110を通して送信するため、上記第2の実施形態に記載の構成と比較して、メールサーバ110にかかる負荷が大きくなるが、既に広く使用されている、電子メールへのファイル添付という形でマルチメディアメールを実現することができるため、サービスの実施が容易になるという利点がある。
【0077】
以下、図19の機器構成で提供されるサービスの動作手順を説明する。
1)〜9)は、上記第1および第2の実施形態と同様の手順であるため省略する。
10)送信端末108が、作成されたメールの本文に、上記手順6)において取得した合成音と、手順8)において取得した画像を添付した形式のメールを作成する。メールはRFC2112に規定される、MIME規格のマルチパートメッセージとして作成し、宛先を受信端末109として、メールサーバ110に送信する。
11)メールサーバ110は、受信したメールに書かれた宛先に従って、このメールを受信端末109に送信し、受信端末109はメールの着信があった旨表示を行う(図15参照)。受信側ユーザがこのメールを読むと、受信端末109はメールの構成を確認して、添付された画像と合成音のデータをデコードし、マルチメディアメールとして受信側ユーザに示す(図17参照)。
【0078】
(第4の実施形態)
第4の実施形態によるシステムの構成を図20に示し、この構成で提供されるサービスの動作手順を以下に説明する。
1)〜9)は、上記第1〜第3の実施形態と同様の手順であるため省略する。
10)ユーザに対し、上記手順にて作成されたコンテンツの保存を行うかどうかの問い合わせが行われる(図21参照)。ユーザが「いいえ」を選択するとコンテンツの作成は中断され、ユーザが「はい」を選択するとコンテンツは送信端末108に保存され、アラーム表示やメールの着信表示などに使用することができるようになる。
【0079】
(第5の実施形態)
上記第1〜第4の実施形態における、動作手順1)〜9)と類似の効果を得ることのできる、別の動作フローを図22に示す。図4の動作フローとの相違点は、画像のキャラクタの選択と合成音のキャラクタの選択の順番が逆になっていることである。これにより、ステップ2203において画像のキャラクタのリストをソートする際、ユーザがどの合成音のキャラクタを選択したかという情報を用いることはできなくなるが、代わりにステップ2204において、ユーザがどの画像のキャラクタを選択したかという情報を利用して、合成音のキャラクタのリストをソートすることができる。
【0080】
(第6の実施形態)
上記第1〜第4の実施形態における、動作手順1)〜9)と類似の効果を得ることのできる、別の動作フローを図23に示す。図4の動作フローとの相違点は、テキストの入力にあたって、表現のスタイル選択とそれに伴う入力変換辞書のダウンロードを行わない点である。このため、以降のステップで表現スタイルとの類似度をソートに使用することはできない。代わりに、ユーザが入力したテキストを解析してこのテキストの雰囲気を特徴づけるパラメータセット(明るさ、渋さ、若さ、ノリの各パラメータ)を作成し、作成したパラメータセットを用いて類似度を算出することによりソートを行うことができる。パラメータセットの作成は、例えば以下のようにして行うことができる。
・入力されたテキスト内で、テキストの全文字数に対する「!」記号や顔文字記号の出現頻度をパーセンテージで計算し、それを「ノリ」パラメータの値とする。
・テキスト内の各文の末尾が「です・ます」調である頻度をパーセンテージで計算し、それを「渋さ」パラメータの値とする。
・テキストの全文字数に対する片仮名の出現頻度をパーセンテージで計算し、それを「若さ」パラメータの値とする。
・テキストの形態素解析を行って、テキスト内の全形態素数に対する、明るさをイメージさせる単語の出現頻度をパーセンテージで計算し、それを「明るさ」パラメータの値とする。なお、明るさをイメージさせる単語は、あらかじめ送信端末108の内部にリストを用意しておき、このリストと順次文字列マッチングを行うことによって、形態素解析された各単語が明るさをイメージさせる単語かどうかの判定を行う。
【0081】
(第7の実施形態)
上記第1〜第4の実施形態における、動作手順1)〜9)と類似の効果を得ることのできる、別の動作フローを図24に示す。図4の動作フローとの相違点は、図4におけるステップ2100〜2104の処理が、図24のフローではユーザの望む順番で行えることである。
【0082】
図24の動作フローはステップ2400から開始し、ステップ2401において、メールの表現スタイル選択(ステップ2402)及び入力変換辞書のダウンロード(ステップ2403)、合成音の声質選択(ステップ2404)、画像の選択(ステップ2405)、テキストの入力(ステップ2406)、完成したマルチメディアメールの送信(ステップ2407)のどれを次に行うか、ユーザが選択することができる。ステップ2401における選択処理は、例えば図25に示すようなメニュー画面を通じて行えばよい。なお、ステップ2407の処理を行うための、「メール送信」の選択項目は、合成音の声質選択と、画像の選択と、テキストの入力を全て完了しなければ選択できないものとする。
【0083】
この方式の利点は、ユーザが行う必要のある各種選択・入力操作を、ユーザが望む順番で行うことができることである。ただし、操作の順番によって、ユーザに提示する画像や声質のキャラクタのリストをソートする際に使用できるデータベースが変化する。例えば、ステップ2405による画像の選択を行う前にステップ2404による声質の選択をユーザが行いたい場合、声質のキャラクタのリストをソートするために、ユーザが既に選択した画像のキャラクタと、声質のキャラクタの間の類似度を用いることはできない。この場合、画像のキャラクタと声質のキャラクタの間の類似度は用いずにソートを行う。なお、ソートを行うために使用できる、既に選択されたキャラクタや入力されたテキストが無い場合は、キャラクタ名を文字コード順にソートしてユーザに提示すればよい。
【0084】
【発明の効果】
以上のように本発明によれば、ユーザが希望するキャラクタに合った声質や画像の選択を容易にし、さらにユーザの書く文章を、ユーザが希望するキャラクタに合った文体に誘導できる。これにより、携帯電話でマルチメディアコンテンツの作成を行うユーザの負担を軽減し、さらに声質や画像、文体のキャラクタが一致したコンテンツの作成を容易にできる。
【図面の簡単な説明】
【図1】第1の実施形態によるシステムの概略構成を示す図である。
【図2】各声質に対するパラメータ設定表の一例である。
【図3】各キャラクタ名(表現スタイル)に対するパラメータ設定表の一例である。
【図4】図1に示したシステムの動作フロー概略図である。
【図5】表現のスタイル選択画面の一例である。
【図6】変換辞書ダウンロード確認画面の一例である。
【図7】メール本文仮名入力画面の一例である。
【図8】メール本文仮名漢字変換画面の一例である。
【図9】メール本文入力完了確認画面の一例である。
【図10】合成音声質候補選択画面の一例である。
【図11】合成音試聴画面の一例である。
【図12】画像候補選択画面の一例である。
【図13】画像確認画面の一例である。
【図14】送信先メールアドレス入力画面の一例である。
【図15】メール着信報知画面の一例である。
【図16】着信メール本文表示画面の一例である。
【図17】マルチメディアメール再生画面の一例である。
【図18】第2の実施形態によるシステムの概略構成を示す図である。
【図19】第3の実施形態によるシステムの概略構成を示す図である。
【図20】第4の実施形態によるシステムの概略構成を示す図である。
【図21】マルチメディアコンテンツダウンロード確認画面の一例である。
【図22】第5の実施形態の動作フロー概略図である。
【図23】第6の実施形態の動作フロー概略図である。
【図24】第7の実施形態の動作フロー概略図である。
【図25】設定項目選択メニュー画面の一例である。
【符号の説明】
100:キャラクタ選択機
101:音声パラメータデータベース
102:入力変換辞書データベース
103:画像データベース
104:表現スタイルデータベース
105:音声合成エンジン
106:合成音保持装置
107:画像保持装置
108:送信端末
109:受信端末
110:メールサーバ
111:キャラクタサーバ
112:マルチメディアメール配信サーバ
200:URLデコーダ
【発明の属する技術分野】
本発明は情報処理装置および方法に関し、特に、マルチメディアコンテンツの作成を支援する装置および方法に関する。
【0002】
【従来の技術】
従来の技術では、携帯情報端末に対してマルチメディア的コンテンツを提供する際、サービス提供者側であらかじめ用意したコンテンツの場所を示すURLをテキストで書かれたメールに書き込み、ユーザはそのURLをたどることでコンテンツの参照を行う。用意されたコンテンツのうち、どれの参照を行うか選択する際には、列挙もしくは階層的構造により提示されたコンテンツのリストから、目的のものをユーザが探して確定するという作業を行う必要がある。
【0003】
【特許文献1】
特開2003−132049号公報
【特許文献2】
特開2002−132823号公報
【0004】
【発明が解決しようとする課題】
従来の技術では、画像や音声などのマルチメディア的コンテンツを含むメールを作成しようとすると、常にメールの内容に合った画像や音声が提供できるようにするには非常に多くの画像や音声をあらかじめ用意しておかなければならない。一方、あらかじめ用意されたデータが多くなるにつれ、サービスを利用するユーザにとってそれら画像や音声の選択にかかる労力が大きくなり、メールの作成が困難になる。
【0005】
【課題を解決するための手段】
本発明による情報処理装置は、第1の記憶部と、選択部とを備える。第1の記憶部は、複数の第1の情報と、複数の第1の情報に対応づけられた複数の第1のパラメータセットとを記憶する。複数の第1のパラメータセットの各々は、対応する第1の情報の雰囲気を特徴づけるものである。選択部は、第2の情報の雰囲気を特徴づける第2のパラメータセットと複数の第1のパラメータセットの各々とを用いて第2の情報と複数の第1の情報の各々との類似度を算出し、得られた類似度に基づいて複数の第1の情報のうち少なくとも1つを選択する。
【0006】
本発明による情報処理装置は、たとえばマルチメディアコンテンツの作成を支援するために用いられる。第1の情報と第2の情報とを用いたマルチメディアコンテンツを上記情報処理装置を利用してユーザが作成する際、まず、ある第2の情報が何らかの手段により決定される。この第2の情報と複数の第1の情報の各々との類似度に基づいて複数の第1の情報のうち少なくとも1つが選択部によって選択される。これにより、第2の情報にふさわしいであろうと(類似度に基づいて)考えられる第1の情報が少なくとも1つユーザに提供され、第1の情報の選択に関するユーザの負担が軽減される。第1および第2のパラメータセットは、対応する情報の雰囲気を特徴づけるものであるため、選択部によって算出される類似度は第1の情報と第2の情報との雰囲気の一致度合い(雰囲気の統一感)と相関がある。したがって、類似度の最も高い第1の情報を選択部が選択した場合には、第1の情報と第2の情報との雰囲気の一致度合いの高い(全体の雰囲気の統一感の高い)マルチメディアコンテンツを作成できる。
【0007】
好ましくは上記複数の第1のパラメータセットの各々は、対応する第1の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む。上記第2のパラメータセットは、第2の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む。
【0008】
好ましくは上記選択部は、第2の情報の内容を解析して第2のパラメータセットを生成する。
【0009】
好ましくは上記情報処理装置は第2の記憶部をさらに備える。第2の記憶部は、複数の第2の情報と、複数の第2の情報に対応づけられた複数の第2のパラメータセットとを記憶する。複数の第2のパラメータセットの各々は、対応する第2の情報の雰囲気を特徴づけるものである。選択部は、複数の第2の情報のうちのある1つ(以下、「第2の情報A」という。)に対応する第2のパラメータセットと複数の第1のパラメータセットの各々とを用いて第2の情報Aと複数の第1の情報の各々との類似度を算出する。
【0010】
好ましくは上記複数の第2のパラメータセットの各々は、対応する第2の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む。
【0011】
好ましくは上記選択部は、第2の情報Aをユーザに選択させる。
【0012】
好ましくは上記選択部は、得られた類似度に基づいて選択した第1の情報のうち1つをユーザに選択させる。
【0013】
好ましくは、上記第1および第2の情報は、マルチメディアコンテンツを作成するために用いられる情報である。
【0014】
好ましくは、上記第1および/または第2の情報は、マルチメディアコンテンツの構成要素である。マルチメディアコンテンツの構成要素としては、たとえば、画像データ、音声データ、テキストデータが挙げられる。
【0015】
好ましくは、上記第1および/または第2の情報は、マルチメディアコンテンツのある構成要素の雰囲気を制御するものである。たとえば、マルチメディアコンテンツの構成要素の1つである音声データの雰囲気(声質・調子など)を制御するデータ(声質データ)や、マルチメディアコンテンツの構成要素の1つであるテキストデータの雰囲気(文体)を制御する入力変換辞書などが挙げられる。
【0016】
好ましくは、上記第1または第2の情報は、マルチメディアコンテンツ全体に与えるべき雰囲気を示すものである。
【0017】
好ましくは上記情報処理装置は、与えられたテキストを音声データに変換する音声合成部をさらに備える。複数の第1の情報の各々は、音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)である。音声合成部は、選択部によって選択された声質データを用いて上記テキストを音声データに変換する。
【0018】
好ましくは上記複数の第1の情報の各々は画像データである。
【0019】
好ましくは上記複数の第1の情報の各々は表現スタイルである。
【0020】
好ましくは上記複数の第1の情報の各々は、あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書である。上記情報処理装置は、選択部によって選択された入力変換辞書を用いてユーザにテキストを入力させる。
【0021】
好ましくは上記第2の情報は表現スタイルである。
【0022】
好ましくは上記第2の情報は画像データである。
【0023】
好ましくは上記第2の情報は、あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書であり、上記音声合成部には、入力変換辞書を用いて入力されたテキストが与えられる。
【0024】
好ましくは上記第2の情報は、あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書であり、上記情報処理装置は、入力変換辞書を用いてユーザにテキストを入力させる。
【0025】
好ましくは上記情報処理装置は、与えられたテキストを音声データに変換する音声合成部をさらに備える。上記第2の情報は、音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)である。音声合成部は、上記声質データを用いて上記テキストを音声データに変換する。
【0026】
好ましくは上記情報処理装置は、選択部によって選択された入力変換辞書を用いて入力されたテキストを音声データに変換する音声合成部をさらに備える。上記第2の情報は、音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)である。音声合成部は、上記声質データを用いて上記テキストを音声データに変換する。
【0027】
本発明による情報処理方法はステップ(a)〜(c)を備える。ステップ(a)では、複数の第1の情報と複数の第1のパラメータセットとを対応づける。複数の第1のパラメータセットの各々は、対応する第1の情報の雰囲気を特徴づけるものである。ステップ(b)では、第2の情報の雰囲気を特徴づける第2のパラメータセットと複数の第1のパラメータセットの各々とを用いて第2の情報と複数の第1の情報の各々との類似度を算出する。ステップ(c)では、ステップ(b)によって得られた類似度に基づいて複数の第1の情報のうち少なくとも1つを選択する。
【0028】
本発明では、ユーザがマルチメディア的コンテンツを含むメールを作成しようとする際、まずユーザの作りたいメールのキャラクタを選択させることによって、そのキャラクタに合った音声合成パラメータ(声質データ)や画像データを選択しやすいようにソートしてユーザに提示し、さらにそのキャラクタに合った文章をユーザが書くように、キャラクタに個別のテキスト入力変換辞書を使用させる。これにより、テキストや画像及び音声の雰囲気が一致したマルチメディアメールを作成できる。
【0029】
本発明による音声合成サーバ装置は、クライアント携帯端末から送信されたテキストを音声合成技術を用いて音声データに変換する装置であって、特定の雰囲気に沿った文章の入力を行い易くなるようなテキスト入力変換辞書を複数持ち、直感的に選び易いキャラクタをユーザに複数提示してその中から1つを選択させることができ、各々のテキスト入力変換辞書とキャラクタの間の類似性を計算する手段を有し、これによってユーザの選択したキャラクタに沿った文章の入力に最適なテキスト入力変換辞書を決定し、ユーザにダウンロードさせることができ、ユーザは、ダウンロードしたテキスト入力変換辞書を用いてテキストの作成を行うことができる。
【0030】
上記サーバ装置では、ユーザの入力したい文章の雰囲気に合わせて、最適なテキスト入力変換辞書をダウンロードさせることにより、携帯端末でメールなどのテキストを入力するユーザが様々な文体を使い分ける場合でも、常にストレス無くテキスト入力作業が行えるようになる。
【0031】
好ましくは上記音声合成サーバ装置は、テキストの読み上げの雰囲気を定める声質データを複数持ち、上記テキスト入力変換辞書及びキャラクタと各々の声質データとの間の類似性を計算する手段を有し、音声合成を行う際にはユーザの選択したキャラクタとテキスト入力変換辞書に最適な声質データを用いることによって、入力されたテキストと声質の間の整合性が保たれる。
【0032】
上記サーバ装置では、ユーザの入力するテキストの文体に一致するような合成音の声質を自動的に選択するか、もしくは文体と声質の間の類似性によって、サーバ装置の保持する声質のリストをソートして表示することを可能とし、ユーザにとって、入力されたテキストとそれを読み上げる合成音の雰囲気を統一することが容易になる。
【0033】
好ましくは上記音声合成サーバ装置は、画像データを複数持ち、上記テキスト入力変換辞書、キャラクタ及び声質データと各々の画像データとの間の類似性を計算してそれらの最適な組み合わせを求める手段を有し、入力されたテキストと声質及び表示される画像の間の整合性が保たれる。
【0034】
上記サーバ装置では、ユーザの入力するテキストの文体、合成音の声質、及び画像データの類似性を計算し、これら3つのデータの雰囲気がどの程度一致しているかを求めることによって、マルチメディアコンテンツの雰囲気の統一性を確保することが容易になる。
【0035】
上記音声合成サーバ装置を用いて作成される、テキストと合成音声と画像のデータからなるマルチメディアコンテンツを、マルチメディアコンテンツの作成を行ったユーザにダウンロードさせることによって、クライアント端末へのメールや電話の着信報知用コンテンツやアラーム表示用コンテンツとして利用させることが好ましい。上記音声合成サーバ装置によって効率的に作成されたマルチメディアコンテンツを、コンテンツ作成者自らがクライアント端末に保持することによって、従来用いられていた着信メロディや着信音声などの音声メディアのみによる報知メッセージよりも個人の趣向が反映し易くオリジナリティと表現性の高い、マルチメディアコンテンツによる報知メッセージの利用が可能になる。
【0036】
本発明によるマルチメディアメール配信システムは、上記音声合成サーバ装置を用いて作成される、テキストと合成音声と画像のデータからなるマルチメディアコンテンツを、別に用意したメールサーバ、画像配信サーバ及び合成音声配信サーバを用いてマルチメディアメールとして送信を行える。このシステムでは、上記音声合成サーバ装置によって効率的に作成されたマルチメディアコンテンツを、作成された合成音を蓄積し配信する合成音配信サーバ装置と、コンテンツ作成者の選択した画像をコンテンツ閲覧者に配信する画像配信サーバ装置と、テキスト及び前記合成音及び画像を参照するためのインデックスとなるURLを含むメールを配信するメール配信サーバ装置によって、ネットワークの負荷を分散させつつ、ユーザによって作成されたマルチメディアコンテンツの配信を効率的に行うことができる。
【0037】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して詳しく説明する。なお、図面において同一または相当する部分には同じ参照符号を付しその説明は繰り返さない。
【0038】
(第1の実施形態)
第1の実施形態によるシステムの構成を図1に示す。このシステムでは、送信側ユーザの使用する携帯情報端末(以下「送信端末」)108と受信側ユーザの使用する携帯情報端末(以下「受信端末」)109との間でメールサーバ110を介してメールの送受信が行われる。送信端末108は、キャラクタサーバ111の保持する各種キャラクタデータを参照してマルチメディアメールを作成し、受信端末109はマルチメディアメール配信サーバ112を介して、作成されたマルチメディアメールを取得する。
【0039】
キャラクタサーバ111は、キャラクタ選択機100と、音声パラメータデータベース101と、入力変換辞書データベース102と、画像データベース103と、表現スタイルデータベース104と、音声合成エンジン105とを備える。
【0040】
音声パラメータデータベース101には、それぞれ異なったキャラクタ(男性、女性、子供など)に対応する声質データが複数格納されており、どの声質データを音声合成エンジン105に与えるか、キャラクタ選択機100により選択することで、音声合成エンジン105から出力される合成音の声質や口調などを変えることができる。音声パラメータデータベース101に格納されている声質データの各々には、男性1,女性1,子供1などのような声質番号(識別子)が付与されている。また音声パラメータデータベース101には、声質データの各々に対応づけてパラメータセットが格納されている。このパラメータセットは、対応する声質データの雰囲気を表すものであり、図2に示すように、明るさ,渋さ,若さ,ノリの各要素(パラメータ)に対して数値データが設定されている。
【0041】
入力変換辞書データベース102には、それぞれ異なったキャラクタに対応する入力変換辞書が複数格納されており、これら入力変換辞書のうちどれか1つを、キャラクタ選択機100により選択して送信端末108に与える。各入力変換辞書は、それぞれ別のキャラクタ性を持たせた文章を入力するのに適したものになっており、ユーザが入力したい文章に合った入力変換辞書を選ぶことで、ユーザの行う文章入力の作業が簡単になる。また入力変換辞書データベース102には、入力変換辞書の各々に対応づけてパラメータセットが格納されている。このパラメータセットは、対応する入力変換辞書の雰囲気を表すものであり、上述の声質データの場合と同様、明るさ,渋さ,若さ,ノリの各要素に対して数値データが設定されている。
【0042】
画像データベース103には、キャラクタ選択機100によって選択可能なキャラクタに対応する画像データが複数格納されており、これを送信端末108に提示したり、受信端末109に提示するためにマルチメディアメール配信サーバ112に送信したりすることができる。また画像データベース103には、画像データの各々に対応づけてパラメータセットが格納されている。このパラメータセットは、対応する画像データの雰囲気を表すものであり、上述の声質データの場合と同様、明るさ,渋さ,若さ,ノリの各要素に対して数値データが設定されている。
【0043】
表現スタイルデータベース104には、キャラクタ選択機100によって選択可能な表現スタイル(オヤジ風、貴族風、ギャル風など)とパラメータセットとが対応づけられて複数格納されている。表現スタイルの各々にはキャラクタ名(オヤジ風,貴族風,ギャル風,子供風,不良風など)が付与されている。表現スタイルは、ユーザが作成しようとしているマルチメディアメール(マルチメディアコンテンツ)にどのような雰囲気を与えるかを示すものである。パラメータセットは、対応する表現スタイル(キャラクタ名)の雰囲気を表すものであり、図3に示すように、明るさ,渋さ,若さ,ノリの各要素に対して数値データが設定されている。
【0044】
マルチメディアメール配信サーバ112は、合成音保持装置106と、画像保持装置107によって構成され、送信端末108から、メールサーバ110を介して受信端末109に送信されたメールに添付される画像や音声を、受信端末109に送信することを目的とする。
【0045】
以下、図1の機器構成で提供されるサービスの動作手順を説明する。
【0046】
このサービスは概略、図4に示されるフローに従って動作し、メールの表現スタイル選択(ステップ2100)、入力変換辞書のダウンロード(ステップ2101)、テキストの入力(ステップ2102)、合成音声の声質選択(ステップ2103)、画像の選択(ステップ2104)、完成したマルチメディアメールの送信(ステップ2105)というステップをたどる。各ステップでは既に処理済のステップの結果を利用することができ、例えばステップ2104では、ユーザがステップ2100でどの表現スタイルを選択し、ステップ2102でどのような文章を入力し、ステップ2103でどの声質を選択したかを考慮した上で、適切な画像を選択しやすいようにすることができる。
【0047】
以下、図4に示されるフローの各ステップを詳細に説明する。
【0048】
<ステップ2100>
1)送信側のユーザが、マルチメディアメールの作成を開始する。送信端末108はキャラクタサーバ111と通信し、表現スタイルのリストを要求する。キャラクタ選択機100は、選択可能な表現スタイル(キャラクタ名)のリストを表現スタイルデータベース104から取得して送信端末108に送る。送信端末108は、キャラクタサーバ111からのリストをディスプレイに表示しユーザに選択を促す(図5参照)。送信側のユーザは、表示されたキャラクタのリストから、入力したいメールのスタイルに最も近いものを1つ選択する(図5参照)。なお、ここでは「貴族風」の表現スタイルが選択されたものとする。
【0049】
<ステップ2101>
2)選択された表現スタイル(ここでは「貴族風」)に対応した入力変換辞書をダウンロードするかどうかの確認が送信端末108のディスプレイに表示される(図6参照)。「いいえ」を選ぶと、1)のキャラクタ選択画面に戻る。「はい」を選ぶと、選択されたキャラクタ(ここでは「貴族風」)を示すデータが、キャラクタサーバ111のキャラクタ選択機100に送信される。
【0050】
キャラクタサーバ111は、送信された表現スタイル(ここでは「貴族風」)に対応した入力変換辞書を入力変換辞書データベース102から選択し、その入力変換辞書を送信端末108に送信する。具体的には、渡された表現スタイル「貴族風」と入力変換辞書データベース102に格納されている入力変換辞書の各々との類似度を計算し、類似度が最も高い入力変換辞書を送信端末108に送信する。上述のとおり、ユーザの選ぶキャラクタ(表現スタイル)には明るさ・渋さ・若さ・ノリという4つのパラメータが与えられており、入力変換辞書データベース102の保持する入力変換辞書の各々にもそれぞれ同様のパラメータが与えられている。このとき、選択されたキャラクタ(表現スタイル)と各入力変換辞書との類似度は、それぞれを4次元空間上の点として、その間のユークリッド距離を計算することにより求められる。即ち、ここで各キャラクタ(表現スタイル)に割り振られる4つのパラメータをxi(1≦i≦4)、各入力変換辞書に割り振られる同様のパラメータをyi(1≦i≦4)とすると、キャラクタ(表現スタイル)と入力変換辞書との類似度は、
【数1】
で求められ、この値が小さいほど類似度が高いものとする。
【0051】
<ステップ2102>
3)入力変換辞書のダウンロードが終了すると、メール入力画面に移行する。メールの文章を入力するには、まず仮名の入力を行う(図7参照)。続いて、仮名漢字変換処理を行うと、2)でダウンロードされた入力変換辞書に基づいて変換処理が行われる(図8参照)。
4)メール入力が完了したら、ユーザはメニューから「完成」を選択する(図9参照)。
【0052】
<ステップ2103>
5)送信端末108が、キャラクタサーバ111のキャラクタ選択機100に対し、先ほど入力を行った文章の読み上げに適した声質のリストを要求する。このとき、キャラクタサーバ111に対し、文章の作成に使用したキャラクタは「貴族風」であるという情報が渡される。
【0053】
キャラクタサーバ111は、渡された情報を元に、音声パラメータデータベース101が保持する声質データのリストをソートする。具体的には、渡されたキャラクタ「貴族風」と、音声パラメータデータベース101に格納されている声質データの各々との類似度を計算し、音声パラメータデータベース101の持つ声質データのリストを類似度によってソートする。その後、類似度の最も低い声質データを類似度が最も高い声質データと類似度が2番目に高い声質データの間に挿入し、送信端末108に送信する声質データのリストとする。
【0054】
図3に示したように、ユーザの選ぶキャラクタには明るさ・渋さ・若さ・ノリという4つのパラメータが与えられており、音声パラメータデータベース101の保持する声質データにも図2に示したようにそれぞれ同様のパラメータが与えられている。このとき、選択されたキャラクタと各声質データの類似度は、それぞれを4次元空間上の点として、その間のユークリッド距離を計算することにより求められる。即ち、ここで各キャラクタに割り振られる4つのパラメータをxi(1≦i≦4)、各声質データに割り振られる同様のパラメータをyi(1≦i≦4)とすると、キャラクタと声質データの類似度は上述の[数1]で求められ、この値が小さいほど類似度が高いものとする。
【0055】
このような方法で、選択されたキャラクタと各声質データの類似度を求めることで、
・リストの先頭にあるキャラクタは、書かれたメールの読み上げに最も適したキャラクタである。
・リストの2番目にあるキャラクタは、書かれたメールの読み上げに最もミスマッチなキャラクタであり、それによって読み上げに面白味を出すことができる。
・リストの3番目以降のキャラクタは、ユーザが別のキャラクタを選択しやすいように、文章スタイルと声質の類似度によってソートされている。
という特徴を持ったリストを作る。
【0056】
送信端末108は、このリストを送信側ユーザに提示して、どれか1つのキャラクタの選択を促す(図10参照)。
6)送信側ユーザが、リストの先頭にある「男性1」のキャラクタ(声質)を選択する。送信端末108は、キャラクタサーバ111のキャラクタ選択機100にキャラクタ選択内容を、音声合成エンジン105にメール文章を送信して、キャラクタサーバ111からの合成音の送信を要求する。音声合成エンジン105は、キャラクタ選択機100が音声パラメータデータベース101から選択した「男性1」の声質データを使用して、送信端末108から受け取ったメール文章から合成音を生成し、送信端末108に送る。送信端末108は、受け取った合成音を再生して送信側ユーザにこのキャラクタでの読み上げの結果として試聴させる(図11参照)。
【0057】
<ステップ2104>
7)送信端末108が、キャラクタサーバ111のキャラクタ選択機100に対し、先ほど入力を行った文章に適した画像のリストを要求する。このとき、キャラクタサーバ111に対し、合成音の作成に使用したキャラクタは「貴族風」であるという情報が渡される。
【0058】
キャラクタサーバ111は、渡された情報を元に、画像データベース103が保持する画像データのリストをソートする。具体的には、渡されたキャラクタ「貴族風」と、画像データベース103に格納されている画像データの各々との類似度を上述と同様にして計算し、画像データベース103の持つ画像データのリストを類似度によってソートする。その後、類似度の最も低い画像データを類似度が最も高い画像データと類似度が2番目に高い画像データの間に挿入し、送信端末108に送信する画像データのリストとする。これによって、
・リストの先頭にあるキャラクタ(画像データ)は、合成音の声質と最も一致するキャラクタ(画像データ)である。
・リストの2番目にあるキャラクタ(画像データ)は、合成音の声質と最もミスマッチなキャラクタ(画像データ)であり、それによって読み上げに面白味を出すことができる。
・リストの3番目以降のキャラクタ(画像データ)は、ユーザが別のキャラクタ(画像データ)を選択しやすいように、合成音の声質と画像の類似度によってソートされている。
という特徴を持ったリストを作る。
【0059】
送信端末108は、このリストを送信側ユーザに提示して、どれか1つのキャラクタ(画像データ)の選択を促す(図12参照)。
8)送信側ユーザが、リストの先頭にある「男爵1」のキャラクタ(画像データ)を選択する。送信端末108は、キャラクタサーバ111のキャラクタ選択機100にキャラクタ選択内容を送信し、対応する画像の送信を要求する。送信端末108は、受け取った画像を表示して送信側ユーザの確認を求める(図13参照)。
【0060】
<ステップ2105>
9)送信端末108が、送信側ユーザに、受信側ユーザのメールアドレスの入力を求める。メールアドレスの入力が完了したら、送信側ユーザは「送信」を選択する(図14参照)。
10)送信端末108が、キャラクタサーバ111のキャラクタ選択機100にキャラクタ(画像データ)選択内容を、音声合成エンジン105にメール文章を送信し、マルチメディアメールのデータ作成を要求する。
【0061】
音声合成エンジン105は、キャラクタ選択機100が音声パラメータデータベース101から選択した「男性1」に対応する声質データを使用して、送信端末108から受け取ったメール文章から合成音を生成し、さらに、後でこの合成音を簡単に参照できるように、一意のラベル文字列を生成して、マルチメディアメール配信サーバ112に送信する。マルチメディアメール配信サーバ112は、音声合成エンジン105の生成した合成音を、一意のラベル文字列から簡単に参照できるような形で、合成音保持装置106に格納する。
【0062】
さらに、マルチメディアメール配信サーバ112は、キャラクタサーバ111の画像データベース103から、選択された画像を受け取って画像保持装置107に格納する。このとき、後でこの画像を簡単に参照できるように、一意のラベル文字列を生成して記憶しておく。
11)キャラクタサーバ111が、送信端末108に、音声合成エンジン105が生成した合成音を参照するためのラベル文字列と、画像データベース103から選択された画像を参照するためのラベル文字列を送信する。
【0063】
送信端末108は、キャラクタサーバ111から受け取った2つのラベル文字列から、一意に得られるURLを作成する。例えば、合成音を参照するためのラベル文字列として「abc123」が、画像を参照するためのラベル文字列として「xyz987」が与えられており、マルチメディアメール配信サーバ112のインターネットアドレスが「multimedia−mail.com」であれば、「http://multimedia−mail.com/abc123+xyz987」というURLを作成する。その上で、「メールが来ています。下記をクリック!」という本文と、作成したURLが書かれた内容のメールを作成し、宛先を受信端末109として、メールサーバ110に送信する。
12)メールサーバ110は、受信したメールに書かれた宛先に従って、このメールを受信端末109に送信し、受信端末109はメールの着信があった旨表示を行う(図15参照)。受信側ユーザがこのメールを読み(図16参照)、メールに書かれたURLを選択すると、受信端末109はマルチメディアメール配信サーバ112にアクセスして、そのURLに対応するデータの送信を要求する。即ち、URLに埋めこまれた、合成音を参照するためのラベル文字列と、画像を参照するためのラベル文字列をマルチメディアメール配信サーバ112に送信し、合成音保持装置106と画像保持装置107から、対応する合成音や画像のデータを受け取る。
【0064】
受信端末109は、マルチメディアメール配信サーバ112から受信した画像データを表示しつつ、同じくマルチメディアメール配信サーバ112から受信した合成音を再生し、送信側ユーザの作成したマルチメディアメールの内容を受信側ユーザに示す(図17参照)。
【0065】
以上の手順に従って、マルチメディアメールの作成及び送受信を行うサービスが実現できる。
【0066】
なお、上記2)で「いいえ」を選んだ場合、1)に戻る代わりに、送信端末108もしくはキャラクタサーバ111上に用意された、キャラクタに依存しない汎用の入力変換辞書を使用するようにしてもよい。また、ユーザに確認を求めず、1)で選択されたキャラクタに対応する入力変換辞書を、自動でダウンロードするようにしてもよい。
【0067】
同様に、上記6)でもユーザによる選択を要求せず、5)で作成されたソート済みリストで最適とされたものを自動で選択するようにしても良い。
【0068】
同様に、上記8)でもユーザによる選択を要求せず、7)で作成されたソート済みリストで最適とされたものを自動で選択するようにしても良い。
【0069】
また、上記5)で、類似度の尺度としてユークリッド距離の代わりに別のものを用いても良い。例えば、ユークリッド距離のlog値を用いてもよいし、各パラメータに対して重みwiを設定して、
【数2】
を類似度の尺度として用いても良い。
【0070】
また、上記7)では合成音の作成に使用したキャラクタと各画像のキャラクタとの間の類似度を用いてリストのソートを行っているが、同時にテキストの入力に使用した入力変換辞書のキャラクタを用いても良い。即ち、ある画像のキャラクタと、事前に合成音の作成に使用したキャラクタ間の類似度をDv、同じ画像のキャラクタと、事前にテキストの入力に使用した入力変換辞書のキャラクタ間の類似度Ddをとすると、例えばDv+Ddを、事前の選択内容とこの画像のキャラクタの間の類似度として用いることができる。
【0071】
(第2の実施形態)
第1の実施形態に記載の発明の機能を、マルチメディアメール配信サーバ112を用意することなく実現する構成を図18に示す。この構成では、上記第1の実施形態に記載の構成と比較して、キャラクタサーバ111にかかる負荷が大きくなるが、キャラクタサーバとは別にマルチメディアメール配信サーバ112を用意する必要が無く、また受信端末109に送信する合成音や画像を合成音保持装置106や画像保持装置107に保存しておく必要が無いため、送信側ユーザの作成するメールを受信側ユーザに配信する際に、サーバ側で用意する記憶容量が小さくて済むという利点がある。
【0072】
以下、図18の機器構成で提供されるサービスの動作手順を説明する。
1)〜9)は、上記第1の実施形態と同様の手順であるため省略する。
10)送信端末108が、キャラクタサーバ111のキャラクタ選択機100において、送信側ユーザが選択した声質データ及び画像データを指定するためのURLを作成する。例えば、送信側ユーザが選択した声質データ「男性1」を指定するためのラベル文字列として「123」が、画像データ「男爵1」を指定するためのラベル文字列として「xyz」が与えられており、マルチメディアメール配信サーバ112のインターネットアドレスが「multimedia−mail.com」であれば、「http://multimedia−mail.com/123+xyz」というURLを作成する。さらに、合成音で喋らせるメールの本文を、このURLの後ろに追加して「http://multimedia−mail.com/123+xyz?麿でおじゃる。」とし、マルチメディアメールの本体とする。このとき、URLに含めることが不可能な文字は、キャラクタサーバ111でデコードできる適当な方法でエンコードして記述する。
【0073】
以上の操作を行った上で、「メールが来ています。下記をクリック!」という本文と、作成したURLが書かれた内容のメールを作成し、宛先を受信端末109として、メールサーバ110に送信する。
11)メールサーバ110は、受信したメールに書かれた宛先に従って、このメールを受信端末109に送信し、受信端末109はメールの着信があった旨表示を行う(図15参照)。受信側ユーザがこのメールを読み(図16参照)、メールに書かれたURLを選択すると、受信端末109はキャラクタサーバ111にアクセスして、そのURLに対応するデータの送信を要求する。
【0074】
URLを受け取ったキャラクタサーバ111では、まずURLデコーダ200がこのURLを解釈して、URLがエンコードされていればそれをデコードした上で、声質データ及び画像データを指定するためのラベル文字列と、メール本文を表す文字列を切り離す。URLデコーダ200は次に、キャラクタ選択機100を通して、ラベル文字列「123」に対応する声質データ「男性1」とラベル文字列「xyz」に対応する画像データ「男爵1」を選択し、さらに音声合成エンジン105にメール本文の文字列「麿でおじゃる。」を渡して、マルチメディアメールのデータを作成し、受信端末109に送信する。
【0075】
受信端末109は、キャラクタサーバ111から受信した画像データを表示しつつ、同じくキャラクタサーバ111から受信した合成音を再生し、送信側ユーザの作成したマルチメディアメールの内容を受信側ユーザに示す(図17参照)。
【0076】
(第3の実施形態)
上記第2の実施形態に記載の発明の機能を、受信端末109とキャラクタサーバ111との通信を行うことなく実現する構成を図19に示す。この構成では、作成されるマルチメディアメールの閲覧に必要な全てのデータをメールサーバ110を通して送信するため、上記第2の実施形態に記載の構成と比較して、メールサーバ110にかかる負荷が大きくなるが、既に広く使用されている、電子メールへのファイル添付という形でマルチメディアメールを実現することができるため、サービスの実施が容易になるという利点がある。
【0077】
以下、図19の機器構成で提供されるサービスの動作手順を説明する。
1)〜9)は、上記第1および第2の実施形態と同様の手順であるため省略する。
10)送信端末108が、作成されたメールの本文に、上記手順6)において取得した合成音と、手順8)において取得した画像を添付した形式のメールを作成する。メールはRFC2112に規定される、MIME規格のマルチパートメッセージとして作成し、宛先を受信端末109として、メールサーバ110に送信する。
11)メールサーバ110は、受信したメールに書かれた宛先に従って、このメールを受信端末109に送信し、受信端末109はメールの着信があった旨表示を行う(図15参照)。受信側ユーザがこのメールを読むと、受信端末109はメールの構成を確認して、添付された画像と合成音のデータをデコードし、マルチメディアメールとして受信側ユーザに示す(図17参照)。
【0078】
(第4の実施形態)
第4の実施形態によるシステムの構成を図20に示し、この構成で提供されるサービスの動作手順を以下に説明する。
1)〜9)は、上記第1〜第3の実施形態と同様の手順であるため省略する。
10)ユーザに対し、上記手順にて作成されたコンテンツの保存を行うかどうかの問い合わせが行われる(図21参照)。ユーザが「いいえ」を選択するとコンテンツの作成は中断され、ユーザが「はい」を選択するとコンテンツは送信端末108に保存され、アラーム表示やメールの着信表示などに使用することができるようになる。
【0079】
(第5の実施形態)
上記第1〜第4の実施形態における、動作手順1)〜9)と類似の効果を得ることのできる、別の動作フローを図22に示す。図4の動作フローとの相違点は、画像のキャラクタの選択と合成音のキャラクタの選択の順番が逆になっていることである。これにより、ステップ2203において画像のキャラクタのリストをソートする際、ユーザがどの合成音のキャラクタを選択したかという情報を用いることはできなくなるが、代わりにステップ2204において、ユーザがどの画像のキャラクタを選択したかという情報を利用して、合成音のキャラクタのリストをソートすることができる。
【0080】
(第6の実施形態)
上記第1〜第4の実施形態における、動作手順1)〜9)と類似の効果を得ることのできる、別の動作フローを図23に示す。図4の動作フローとの相違点は、テキストの入力にあたって、表現のスタイル選択とそれに伴う入力変換辞書のダウンロードを行わない点である。このため、以降のステップで表現スタイルとの類似度をソートに使用することはできない。代わりに、ユーザが入力したテキストを解析してこのテキストの雰囲気を特徴づけるパラメータセット(明るさ、渋さ、若さ、ノリの各パラメータ)を作成し、作成したパラメータセットを用いて類似度を算出することによりソートを行うことができる。パラメータセットの作成は、例えば以下のようにして行うことができる。
・入力されたテキスト内で、テキストの全文字数に対する「!」記号や顔文字記号の出現頻度をパーセンテージで計算し、それを「ノリ」パラメータの値とする。
・テキスト内の各文の末尾が「です・ます」調である頻度をパーセンテージで計算し、それを「渋さ」パラメータの値とする。
・テキストの全文字数に対する片仮名の出現頻度をパーセンテージで計算し、それを「若さ」パラメータの値とする。
・テキストの形態素解析を行って、テキスト内の全形態素数に対する、明るさをイメージさせる単語の出現頻度をパーセンテージで計算し、それを「明るさ」パラメータの値とする。なお、明るさをイメージさせる単語は、あらかじめ送信端末108の内部にリストを用意しておき、このリストと順次文字列マッチングを行うことによって、形態素解析された各単語が明るさをイメージさせる単語かどうかの判定を行う。
【0081】
(第7の実施形態)
上記第1〜第4の実施形態における、動作手順1)〜9)と類似の効果を得ることのできる、別の動作フローを図24に示す。図4の動作フローとの相違点は、図4におけるステップ2100〜2104の処理が、図24のフローではユーザの望む順番で行えることである。
【0082】
図24の動作フローはステップ2400から開始し、ステップ2401において、メールの表現スタイル選択(ステップ2402)及び入力変換辞書のダウンロード(ステップ2403)、合成音の声質選択(ステップ2404)、画像の選択(ステップ2405)、テキストの入力(ステップ2406)、完成したマルチメディアメールの送信(ステップ2407)のどれを次に行うか、ユーザが選択することができる。ステップ2401における選択処理は、例えば図25に示すようなメニュー画面を通じて行えばよい。なお、ステップ2407の処理を行うための、「メール送信」の選択項目は、合成音の声質選択と、画像の選択と、テキストの入力を全て完了しなければ選択できないものとする。
【0083】
この方式の利点は、ユーザが行う必要のある各種選択・入力操作を、ユーザが望む順番で行うことができることである。ただし、操作の順番によって、ユーザに提示する画像や声質のキャラクタのリストをソートする際に使用できるデータベースが変化する。例えば、ステップ2405による画像の選択を行う前にステップ2404による声質の選択をユーザが行いたい場合、声質のキャラクタのリストをソートするために、ユーザが既に選択した画像のキャラクタと、声質のキャラクタの間の類似度を用いることはできない。この場合、画像のキャラクタと声質のキャラクタの間の類似度は用いずにソートを行う。なお、ソートを行うために使用できる、既に選択されたキャラクタや入力されたテキストが無い場合は、キャラクタ名を文字コード順にソートしてユーザに提示すればよい。
【0084】
【発明の効果】
以上のように本発明によれば、ユーザが希望するキャラクタに合った声質や画像の選択を容易にし、さらにユーザの書く文章を、ユーザが希望するキャラクタに合った文体に誘導できる。これにより、携帯電話でマルチメディアコンテンツの作成を行うユーザの負担を軽減し、さらに声質や画像、文体のキャラクタが一致したコンテンツの作成を容易にできる。
【図面の簡単な説明】
【図1】第1の実施形態によるシステムの概略構成を示す図である。
【図2】各声質に対するパラメータ設定表の一例である。
【図3】各キャラクタ名(表現スタイル)に対するパラメータ設定表の一例である。
【図4】図1に示したシステムの動作フロー概略図である。
【図5】表現のスタイル選択画面の一例である。
【図6】変換辞書ダウンロード確認画面の一例である。
【図7】メール本文仮名入力画面の一例である。
【図8】メール本文仮名漢字変換画面の一例である。
【図9】メール本文入力完了確認画面の一例である。
【図10】合成音声質候補選択画面の一例である。
【図11】合成音試聴画面の一例である。
【図12】画像候補選択画面の一例である。
【図13】画像確認画面の一例である。
【図14】送信先メールアドレス入力画面の一例である。
【図15】メール着信報知画面の一例である。
【図16】着信メール本文表示画面の一例である。
【図17】マルチメディアメール再生画面の一例である。
【図18】第2の実施形態によるシステムの概略構成を示す図である。
【図19】第3の実施形態によるシステムの概略構成を示す図である。
【図20】第4の実施形態によるシステムの概略構成を示す図である。
【図21】マルチメディアコンテンツダウンロード確認画面の一例である。
【図22】第5の実施形態の動作フロー概略図である。
【図23】第6の実施形態の動作フロー概略図である。
【図24】第7の実施形態の動作フロー概略図である。
【図25】設定項目選択メニュー画面の一例である。
【符号の説明】
100:キャラクタ選択機
101:音声パラメータデータベース
102:入力変換辞書データベース
103:画像データベース
104:表現スタイルデータベース
105:音声合成エンジン
106:合成音保持装置
107:画像保持装置
108:送信端末
109:受信端末
110:メールサーバ
111:キャラクタサーバ
112:マルチメディアメール配信サーバ
200:URLデコーダ
Claims (28)
- 第1の記憶部と、選択部とを備え、
前記第1の記憶部は、
複数の第1の情報と、
前記複数の第1の情報に対応づけられた複数の第1のパラメータセットとを記憶し、
前記複数の第1のパラメータセットの各々は、
対応する第1の情報の雰囲気を特徴づけるものであり、
前記選択部は、
第2の情報の雰囲気を特徴づける第2のパラメータセットと前記複数の第1のパラメータセットの各々とを用いて前記第2の情報と前記複数の第1の情報の各々との類似度を算出し、得られた類似度に基づいて前記複数の第1の情報のうち少なくとも1つを選択する、
ことを特徴とする情報処理装置。 - 請求項1において、
前記複数の第1のパラメータセットの各々は、
対応する第1の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含み、
前記第2のパラメータセットは、
前記第2の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む、
ことを特徴とする情報処理装置。 - 請求項1において、
前記選択部は、
前記第2の情報の内容を解析して前記第2のパラメータセットを生成する、
ことを特徴とする情報処理装置。 - 請求項1において、
第2の記憶部をさらに備え、
前記第2の記憶部は、
複数の第2の情報と、
前記複数の第2の情報に対応づけられた複数の第2のパラメータセットとを記憶し、
前記複数の第2のパラメータセットの各々は、
対応する第2の情報の雰囲気を特徴づけるものであり、
前記選択部は、
前記複数の第2の情報のうちのある1つ(以下、「第2の情報A」という。)に対応する第2のパラメータセットと前記複数の第1のパラメータセットの各々とを用いて前記第2の情報Aと前記複数の第1の情報の各々との類似度を算出する、
ことを特徴とする情報処理装置。 - 請求項4において、
前記複数の第2のパラメータセットの各々は、
対応する第2の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む、
ことを特徴とする情報処理装置。 - 請求項4において、
前記選択部は、
前記第2の情報Aをユーザに選択させる、
ことを特徴とする情報処理装置。 - 請求項1において、
前記選択部は、
得られた類似度に基づいて選択した第1の情報のうち1つをユーザに選択させる、
ことを特徴とする情報処理装置。 - 請求項1〜7のいずれか1つにおいて、
前記第1および第2の情報は、マルチメディアコンテンツを作成するために用いられる情報である、
ことを特徴とする情報処理装置。 - 請求項8において、
前記第1および/または第2の情報は、前記マルチメディアコンテンツの構成要素である、
ことを特徴とする情報処理装置。 - 請求項8において、
前記第1および/または第2の情報は、前記マルチメディアコンテンツのある構成要素の雰囲気を制御するものである、
ことを特徴とする情報処理装置。 - 請求項8において、
前記第1または第2の情報は、前記マルチメディアコンテンツ全体に与えるべき雰囲気を示すものである、
ことを特徴とする情報処理装置。 - 請求項1において、
与えられたテキストを音声データに変換する音声合成部をさらに備え、
前記複数の第1の情報の各々は、
前記音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)であり、
前記音声合成部は、
前記選択部によって選択された声質データを用いて前記テキストを音声データに変換する、
ことを特徴とする情報処理装置。 - 請求項1において、
前記複数の第1の情報の各々は画像データである、
ことを特徴とする情報処理装置。 - 請求項1において、
前記複数の第1の情報の各々は表現スタイルである、
ことを特徴とする情報処理装置。 - 請求項1において、
前記複数の第1の情報の各々は、
あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書であり、
前記情報処理装置は、
前記選択部によって選択された入力変換辞書を用いてユーザにテキストを入力させる、
ことを特徴とする情報処理装置。 - 請求項12、13、15のいずれか1つにおいて、
前記第2の情報は表現スタイルである、
ことを特徴とする情報処理装置。 - 請求項12、14、15のいずれか1つにおいて、
前記第2の情報は画像データである、
ことを特徴とする情報処理装置。 - 請求項12において、
前記第2の情報は、
あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書であり、
前記音声合成部には、
前記入力変換辞書を用いて入力されたテキストが与えられる、
ことを特徴とする情報処理装置。 - 請求項13において、
前記第2の情報は、
あるキャラクタ性を持たせた文章を入力するのに適した入力変換辞書であり、
前記情報処理装置は、
前記入力変換辞書を用いてユーザにテキストを入力させる、
ことを特徴とする情報処理装置。 - 請求項13または14において、
与えられたテキストを音声データに変換する音声合成部をさらに備え、
前記第2の情報は、
前記音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)であり、
前記音声合成部は、
前記声質データを用いて前記テキストを音声データに変換する、
ことを特徴とする情報処理装置。 - 請求項15において、
前記選択部によって選択された入力変換辞書を用いて入力されたテキストを音声データに変換する音声合成部をさらに備え、
前記第2の情報は、
前記音声合成部によって生成される音声データの声質を特徴づけるデータ(声質データ)であり、
前記音声合成部は、
前記声質データを用いて前記テキストを音声データに変換する、
ことを特徴とする情報処理装置。 - 複数の第1の情報と複数の第1のパラメータセットとを対応づけるステップ(a)と、
第2の情報の雰囲気を特徴づける第2のパラメータセットと前記複数の第1のパラメータセットの各々とを用いて前記第2の情報と前記複数の第1の情報の各々との類似度を算出するステップ(b)と、
前記ステップ(b)によって得られた類似度に基づいて前記複数の第1の情報のうち少なくとも1つを選択するステップ(c)とを備え、
前記複数の第1のパラメータセットの各々は、
対応する第1の情報の雰囲気を特徴づけるものである、
ことを特徴とする情報処理方法。 - 請求項22において、
前記複数の第1のパラメータセットの各々は、
対応する第1の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含み、
前記第2のパラメータセットは、
前記第2の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む、
ことを特徴とする情報処理方法。 - 請求項22において、
前記第2の情報の内容を解析して前記第2のパラメータセットを生成するステップ(d)をさらに備える、
ことを特徴とする情報処理方法。 - 請求項22において、
複数の第2の情報と複数の第2のパラメータセットとを対応づけるステップ(e)をさらに備え、
前記複数の第2のパラメータセットの各々は、
対応する第2の情報の雰囲気を特徴づけるものであり、
前記ステップ(b)では、
前記複数の第2の情報のうちのある1つ(以下、「第2の情報A」という。)に対応する第2のパラメータセットと前記複数の第1のパラメータセットの各々とを用いて前記第2の情報Aと前記複数の第1の情報の各々との類似度を算出する、
ことを特徴とする情報処理方法。 - 請求項25において、
前記複数の第2のパラメータセットの各々は、
対応する第2の情報の雰囲気を表すための複数の要素に対して設定された複数の数値データを含む、
ことを特徴とする情報処理方法。 - 請求項25において、
前記第2の情報Aをユーザに選択させるステップ(f)をさらに備える、
ことを特徴とする情報処理方法。 - 請求項22において、
前記ステップ(c)によって選択された第1の情報のうち1つをユーザに選択させるステップ(g)をさらに備える、
ことを特徴とする情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003162192A JP2004362419A (ja) | 2003-06-06 | 2003-06-06 | 情報処理装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003162192A JP2004362419A (ja) | 2003-06-06 | 2003-06-06 | 情報処理装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004362419A true JP2004362419A (ja) | 2004-12-24 |
Family
ID=34054410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003162192A Withdrawn JP2004362419A (ja) | 2003-06-06 | 2003-06-06 | 情報処理装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004362419A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008102790A (ja) * | 2006-10-19 | 2008-05-01 | Kddi Corp | 検索システム |
CN105531757A (zh) * | 2013-09-20 | 2016-04-27 | 株式会社东芝 | 语音选择辅助装置、语音选择方法以及程序 |
JP2017122928A (ja) * | 2017-03-09 | 2017-07-13 | 株式会社東芝 | 音声選択支援装置、音声選択方法、およびプログラム |
JP2018513511A (ja) * | 2015-05-22 | 2018-05-24 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | メッセージ送信方法、メッセージ処理方法及び端末 |
-
2003
- 2003-06-06 JP JP2003162192A patent/JP2004362419A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008102790A (ja) * | 2006-10-19 | 2008-05-01 | Kddi Corp | 検索システム |
CN105531757A (zh) * | 2013-09-20 | 2016-04-27 | 株式会社东芝 | 语音选择辅助装置、语音选择方法以及程序 |
JPWO2015040751A1 (ja) * | 2013-09-20 | 2017-03-02 | 株式会社東芝 | 音声選択支援装置、音声選択方法、およびプログラム |
US9812119B2 (en) | 2013-09-20 | 2017-11-07 | Kabushiki Kaisha Toshiba | Voice selection supporting device, voice selection method, and computer-readable recording medium |
JP2018513511A (ja) * | 2015-05-22 | 2018-05-24 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | メッセージ送信方法、メッセージ処理方法及び端末 |
US10541955B2 (en) | 2015-05-22 | 2020-01-21 | Tencent Technology (Shenzhen) Company Limited | Message transmitting method, message processing method and terminal |
JP2017122928A (ja) * | 2017-03-09 | 2017-07-13 | 株式会社東芝 | 音声選択支援装置、音声選択方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9049161B2 (en) | Linking sounds and emoticons | |
TWI235583B (en) | System, method and apparatus for communicating via sound messages and personal sound identifiers | |
KR101181785B1 (ko) | 미디어 처리 서버 장치 및 미디어 처리 방법 | |
US6895257B2 (en) | Personalized agent for portable devices and cellular phone | |
US20060136556A1 (en) | Systems and methods for personalizing audio data | |
JP2004088335A (ja) | メールサーバ、そのメールサーバを実現するためのプログラム及び携帯端末 | |
KR20070005671A (ko) | 멀티미디어 메시지를 편집하는 방법 및 시스템 | |
JP2009112000A (ja) | 実時間対話型コンテンツを無線交信ネットワーク及びインターネット上に形成及び分配する方法及び装置 | |
CN108536655A (zh) | 一种基于手持智能终端的场景化朗读音频制作方法及系统 | |
JPH1138996A (ja) | 音声メールシステム、音声合成装置およびこれらの方法 | |
CN102713872B (zh) | 生成混合显示文字和图画的信息的系统 | |
US20050163300A1 (en) | Call control system, method for controlling call, and call control program | |
JP2004199550A (ja) | 端末装置およびサーバ | |
JP2004362419A (ja) | 情報処理装置および方法 | |
KR101916107B1 (ko) | 통신 단말 및 그 통신 단말의 정보처리 방법 | |
EP1973307A1 (en) | Information communication terminal, mobile telephone, contents delivery device, contents delivery system, and program product | |
JP2005242790A (ja) | 携帯端末用表示データ作成装置、携帯端末用表示データ作成方法及び携帯端末用表示データ作成プログラム | |
JP2005062420A (ja) | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム | |
US20100070850A1 (en) | Communication apparatus, mail control method, and mail control program | |
CN102318296A (zh) | 消息传送系统 | |
JP2008108275A (ja) | 端末装置 | |
US8326445B2 (en) | Message string correspondence sound generation system | |
JP2003223178A (ja) | 電子歌唱カード生成方法、受信方法、装置及びプログラム | |
JPH11175441A (ja) | 通信情報認識方法及び装置 | |
KR20090000121A (ko) | 콘텐츠 제공 서버의 운용 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090609 |