JP2004294816A

JP2004294816A - 携帯端末装置

Info

Publication number: JP2004294816A
Application number: JP2003087721A
Authority: JP
Inventors: Masahiko Kawai; 雅彦川合
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-03-27
Filing date: 2003-03-27
Publication date: 2004-10-21
Also published as: CN1534955A; KR20040084855A; CN100359907C; KR100634142B1; HK1066365A1

Abstract

【課題】無線通信網を介して翻訳がなされる場合には、その翻訳結果情報を少ない容量で携帯端末に渡して該携帯端末にて翻訳結果を音声合成することができ、また、携帯端末側で、翻訳結果のみならず関連情報を、少なくとも音声によりさらには画像を用いて、ユーザに提供可能とする携帯端末を提供する。
【解決手段】入力されたテキスト情報を他の言語に翻訳する翻訳手段（配信サーバ）に対して、翻訳対象のテキスト情報を送信して翻訳させ、該翻訳手段にその翻訳結果の発音の仕方を表す発音データを含んで構成される翻訳結果情報を返信するように制御する制御手段と、発音データを入力することによって該発音データに基づく音声を発音する発音手段とを有する携帯端末装置で、前記発音データとして、フォルマントパラメータを示すデータを用いる。
【選択図】図１５

Description

【０００１】
【発明の属する技術分野】
本発明は、翻訳手段による翻訳結果または辞書検索結果を音声合成により発音する携帯端末装置に関する。
【０００２】
【従来の技術】
近年、携帯電話機に対しある言語の自由文を入力するだけで、他国語に機械翻訳し、さらにその翻訳結果を音声で聞くことができる無線通信網を介したサービスが実施されている。現在では、このように携帯電話機を用いて、電話としての通信機能の他に、上記サービス等により提供される言語の翻訳（通訳）の機能も利用できるようになっている。
また、特許文献１に開示された技術のように、携帯電話機からインターネットを介して音声を通訳サーバヘ送り、通訳サーバで機械翻訳された音声を携帯電話機へ出力するといったものもある。
【０００３】
【特許文献１】
特開２００２−１２５０５０号公報
【０００４】
【発明が解決しようとする課題】
しかしながら、上記サービスや特許文献１に記載の技術は、音声による翻訳結果を提供するため電話回線を利用するものであり、送受信する音声データ（音声信号）を伝送するために、所定の回線容量を必ず使用する。したがって、これらの技術では、リソースを有効に利用できているとは言えない。
また、上記従来技術では、携帯電話機側で、翻訳結果のテキストの表示や、翻訳結果の音声出力が可能となるのみであるが、これらの情報の提供に加えて、さらに関連した画像や音声の情報も同時に提供されることが期待された。
【０００５】
本発明は、上記の点に鑑みてなされたもので、翻訳や辞書検索の結果を音声合成により出力する携帯端末装置で、翻訳や辞書検索の結果の情報の送信に要する容量を少ないものとすることができ、関連する情報も、少なくとも音声によりさらには画像を用いて、ユーザに提供可能とする携帯端末装置を提供するものである。
【０００６】
【課題を解決するための手段】
請求項１に記載の発明は、入力されたテキストを他の言語に翻訳する翻訳手段に対して、翻訳対象のテキストを送信して翻訳させ、該翻訳手段にその翻訳結果の発音の仕方を表す発音データを含んで構成される翻訳結果情報を返信するように制御する制御手段と、前記発音データを入力することによって該発音データに基づく音声を発音する発音手段と、を有する携帯端末装置であって、前記発音データは、フォルマントパラメータを示すデータであることを特徴としている。
【０００７】
本発明では、制御手段が、入力されたテキストを他の言語に翻訳する翻訳手段に対して、翻訳対象のテキストを送信して翻訳させる。この翻訳手段は、翻訳結果の発音の仕方を表す発音データを含んで構成される翻訳結果情報を、当該携帯端末装置（の制御手段）に返信する。返信された翻訳結果情報に含まれる発音データは、フォルマントパラメータを示すデータであり、発音手段は、このフォルマントパラメータを示す発音データに基づき発音する。
以上のように、翻訳結果は、音声として発音されるので、利用者は、入力したテキストの翻訳結果を聴覚により認識することができる。また、翻訳手段から返信される発音データは、フォルマントパラメータ（これは、音素毎の、その音の合成に用いる）を示すものであり、上記発音データに対して、フォルマントパラメータが対応する。このように発音データは、対応するフォルマントパラメータを特定するデータであって（例えば、フォルマントパラメータそのものからなるデータ列であってもよい）、その容量は音声信号に比して小さく、当該携帯端末装置外の装置から発音データの返信を受ける場合には、前述の従来技術のように、音声信号が返信される場合のような伝送容量を必要としない。
【０００８】
また、請求項２に記載の発明は、請求項１に記載の携帯端末において、前記翻訳結果情報が、翻訳結果を表すテキストを含んで構成され、該テキストは、該携帯端末装置に備わる表示手段に表示されることを特徴としている。
本発明では、翻訳結果を表すテキストが翻訳結果情報に含まれ、この翻訳結果を表すテキストが当該携帯端末装置に備わる表示手段に表示されるので、利用者は、翻訳結果を視覚によっても認識することができる。
【０００９】
また、請求項３に記載の発明は、請求項１または請求項２に記載の携帯端末において、前記翻訳手段が、前記携帯端末装置が無線通信網を介して接続する外部のサーバ装置に設けられることを特徴としている。
本発明では、翻訳手段が、無線通信網を介して接続する外部のサーバ装置に設けられるので、当該携帯端末装置に、翻訳手段を設ける必要がない。また、前述のように、本発明は、発音データの送受信のための伝送容量が少なくて済むので、翻訳手段を外部に設けても、そのために要する通信の負荷を従来よりも低減できる。
【００１０】
また、請求項４に記載の発明は、請求項１または請求項２に記載の携帯端末において、前記翻訳手段が、前記携帯端末装置内部に設けられることを特徴としている。
本発明では、翻訳手段が、当該携帯端末装置内部に設けられるので、翻訳を実行する際、通信を要しない。従って、通信コストもかからず、通信不可能な屋内等にあっても、翻訳を実行できる。
【００１１】
また、請求項５に記載の発明の携帯端末は、所定の発音データを入力することによって音声を発音する発音手段と、辞書データベースに対して見出し語情報を検索キーとして、対応する意味情報を検索させ、その意味情報の発音の仕方を表す第１の発音データを含んで構成される検索結果情報を返信するように制御する制御手段と、を有する携帯端末装置であって、前記第１の発音データは、フォルマントパラメータを示すデータであることを特徴としている。
【００１２】
本発明では、制御手段が、辞書データベースに対して、見出し語情報を検索キーとして、対応する意味情報を検索する。そして、検索された意味情報の発音の仕方を表す第１の発音データを含んで構成される検索結果情報を返信させる。
返信された検索結果情報に含まれる第１の発音データは、フォルマントパラメータを示すデータであり、発音手段は、このフォルマントパラメータを示す発音データに基づき発音する。
以上のように、見出し語情報を検索キーとして検索された意味情報は、音声として発音され、利用者は、この意味情報を聴覚により認識することができる。また、辞書データベースから返信される検索結果情報は、フォルマントパラメータを示すものであり（フォルマントパラメータそのものから構成されるものであってもよい）、当該携帯端末装置外から検索結果情報の返信を受ける場合には、必要とする伝送容量が少なくて済む。
【００１３】
また、請求項６に記載の発明は、請求項５に記載の携帯端末において、表示手段をさらに有し、前記検索結果情報は、前記意味情報を表すテキストと、その検索キーの見出し語に関連した画像を表す画像データと、その見出し語に関連した音を表す第２の発音データを含んで構成され、前記テキストと画像を前記表示手段に表示することを特徴としている。
【００１４】
本発明では、検索された意味情報を表すテキストの他、検索キーである見出し語に関連した画像を表す画像データと、その見出し語に関連した音を表す第２の発音データが検索結果情報に含まれる。そして、この意味情報を表すテキストと関連した画像が当該携帯端末装置に備わる表示手段に表示されるので、利用者は、検索結果の意味情報のみならず関連する画像も見ることができる。さらに、発音手段により、意味情報を表すテキストの音声のみならず、見出し語に関連した音を表す第２の発音データも発音されるので、利用者は、検索キーである見出し語の意味のみならず関連した豊富な情報を得ることができる。
【００１５】
また、請求項７に記載の発明は、請求項１から請求項４のいずれかに記載の携帯端末において、前記発音データが、翻訳結果または検索結果を発声する文字を示す発声文字列と、該発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成され、前記発声文字列と前記韻律記号はテキストで記述されることを特徴としている。
また、請求項８に記載の発明は、請求項５または請求項６に記載の携帯端末において、前記第１の発音データが、翻訳結果または検索結果を発声する文字を示す発声文字列と、該発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成され、前記発声文字列と前記韻律記号はテキストで記述されることを特徴としている。
請求項７または請求項８に記載の発明では、発音データが、翻訳結果または検索結果を発声する文字を示す発声文字列と、この発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成されるとともに、この発声文字列と韻律記号がテキストで記述されるので、発音データの情報量が小さい。したがって、この発音データを伝送する際にはより好適である。
【００１６】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
図１に、本発明の携帯端末装置の一実施の形態である携帯電話機１と、この携帯電話機１に対し通信網（無線通信網およびデータ網を含む）を介して翻訳サービスおよび辞書検索サービスを提供する配信サーバ２とからなるシステムの概略構成を示している。
【００１７】
携帯電話機１は、後述のように音声合成により翻訳結果や検索結果を発音する機能をもち、コンテンツ事業者等が管理する配信サーバ２と上記通信網を介して接続される。配信サーバ２には、下記に示す、配信サーバ２を構成する各部を制御する制御部２ａと辞書データベース２ｂが備わる。
辞書データベース２ｂは、制御部２ａが翻訳を行う際に用いる翻訳辞書および単語の意味等を検索するための各種辞書が格納されている。翻訳辞書には、翻訳対象の文または単語に対し、その翻訳結果の文または単語と、その読みを携帯電話機１にて音声合成させるための発音データ（第１の発音データ；詳細は後述する）とが登録されている。また、各種辞書には、検索キーとなる見出し語に対し、その意味情報（検索対象の見出し語に対するその意味等）を表すテキストと、その読みの発音データ（第２の発音データ）と、関連する情報（画像・音声）が対応づけられ登録されている。
【００１８】
制御部２ａは、携帯電話機１からの翻訳要求や検索要求に応じて、翻訳要求の場合には、上記翻訳辞書を用いて携帯電話機１から送られた翻訳対象のテキストの翻訳を行い、その翻訳結果のテキストと、その読みの発音データを含む翻訳結果情報を生成し、この翻訳結果情報を携帯電話機１に返信する。他方、検索要求の場合には、検索要求に含まれる検索対象の見出し語を検索キーとして指定された辞書を用いて検索を行い、検索結果の意味情報を表すテキスト及びその読みの発音データ、ならびに当該見出し語と関連する音の発音データと関連する画像の画像データを含む検索結果情報を生成し、この検索結果情報を携帯電話機１に返信する。
【００１９】
ここで、辞書データベース２ｂの構成についてさらに詳細に説明する。
辞書データベース２ｂには、前述のように翻訳辞書や各種辞書等が格納されている。この辞書データベース２ｂに格納される翻訳辞書には、例えば、英和辞書の場合、“Ｉｔ‘ｓｖｅｒｙｆｉｎｅ，ｉｓｎ’ｔｉｔ？”という英文に対し、その翻訳文のテキストとして「とてもいい天気ですね。」が登録され、その読みの発音データとして、「とっ’ても，Ｓ５４’い／いて＄ん＿き／です＿ねー２＊ー」が登録されている（なお、翻訳辞書には、後述する発音用シーケンスデータも登録されているが、ここでは省略して説明する）。このように本実施の形態における音声（人の声）の発音データは、音声合成により発音する際の音の抑揚等を規定する韻律記号を含んで構成される。
【００２０】
なお、上記のようにテキストで記述される発音データの記述ルール（本実施の形態では、ＨＶ−Ｓｃｒｉｐｔと称す）に関しては後述する。また、本実施の形態では、携帯電話機１が、配信サーバ２から受けたＨＶ−Ｓｃｒｉｐｔによる発音データを、音素毎のフォルマントパラメータに変換し、さらに付加された韻律記号に基づいて変更されたフォルマントパラメータからなるフレーム・データ列を用いて音声合成を行うものとするが、後述のように音素記述型によるデータやフォルマント・フレーム記述型によるデータを利用することもできる。
【００２１】
以上のように翻訳辞書には、短い文や単語に対し、その翻訳文のテキストとその読みの発音データが登録されているが、長い文を翻訳する場合には、周知の手法により構文解析等を行い翻訳を行うものとし、翻訳辞書にのそのためのデータが含まれているものとする。この場合、発音データに関しては、文を構成する文節あるいは単語毎に対応する発音データが登録されており、翻訳結果の文を構成する文節あるいは単語毎に、対応する発音データに置換することにより文全体に対応した発音データを生成する。また、その文節または単語が使われている条件（文頭か、文中か、疑問文なのか？など）からどのような韻律記号を使うかというルールも辞書データベース２ｂに持ち、それを基に韻律記号をさらに追加したり変更したりするようにすることもできる。
【００２２】
また、上記辞書データベース２ｂには、各種辞書も格納されている。各辞書は、図２に示すように見出し語情報（インデックス）と、その見出し語情報に対応した意味情報とを組みにした辞書項目情報が複数集まって構成されている。意味情報は、その見出し語情報の意味を表すデータ（データ１）、上記見出し語の発音の仕方を表す第１の発音データ（データ２）、上記見出し語に関連した音を表す第２の発音データ（データ３）及び上記見出し語に関連した画像を表す画像データ（データ４）とで構成される。
【００２３】
例えば、英和辞書の場合、図２に示すようにインデックスの欄に、検索キーとして指定される英単語が登録されている。そして、各見出し語の英単語に対し、データ１としてその意味情報を表す単語の訳（例えば、見出し語が“Ｄｕｃｋ”の場合、“あひる”）が登録され、データ２としてその訳の発音データが登録され、データ３として見出し語の英単語と関連する音の発音データ（見出し語が“Ｄｕｃｋ”の場合には、例えば、あひるの鳴き声の発音データ）が登録され、データ４としてその見出し語の英単語と関連する画像の画像データ（見出し語が“Ｄｕｃｋ”の場合には、例えば、あひるの画像の画像データ）が登録されている。
【００２４】
なお、インデックス、データ１の欄のデータは、テキストシーケンスデータであり、後述のイベント・データ（このテキストシーケンスデータの場合、テキスト文字列、再生位置等を表す）とデュレーション・データとで構成される。
データ２の欄のデータは、音声シーケンスデータであり、上記ＨＶ−Ｓｃｒｉｐｔによる発音データと、発音用シーケンスデータとで構成される。発音データは発音Ｎｏ．により指定される。発音用シーケンスデータは図３に示すように、イベント・データ（発音Ｎｏ．、発音時間等を表す）とデュレーション・データ（イベント間隔を表す）とで構成される。
【００２５】
データ３の欄のデータは、ＰＣＭシーケンスデータもしくはＦＭシーケンスデータであり、ＰＣＭシーケンスデータは、発音データである波形データと、ＰＣＭ用シーケンスデータとで構成される。波形データは波形Ｎｏ．により指定される。ＰＣＭ用シーケンスデータは図３に示すように、イベント・データ（波形Ｎｏ．、発音時間等を表す）とデュレーション・データ（イベント間隔を表す）とで構成される。また、ＦＭシーケンスデータは、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）等による発音データである音色データと、ＦＭ用シーケンスデータとで構成される。音色データはＦＭ合成アルゴリズムを示すデータで音色Ｎｏ．により指定される。ＦＭ用シーケンスデータは図３に示すように、イベント・データ（音色Ｎｏ．、音程、音長等を表す）とデュレーション・データ（イベント間隔を表す）とで構成される。
【００２６】
データ４の欄のデータは、画像シーケンスデータであり、この画像シーケンスデータは、所定形式（ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）等）の画像データと画像表示用シーケンスデータとで構成される。画像データは画像Ｎｏ．により指定される。画像表示用シーケンスデータは図３に示すように、イベント・データ（画像Ｎｏ．、表示時間、表示形態等を表す）とデュレーション・データ（イベント間隔を表す）とで構成される。また、各種辞書は、上記のように複数の辞書項目により構成されるが、さらに、各辞書をリンク先としている他の辞書リンク付き文書から該当辞書の所定の辞書項目にジャンプできるように、上記各辞書項目にリンクアドレスを付与してもよい。
【００２７】
また、検索結果情報を携帯電話機１に返信する際、検索結果情報に含まれる再生用の各データを携帯電話機１側で同期して再生させるため、所定のデータ交換フォーマットを持たせる。これは、本出願人により公開されているＳＭＡＦ仕様書Ｖｅｒ．３．０６ヤマハ株式会社、［平成１４年１０月１８日検索］、インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｓｍａｆ．ｙａｍａｈａ．ｃｏ．ｊｐ＞によるフォーマットを、音声（人の声）の発音に対応できるように拡張したものである。
このＳＭＡＦ（ＳｙｎｔｈｅｔｉｃＭｕｓｉｃＭｏｂｉｌｅＡｐｐｌｉｃａｔｉｏｎＦｏｒｍａｔ）は、携帯端末などにおいてマルチメディアコンテンツを表現するためのデータフォーマット仕様である。
【００２８】
ここでＳＭＡＦについて図４を参照し説明する。
同図において、１００はＳＭＡＦファイルであり、チャンクとよばれるデータの塊が基本構造となっている。チャンクは、固定長（８バイト）のヘッダ部と任意長のボディ部とからなり、ヘッダ部は、さらに、４バイトのチャンクＩＤと４バイトのチャンクサイズに分けられる。チャンクＩＤはチャンクの識別子に用い、チャンクサイズはボディ部の長さを示している。ＳＭＡＦファイル１００は、それ自体及びそれに含まれる各種データも全てチャンク構造となっている。
【００２９】
この図に示すように、ＳＭＡＦファイル１００の中身は、管理用の情報が格納されているコンテンツ・インフォ・チャンク（ＣｏｎｔｅｎｔｓＩｎｆｏＣｈｕｎｋ）１０１と，出力デバイスに対するシーケンスデータを含む１つ以上のトラックチャンク１０２〜１０８とからなる。シーケンスデータは出力デバイスに対する制御を時間を追って定義したデータ表現である。１つのＳＭＡＦファイル１００に含まれる全てのシーケンスデータは時刻０で同時に再生を開始するものと定義されており、結果的に全てのシーケンスデータが同期して再生される。
【００３０】
シーケンスデータはイベントとデュレーションの組み合わせで表現される。イベントは、シーケンスデータに対応する出力デバイスに対する制御内容のデータ表現であり、デュレーションは、イベントとイベントとの間の経過時間を表現するデータである。イベントの処理時間は実際には０ではないが、ＳＭＡＦのデータ表現としては０とみなし、時間の流れは全てデュレーションで表すようにしている。あるイベントを実行する時刻は、そのシーケンスデータの先頭からのデュレーションを積算することで一意に決定することができる。イベントの処理時間は、次のイベントの処理開始時刻に影響しないことが原則である。従って、値が０のデュレーションを挟んで連続したイベントは同時に実行すると解釈される。
【００３１】
ＳＭＡＦでは、上記出力デバイスとして、ＭＩＤＩ相当の制御データで発音を行うＦＭ音源デバイスや、ＰＣＭデータの再生を行うＰＣＭ音源デバイスや、テキストや画像の表示を行うＬＣＤなどの表示デバイスなどが定義されている。
上記トラックチャンクには、定義されている各出力デバイスに対応して、スコアトラックチャンク１０２〜１０５、ＰＣＭオーディオトラックチャンク１０６、グラフィクストラックチャンク１０７及びマスタートラックチャンク１０８がある。ここで、マスタートラックチャンク１０８を除くスコアトラックチャンク１０２〜１０５、ＰＣＭオーディオトラックチャンク１０６及びグラフィクストラックチャンク１０７は、それぞれ最大２５６トラックまで記述することが可能である。
【００３２】
図示する例では、スコアトラックチャンク１０２〜１０５はＦＭ音源デバイス（音源１１１）に再生させるためのシーケンスデータを格納し、ＰＣＭトラックチャンク１０６はＰＣＭ音源デバイス（ＰＣＭデコーダ１１２）で発音されるＡＤＰＣＭやＭＰ３、ＴｗｉｎＶＱ等のｗａｖｅデータをイベント形式で格納し、グラフィックトラックチャンク１０７は背景画や差込静止画等の画像データやテキストデータと、それらを表示デバイス（ＬＣＤディスプレイ１１３）に再生させるためのシーケンスデータを格納している。また、マスタートラックチャンク１０８にはＳＭＡＦシーケンサ自身を制御するためのシーケンスデータが格納されている。
ＳＭＡＦは、上述のようなフォーマットをもつので、ＭＩＤＩ相当のデータ（楽曲データ）、ＰＣＭオーディオデータ、テキストや画像の表示用データなどの各種シーケンスデータを含み、全シーケンスを同期して再生できる。しかし、人の声を表現することについては、定義されていないので、以下のように拡張する。
【００３３】
すなわち、ＳＭＡＦファイル１００に、さらに音源を用いて音声（人の声）を再生させるための音声再生シーケンスデータを格納させるＨＶ（ｈｕｍａｎＶｏｉｃｅ）トラックチャンクｈ４を設ける（図５参照）。また、この音声再生シーケンスデータを、フォルマントパラメータを示す発音データに基づく音声の再生を指示する音声再生イベントと、その音声再生イベントを実行するタイミングを先行する音声再生イベントからの経過時間により指定するデュレーションとの組が時間順に配置されたものとする。
この拡張により、従来のＳＭＡＦファイル１００を用いた再生と同様に、各シーケンスデータの再生を同時に開始させることにより、各データを同じ時間軸上で同期して再生させることができる。
【００３４】
なお、上記音声再生イベントとしては、（１）合成される音声の読みを示す文字列と音声表現（発音の抑揚等）を指定する韻律記号とからなるテキスト記述型の情報、（２）合成される音声を示す音素情報と韻律制御情報とからなる音素記述型の情報、または、（３）再生される音声を示すフレーム時間毎のフォルマントパラメータからなるフォルマント・フレーム記述型の情報、の３種の再生を指示するデータのいずれかを用いることができる。
【００３５】
テキスト記述型（ＴＳｅｑ型）は、発音すべき音声をテキスト表記により記述するフォーマットであり、それぞれの言語の文字コードによる文字列とアクセントなどの音声表現を指示する記号（韻律記号）とを含む。携帯電話機１側での再生時には、図６の（ａ）に示すように、ミドルウェア処理により、このＴＳｅｑ型のシーケンスデータを、まず、ＰＳｅｑ型に変換し（第１のコンバート処理）、次に、ＰＳｅｑ型をＦＳｅｑ型に変換（第２のコンバート処理）して、音声合成デバイスに出力することとなる。
【００３６】
ここで、ＴＳｅｑ型からＰＳｅｑ型へ変換する第１のコンバート処理は、言語に依存する情報である文字列（例えば、ひらがなやカタカナなどのテキスト）と韻律記号と、それに対応する言語に依存しない発音を示す情報（音素）と韻律を制御するための韻律制御情報を格納した第１の辞書を参照することにより行われる。ＰＳｅｑ型からＦＳｅｑ型への変換である第２のコンバート処理は、各音素とそれに対応するフォルマントパラメータ（各フォルマントを生成するためのフォルマントの周波数、帯域幅、レベルなどのパラメータ）を格納した第２の辞書を参照することにより行われ、変換結果のフォルマントパラメータは、韻律制御情報に基づき変更される。
【００３７】
音素記述型（ＰＳｅｑ型）は、ＳＭＦで定義するＭＩＤＩイベントに類似する形式で発音すべき音声に関する情報を記述するものであり、音声記述としては言語依存によらない音素単位をベースとする。図６の（ｂ）に示すように、配信サーバ２にて、辞書データベース２ｂに格納された辞書から検索されたＴＳｅｑ型の発音データを第１のコンバート処理によりＰＳｅｑ型に変換する。このＰＳｅｑ型の発音データを携帯電話機１にて再生するときは、そのミドルウェア処理として実行される第２のコンバート処理によりＰＳｅｑ型のデータファイルをＦＳｅｑ型に変換して、音声合成デバイスに出力する。
【００３８】
フォルマント・フレーム記述型（ＦＳｅｑ型）は、フォルマントパラメータをフレーム・データ列として表現したフォーマットである。図６の（ｃ）に示すように、配信サーバ２にて、ＴＳｅｑ型→第１のコンバート処理→ＰＳｅｑ型→第２のコンバート処理→ＦＳｅｑ型への変換を行う。また、サンプリングされた波形データから通常の音声分析処理と同様の処理である第３のコンバート処理によりＦＳｅｑ型のデータを作成することもできる。携帯電話機１での再生時には、与えられたＦＳｅｑ型のファイルをそのまま音声合成デバイスに出力して再生することができる。
【００３９】
次に、ＨＶトラックチャンクｈ４（図７）の内容について詳細に説明する。
図７に示すように、各ＨＶトラックチャンクｈ４には、このチャンクに含まれている音声再生シーケンスデータが上述した３通りのフォーマットタイプのうちのどのタイプであるかを示すフォーマットタイプ（ＦｏｒｍａｔＴｙｐｅ）、使用されている言語種別を示す言語タイプ（ＬａｎｇｕａｇｅＴｙｐｅ）及びタイムベース（Ｔｉｍｅｂａｓｅ）をそれぞれ指定するデータが記述されている。
フォーマットタイプ（ＦｏｒｍａｔＴｙｐｅ）の例を表１に示す。
【表１】

【００４０】
言語タイプ（ＬａｎｇｕａｇｅＴｙｐｅ）の例を表２に示す。
【表２】

なお、ここでは、日本語（０ｘ００；０ｘは１６進を表す。以下、同じ。）と韓国語（０ｘ０１）のみを示しているが、中国語、英語などその他の言語についても同様に定義することができる。
【００４１】
タイムベース（Ｔｉｍｅｂａｓｅ）は、このトラックチャンクに含まれるシーケンスデータチャンク内のデュレーション及びゲートタイムの基準時間を定めるものである。この一例を表３に示す。この値（一例として、２０［ｍｓｅｃ］）は、適宜設定される。
【表３】

【００４２】
ここでさらに上記３通りのフォーマットタイプのデータの詳細について説明する。
（ａ）Ｔｓｅｑ型（フォーマットタイプ＝０ｘ００）
前述のように、このフォーマットタイプは、テキスト表記によるシーケンス表現（ＴＳｅｑ：ｔｅｘｔｓｅｑｕｅｎｃｅ）を用いたフォーマットであり、シーケンスデータチャンクｈ５とｎ個（ｎは１以上の整数）のＴＳｅｑデータチャンク（ＴＳｅｑ＃００〜ＴＳｅｑ＃ｎ）ｈ６，ｈ７，ｈ８を含んでいる（図７）。シーケンスデータに含まれる音声再生イベント（ノートオンイベント）でＴＳｅｑデータチャンクに含まれるデータの再生を指示する。
【００４３】
（ａ−１）シーケンスデータチャンク
シーケンスデータチャンクｈ５は、ＳＭＡＦにおけるシーケンスデータチャンクと同様に、デュレーションとイベントの組み合わせを時間順に配置したシーケンスデータを含む。図８の（ａ）はシーケンスデータの構成を示す図である。ここで、デュレーションは、イベントとイベントの間の時間を示している。先頭のデュレーション（Ｄｕｒａｔｉｏｎ１）は、時刻０からの経過時間を示している。図８の（ｂ）は、イベントが下記のノートメッセージである場合に、デュレーションとノートメッセージに含まれるゲートタイムの関係を示す図である。この図に示すように、ゲートタイムはそのノートメッセージの発音時間を示している。なお、図８で示したシーケンスデータチャンクの構造は、ＰＳｅｑ型及びＦＳｅｑ型におけるシーケンスデータチャンクにおいても同様である。
このシーケンスデータチャンクでサポートされるイベントとしては、次の３通りのイベントがある。なお、以下に記述する初期値は、イベント指定がないときのデフォルト値である。
【００４４】
（ａ−１−１）ノートメッセージ「０ｘ９ｎｋｋｇｔ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｋｋ：ＴＳｅｑデータ番号（０ｘ００〜０ｘ７Ｆ）、ｇｔ：ゲートタイム（１〜３バイト）である。
ノートメッセージは、チャンネル番号ｎで指定されるチャンネルのＴＳｅｑデータ番号ｋｋで指定されるＴＳｅｑデータチャンクを解釈し発音を開始するメッセージである。なお、ゲートタイムｇｔが「０」のノートメッセージについては発音を行わない。
（ａ−１−２）ボリューム「０ｘＢｎ０ｘ０７ｖｖ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｖｖ：コントロール値（０ｘ００〜０ｘ７Ｆ）である。なお、チャンネルボリュームの初期値は０ｘ６４である。
ボリュームは、指定チャンネルの音量を指定するメッセージである。
（ａ−１−３）パン（パンポット）「０ｘＢｎ０ｘ０Ａｖｖ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｖｖ：コントロール値（０ｘ００〜０ｘ７Ｆ）である。なお、パンポット初期値は、０ｘ４０（センター）である。
パンメッセージは、ステレオのサウンドシステムを有する利用装置に対し、指定チャンネルのステレオ音場位置を指定するメッセージである。
【００４５】
（ａ−２）ＴＳｅｑデータチャンク（ＴＳｅｑ＃００〜ＴＳｅｑ＃ｎ）
ＴＳｅｑデータチャンク（ｈ６，ｈ７，ｈ８等）は、音声合成用の情報として、言語や文字コードに関する情報、発音する音（抑揚等）の設定、（音声合成する）読み情報を含んだ、しゃベり用フォーマットでありＨＶ−Ｓｃｒｉｐｔにより記述されている。
【００４６】
（ｂ）ＰＳｅｑ型（フォーマットタイプ＝０ｘ０１）
このＰＳｅｑ型は、ＭＩＤＩイベントに類似する形式の音素によるシーケンス表現（ＰＳｅｑ：ｐｈｏｎｅｍｅｓｅｑｕｅｎｃｅ）を用いたフォーマットタイプである。この形式は、音素を記述するようにしているので言語依存がない。音素は発音を示す文字情報により表現することができ、例えば、複数の言語に共通にアスキーコードを用いることができる。
図７に示すように、このＰＳｅｑ型は、セットアップデータチャンクｈ９、ディクショナリデータチャンクｈ１０及びシーケンスデータチャンクｈ１１を含んでいる。シーケンスデータ中の音声再生イベント（ノートメッセージ）で指定されたチャンネルの音素と韻律制御情報の再生を指示する。
【００４７】
（ｂ−１）セットアップデータチャンク（ＳｅｔｕｐＤａｔａＣｈｕｎｋ）（オプション）
音源部分の音色データなどを格納するチャンクであり、イクスクルーシブ・メッセージの並びを格納する。この実施の形態では、含まれているイクスクルーシブ・メッセージは、ＨＶ音色パラメータ登録メッセージである。
ＨＶ音色パラメータ登録メッセージは「０ｘＦ０Ｓｉｚｅ０ｘ４３０ｘ７９０ｘ０７０ｘ７Ｆ０ｘ０１ＰＣｄａｔａ．．．０ｘＦ７」というフォーマットであり、ここでＰＣは、プログラム番号（０ｘ０２〜０ｘ０Ｆ）、ｄａｔａは、ＨＶ音色パラメータである。このメッセージは、該当するプログラム番号ＰＣのＨＶ音色パラメータを登録する。
【００４８】
ＨＶ音色パラメータを次の表４に示す。
【表４】

【００４９】
表４に示すように、ＨＶ音色パラメータとしては、ピッチシフト量、第１〜第ｎ（ｎは２以上の整数）の各フォルマントに対するフォルマント周波数シフト量、フォルマントレベルシフト量及びオペレータ波形選択情報が含まれている。利用装置である携帯電話機１内には、各音素とそれに対応するフォルマントパラメータ（フォルマントの周波数、帯域幅、レベルなど）を記述したプリセット辞書（前述の第２の辞書）が記憶されており、ＨＶ音色パラメータは、このプリセット辞書に記憶されているパラメータに対するシフト量を規定している。これにより、全ての音素について同様のシフトが行われ、合成される音声の声質を変化させることができる。
なお、このＨＶ音色パラメータにより、０ｘ０２〜０ｘ０Ｆに対応する数（すなわち、プログラム番号の数）の音色を登録することができる。
【００５０】
（ｂ−２）ディクショナリデータチャンク（ＤｉｃｔｉｏｎａｒｙＤａｔａＣｈｕｎｋ）（オプション）
このチャンクには、言語種別に応じた辞書データ、例えば、前記プリセット辞書と比較した差分データやプリセット辞書で定義していない音素データなどを含む辞書データを格納する。これにより、音色の異なる個性のある音声を合成することが可能となる。
【００５１】
（ｂ−３）シーケンスデータチャンク（ＳｅｑｕｅｎｃｅＤａｔａＣｈｕｎｋ）
前述のシーケンスデータチャンクと同様に、デュレーションとイベントの組み合わせを時間順に配置したシーケンスデータを含む。
このＰＳｅｑ型におけるシーケンスデータチャンクｈ１１でサポートするイベント（メッセージ）を次に列挙する。読み込み側は、これらのメッセージ以外は無視する。また、以下に記述する初期設定値は、イベント指定がないときのデフォルト値である。
【００５２】
（ｂ−３−１）ノートメッセージ「０ｘ９ｎＮｔＶｅｌＧａｔｅｔｉｍｅＳｉｚｅｄａｔａ．．．」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、Ｎｔ：ノート番号（絶対値ノート指定：０ｘ００〜０ｘ７Ｆ，相対値ノート指定：０ｘ８０〜０ｘＦＦ）、Ｖｅｌ：ベロシティ（０ｘ００〜０ｘ７Ｆ）、Ｇａｔｅｔｉｍｅ：ゲートタイム長（Ｖａｒｉａｂｌｅ）、Ｓｉｚｅ：データ部のサイズ（可変長）である。
このノートメッセージにより、指定チャンネルの音声の発音が開始される。
なお、ノート番号のＭＳＢ（ＭｏｓｔＳｉｇｎｉｆｉｃａｎｔＢｉｔ）は、解釈を絶対値と相対値とに切り替えるフラグである。このＭＳＢ以外の７ビットはノート番号を示す。音声の発音はモノラルのみであるため、ゲートタイムが重なる場合は後着優先として発音する。
【００５３】
データ部は、音素とそれに対する韻律制御情報（ピッチベンド、ボリューム）を含み、次の表５に示すデータ構造からなる。
【表５】

【００５４】
表５に示すように、データ部は、音素の数ｎ（＃１）、例えばアスキーコードで記述した個々の音素（音素１〜音素ｎ）（＃２〜＃４）、及び、韻律制御情報からなっている。韻律制御情報はピッチベンドとボリュームであり、ピッチベンドに関して、その発音区間を音素ピッチベンド数（＃５）により規定されるＮ個の区間に区切り、それぞれにおけるピッチベンドを指定するピッチベンド情報（音素ピッチベンド位置１，音素ピッチベンド１（＃６〜＃７）〜音素ピッチベンド位置Ｎ，音素ピッチベンドＮ（＃９〜＃１０））と、ボリュームに関して、その発音区間を音素ボリューム数（＃１１）により規定されるＭ個の区間に区切り、それぞれにおけるボリュームを指定するボリューム情報（音素ボリューム位置１，音素ボリューム１（＃１２，＃１３）〜音素ボリューム位置Ｍ，音素ボリュームＭ（＃１５，＃１６））からなっている。
【００５５】
図９は、上記韻律制御情報について説明するための図である。ここでは、発音する文字情報が「ｏｈａｙｏｕ」である場合を例にとって示している。また、この例では、Ｎ＝Ｍ＝１２８としている。この図に示すように、発音する文字情報（「ｏｈａｙｏｕ」）に対応する区間を１２８（＝Ｎ＝Ｍ）の区間に区切り、各点におけるピッチとボリュームを前述のピッチベンド情報及びボリューム情報で表現して韻律を制御するようにしている。
【００５６】
図１０は、前述のゲートタイム長（Ｇａｔｅｔｉｍｅ）とディレイタイム（ＤｅｌａｙＴｉｍｅ（＃０））との関係を示す図である。この図に示すように、ディレイタイムにより、実際の発音を、デュレーションで規定されるタイミングよりも遅らせることができる。なお、Ｇａｔｅｔｉｍｅ＝０は、禁止とする。
【００５７】
（ｂ−３−２）プログラムチェンジ「０ｘＣｎｐｐ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｐｐ：プログラム番号（０ｘ００〜０ｘＦＦ）である。また、プログラム番号の初期値は０ｘ００とされている。
このプログラムチェンジメッセージにより指定されたチャンネルの音色が設定される。ここで、チャンネル番号は、０ｘ００：男声プリセット音色、０ｘ０１：女声プリセット音色、０ｘ０２〜０ｘ０Ｆ：拡張音色である。
【００５８】
（ｂ−３−３）コントロールチェンジ
コントロールチェンジメッセージとしては、次のものがある。
（ｂ−３−３−１）チャンネルボリューム「０ｘＢｎ０ｘ０７ｖｖ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｖｖ：コントロール値（０ｘ００〜０ｘ７Ｆ）である。また、チャンネルボリュームの初期値は０ｘ６４とされている。
このチャンネルボリュームメッセージは、指定チャンネルの音量を指定するものであり、チャンネル間の音量バランスを設定することを目的としている。
（ｂ−３−３−２）パン（パンポット）「０ｘＢｎ０ｘ０Ａｖｖ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｖｖ：コントロール値（０ｘ００〜０ｘ７Ｆ）である。パンポットの初期値は０ｘ４０（センター）とされている。
このメッセージは、ステレオのサウンドシステムを有する利用装置に対し、指定チャンネルのステレオ音場位置を指定する。
【００５９】
（ｂ−３−３−３）エクスプレッション「０ｘＢｎ０ｘ０Ｂｖｖ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｖｖ：コントロール値（０ｘ００〜０ｘ７Ｆ）である。このエクスプレッションメッセージの初期値は０ｘ７Ｆ（最大値）とされている。
このメッセージは、指定チャンネルのチャンネルボリュームで設定した音量の変化を指定する。これは曲中等で音量を変化させる目的で使用される。
【００６０】
（ｂ−３−３−４）ピッチベンド「０ｘＥｎｌｌｍｍ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｌｌ：ベンド値ＬＳＢ（０ｘ００〜０ｘ７Ｆ）、ｍｍ：ベンド値ＭＳＢ（０ｘ００〜０ｘ７Ｆ）である。ピッチベンドの初期値はＭＳＢ（上位バイト）が０ｘ４０、ＬＳＢ（下位バイト）が０ｘ００とされている。
このメッセージは、指定チャンネルのピッチを上下に変化させる。変化幅（ピッチ・ベンド・レンジ）の初期値は±２半音であり、０ｘ００／０ｘ００で下方向へのピッチベンドが最大となる。０ｘ７Ｆ／０ｘ７Ｆで上方向へのピッチベンドが最大となる。
【００６１】
（ｂ−３−３−５）ピッチベンド・センシティビティ「０ｘ８ｎｂｂ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｂｂ：データ値（０ｘ００〜０ｘ１８）である。このピッチベンド・センシティビティの初期値は０ｘ０２である。
このメッセージは、指定チャンネルのピッチベンドの感度設定を行う。単位は半音である。例えば、ｂｂ＝０１のときは±１半音（変化範囲は計２半音）となる
【００６２】
このように、ＰＳｅｑ型のフォーマットタイプは、発音を示す文字情報で表現した音素単位をベースとし、ＭＩＤＩイベントに類似する形式で音声情報を記述したものであり、データ・サイズはＴＳｅｑ型よりは大きいがＦＳｅｑ型よりは小さくなる。
これにより、ＭＩＤＩと同様に時間軸上の細かいピッチやボリュームをコントロールすることができる、音素ベースで記述しているため言語依存性がない、音色（声質）を細かく編集することができる、ＭＩＤＩと類似した制御ができ、従来のＭＩＤＩ機器へ追加実装し易いという長所を有している。
【００６３】
（ｃ）フォルマント・フレーム記述（ＦＳｅｑ）型（フォーマットタイプ＝０ｘ０２）
フォルマントパラメータ（各フォルマントを生成するための、フォルマント周波数やゲインなどのパラメータ）をフレーム・データ列として表現したフォーマットである。すなわち、一定時間（フレーム）の間は、発音する音声のフォルマントなどは一定であるとし、各フレーム毎に発音する音声に対応するフォルマントパラメータ（各々のフォルマント周波数やゲインなど）を更新するシーケンス表現（ＦＳｅｑ：ｆｏｒｍａｎｔｓｅｑｕｅｎｃｅ）を用いる。シーケンスデータに含まれるノートメッセージにより指定されたＦＳｅｑデータチャンクのデータの再生を指示する。
このフォーマットタイプは、シーケンスデータチャンクｈ１２とｎ個（ｎは１以上の整数）のＦＳｅｑデータチャンク（ＦＳｅｑ＃００〜ＦＳｅｑ＃ｎ：ｈ１３，ｈ１４，ｈ１５等）を含んでいる。
【００６４】
（ｃ−１）シーケンスデータチャンク
前述のシーケンスデータチャンクと同様に、デュレーションとイベントの組を時間順に配置したシーケンスデータを含む。
以下に、このシーケンスデータチャンクｈ１２でサポートするイベント（メッセージ）を列挙する。読み込み側は、これらのメッセージ以外は無視する。また、以下に記述する初期設定値は、イベント指定がないときのデフォルト値である。
（ｃ−１−１）ノートメッセージ「０ｘ９ｎｋｋｇｔ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｋｋ：ＦＳｅｑデータ番号（０ｘ００〜０ｘ７Ｆ）、ｇｔ：ゲートタイム（１〜３バイト）である。
このメッセージは、指定チャンネルのＦＳｅｑデータ番号のＦＳｅｑデータチャンクを解釈し発音を開始するメッセージである。なお、ゲートタイムが“０”のノートメッセージは発音を行わない。
【００６５】
（ｃ−１−２）ボリューム「０ｘＢｎ０ｘ０７ｖｖ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｖｖ：コントロール値（０ｘ００〜０ｘ７Ｆ）である。なお、チャンネルボリュームの初期値は０ｘ６４である。
このメッセージは、指定チャンネルの音量を指定するメッセージである。
【００６６】
（ｃ−１−３）パン（パンポット）「０ｘＢｎ０ｘ０Ａｖｖ」
ここで、ｎ：チャンネル番号（０ｘ０［固定］）、ｖｖ：コントロール値（０ｘ００〜０ｘ７Ｆ）である。なお、パンポットの初期値は０ｘ４０（センター）である。
このメッセージは、ステレオのサウンドシステムを有する利用装置に対し、指定チャンネルのステレオ音場位置を指定するメッセージである。
【００６７】
（ｃ−２）ＦＳｅｑデータチャンク（ＦＳｅｑ＃００〜ＦＳｅｑ＃ｎ）
ＦＳｅｑデータチャンクは、ＦＳｅｑフレーム・データ列で構成する。すなわち、音声情報を所定時間長（例えば、２０ｍｓｅｃ）を有するフレーム毎に切り出し、それぞれのフレーム期間内の音声データを分析して得られたフォルマントパラメータ（フォルマント周波数やゲインなど）を、それぞれのフレームの音声データを表すフレーム・データ列として表現したフォーマットである。
【００６８】
表６にＦＳｅｑのフレーム・データ列を示す。
【表６】

【００６９】
表６において、＃０〜＃３は音声合成に用いる複数個（この実施の形態においては、ｎ個）のフォルマントの波形の種類（サイン波、矩形波など）を指定するデータである。＃４〜＃１１は、フォルマントレベル（振幅）（＃４〜＃７）と中心周波数（＃８〜＃１１）によりｎ個のフォルマントを規定するパラメータである。＃４と＃８が第１フォルマント（＃０）を規定するパラメータ、以下同様に、＃５〜＃７と＃９〜＃１１は第２フォルマント（＃１）〜第ｎフォルマント（＃３）を規定するパラメータである。また、＃１２は無声／有声を示すフラグなどである。
【００７０】
図１１は、フォルマントのレベルと中心周波数を示す図であり、本実施の形態においては、第１〜第ｎフォルマントまでのｎ個のフォルマントのデータを用いるようにしている。各フレーム毎の第１〜第ｎフォルマントに関するパラメータとピッチ周波数に関するパラメータは、後述する携帯電話機１に備わる音声合成音声合成デバイスに供給され、そのフレームの音声合成出力が前述のようにして生成出力される。
【００７１】
図１２は、ＦＳｅｑデータチャンクのボディ部のデータを示す図である。表６に示したＦＳｅｑのフレーム・データ列のうち、＃０〜＃３は、各フォルマントの波形の種類を指定するデータであり、各フレームごとに指定する必要はない。従って、図１２に示すように、最初のフレームについては、前記表６に示した全てのデータとし、後続するフレームについては、表６における＃４以降のデータだけでよい。ＦＳｅｑデータチャンクのボディ部を図１２のようにすることにより、総データ数を少なくすることができる。
【００７２】
このように、ＦＳｅｑ型は、フォルマントパラメータ（各々のフォルマント周波数やゲインなど）をフレーム・データ列として表現したフォーマットであるため、ＦＳｅｑ型のファイルをそのまま音声合成デバイスに出力することにより音声を再生することができる。従って、処理側はＴＳｅｑ型やＰＳｅｑ型のように変換処理の必要がなく、ＣＰＵは所定時間ごとにフレームを更新する処理を行うのみでよい。なお、既に格納されている発音データに対し、一定のオフセットを与えることで音色（声質）を変更することができる。
【００７３】
以上のように作成されたいずれかのタイプのファイルが携帯電話機１に送信され、シーケンスデータに含まれているデュレーションにより規定されるタイミングで音声合成デバイスに制御パラメータを供給する発音用シーケンサと、発音用シーケンサから供給される制御パラメータに基づいて音声を再生出力する音声合成デバイスを有する利用装置である携帯電話機１にて、他の情報（意味情報、関連する音、関連する画像など）とともに音声が同期して再生されることとなる。なお、本実施の形態では、前述のようにＨＶ−Ｓｃｒｉｐｔによるテキスト記述型の音声再生シーケンスデータを用いるものとして説明する。
【００７４】
ここで、ＨＶ−Ｓｃｒｉｐｔによる発音データ（ただし、発音用シーケンスデータを除く）について詳細に説明する。
ＨＶ−Ｓｃｒｉｐｔによる発音データの一例である「か＿３さがほ＾５し＿４い’４ね＄２ー」は、「かさがほしいねー」という文にイントネーションを付加して音声合成させるためのＨＶ−Ｓｃｒｉｐｔによる記述である。この例に記述された記号「’」、「＾」、「＿」、「＄」等は、文字（かな文字）に付加するイントネーションの種別を示す韻律記号で、この韻律記号の後の文字（この記号の直後に数値がある場合は、この数値に続く文字）に対して、所定のアクセントを付加するものである。
【００７５】
図１３（ａ）に、ＨＶ−Ｓｃｒｉｐｔによる各記号（代表例）の意味を示す。すなわち「’」は、語頭でピッチを上げ（図１３（ｂ）▲１▼参照）、「＾」では発音中ピッチを上げ（図１３（ｃ）▲３▼参照）、「＿」は、語頭でピッチを下げ（図１３（ｂ）▲２▼参照）、「＄」では、発音中ピッチを下げるように（図１３（ｃ）▲４▼参照）音声合成を行うことを意味している。
また、上記記号の直後に数値が付加される場合は、その数値は付加するアクセントの変化量を指定するものである。例えば、「か＿３さが」では、「さ」を語頭でピッチを３の量だけ下げることを示し、「が」をその下げたピッチで発音し、「か」は、標準の高さで発音することを示す。
【００７６】
このように、ＨＶ−Ｓｃｒｉｐｔでは、発音させる言葉に含まれる文字にアクセント（イントネーション）を付加する場合に、その文字の直前に、韻律記号（さらには、イントネーションの変化量を示す数値）を付加する記述をする構文となっている。なお、以上ではピッチを制御する記号についてのみ説明したが、これら以外に音の強弱、速度、音質等を制御する記号を用いることもできる。
【００７７】
例えば、前述の“Ｉｔ‘ｓｖｅｒｙｆｉｎｅ，ｉｓｎ’ｔｉｔ？”という英文の翻訳文の「とてもいい天気ですね。」に対する発音データである「とっ’ても，Ｓ５４’い／いて＄ん＿き／です＿ねー２＊ー」では、これに含まれる“Ｓ５４”のＳは、速度を変化させる制御文字の一つであり、その制御文字の次から発話速度を変えさせる働きをする。この制御文字Ｓに続く“５４”は速度を表す数字であり、初期値が５０で、初期値より４の量だけ速度を上げることを指示する。この制御文字Ｓにより変化させた速度は、次に変更するまで同じ速度が維持される。
【００７８】
また、“／”は、アクセントシフトクリア記号（変化させたアクセントを戻すための記号）の一つであり、韻律記号で変化させたピッチを０に戻す。なお、韻律記号で変化したピッチや音量は “、”，“。”などの文節の区切りを示す記号（文節区切り記号）が出るまでそのピッチや音量を持続するように制御される。また、“＊”は、次の文字の後半でピッチと音量を下げることを指示する記号であり、“ー”は、直前の音節を伸ばして発音することを指示する記号である。
【００７９】
また、“ねー２＊ー”の２はその直前の長音（ー）にかかっていて、この長音を２倍にすることを指示する。つまり、“ねー２＊ー”は、“ね”を３の量だけ伸ばして、“＊”により最後にピッチと音量を（１の量だけ）下げることを指示している。“’”、“＄”については、前述の通りである。
以上のように、フォルマントのパラメータを示すデータの一つであるＨＶ−Ｓｃｒｉｐｔによる発音データは少ない情報量で、自然な音声を発音させることができるため、翻訳結果を発音させる用途等に好適である。なお、ここで説明したＨＶ−Ｓｃｒｉｐｔは、日本語の音声合成に適したものであり、他国語の音声合成には、前述のＰＳｅｑ型やＦＳｅｑ型を利用するとよい。
【００８０】
ここで、前記フォルマントおよびフォルマントパラメータについて、詳細に説明する。
フォルマントは、図１４に示すような形態をしており、フォルマント周波数やフォルマントレベルおよびフォルマント帯域幅といったパラメータ（フォルマントパラメータ）で特定される。したがって、人の声に含まれるフォルマントの数や、各フォルマントの周波数や振幅、帯域幅などは声の性質を決定する重要な要素となり、声を出す人の性別や体格、年齢などによって大きく異なっている。
【００８１】
しかし、たとえ誰が喋っていても、「あ」は「あ」であり、「い」は「い」であり、言葉としては同じように聞こえる。これは、人の声では発音する言葉の種類ごとに、特徴的なフォルマントの組み合わせが決まっているためである。フォルマントを種類により大別すると、有声音を合成するためのピッチ情報をもった有声フォルマントと、無声音を合成するためのピッチ情報をもたない無声フォルマントとになる。
【００８２】
ここで、有声音とは、発声する際に声帯が振動する声をいい、例えば、母音や半母音、そしてバ行、ガ行、マ行、ラ行などで使用される有声子音が含まれる。また、無声音とは、発声する際に声帯が振動しない声をいい、例えば、ハ行、カ行、サ行などの子音が含まれる。そして、１つの音素は、図１１に示すように、いくつかのフォルマントにより構成される。
【００８３】
したがって、ある特定人の発音の音素毎のフォルマントを携帯電話機１側に予め登録しておき、各フォルマントに対して、上述のフォルマントパラメータ、すなわち、フォルマント周波数やフォルマントレベル、フォルマント帯域幅およびフォルマントを形成する基本波形を、テキスト記述型であるＨＶ−Ｓｃｒｉｐｔによる韻律記号に基づいて、あるいは、前述の音素記述型おける韻律制御情報に従って変更し音声合成することで、様々なイントネーションをもった音声を発音することができるようになる。
【００８４】
なお、前記配信サーバ２は、メモリおよびＣＰＵ（中央処理装置）等により構成される制御部２ａが、翻訳処理の際には、翻訳対象のテキストの翻訳ならびにその翻訳結果情報の返信のための処理手順からなるプログラムをメモリにロードして実行することによりその機能が実現されるものとする。また、辞書検索処理の際も同様に、与えられた見出し語を検索キーとした該当辞書の検索ならびにその検索結果情報の返信のための処理手順からなるプログラムをメモリにロードして実行することによりその機能が実現されるものとする。
【００８５】
また、この配信サーバ２には、周辺機器として入力装置、表示装置等（いずれも図示せず）が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）や液晶表示装置等のことをいう。
また、辞書データベース２ｂは、ハードディスク、光磁気ディスク等の不揮発性の記録装置により構成されており、配信サーバ２内部に設けられても、配信サーバ２からアクセス可能な外部または別のサーバに設けられてもよい。
以上、配信サーバ２の構成および各種データ等の構成の詳細を説明した。
【００８６】
次に、本実施の形態の携帯電話機１について、その概略構成を示す図１５のブロック図を参照し説明する。
なお、本発明は、携帯電話機に限らず、ＰＨＳ（登録商標）（Ｐｅｒｓｏｎａｌｈａｎｄｙｐｈｏｎｅｓｙｓｔｅｍ）や、無線通信可能な携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）等にも適用できるものである。
【００８７】
図１５において、符号１１は、ＣＰＵ（中央処理装置）であり、各種プログラムを実行することにより携帯電話機１の各部の動作を制御する。
符号１２は、通信部であり、この通信部１２に備わるアンテナ１２ａで受信された信号の復調を行うとともに、送信する信号を変調してアンテナ１２ａに供給している。
上記ＣＰＵ１１は、通信部１２で復調された配信サーバ２からの信号を、所定のプロトコルに従って復号化し、ＨＶ−Ｓｃｒｉｐｔによるテキスト記述型の音声再生シーケンスデータに対しては、前述の第１のコンバート処理及び第２のコンバート処理を実行して、フォルマントパラメータからなるフレーム・データ列を生成する。そして、受信したファイル中のデータが、表示用のデータか発音用のデータかに応じて下記の表示用シーケンサ２１ａまたは発音用シーケンサ１６ａにその信号を供給する。
【００８８】
符号１３は、音声処理部である。通信部１２で復調された電話回線の音声信号は、この音声処理部１３において復号され、スピーカ１４から出力される。一方、マイク１５から入力された音声信号はデジタル化され音声処理部１３において圧縮符号化される。そして、通信部１２にて変調されアンテナ１２ａから携帯電話網の基地局へ出力される。音声処理部１３は、例えばＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬＰＣ）系やＡＤＰＣＭ（適応差分ＰＣＭ符号化）方式により、音声データを高能率圧縮符号化／復号化している。
【００８９】
符号１６ａは、発音用シーケンサであり、所定の音声または楽音を所定のタイミングでサウンドシステムに発音させることを指示する発音制御用のシーケンスデータを受け取り、下記の音声合成機能付音源１６ｂを制御する機能を有している。
符号１６ｂは、音声合成機能付音源であり、同図に図示しない音声合成ユニットとＦＭ音源デバイスまたは／およびＰＣＭ音源デバイスからなる。この音声合成機能付音源１６ｂは、下記のように音声合成を行う他、着信音として選択された楽曲データを再生しスピーカ１７から放音する。なお、この音声合成ユニットの構成の詳細は後述する。
【００９０】
符号１８は、操作部であり、携帯電話機１の本体に設けられた英数字のボタンを含む各種ボタン（図示せず）やその他の入力デバイスからの入力を検知する入力手段である。
また、符号１９は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であり、ＣＰＵ１１のワークエリアや、ダウンロードされた楽曲データや伴奏データ（これらは着信メロディの再生等に用いる）の格納エリアや、受信した電子メールのデータが格納されるメールデータ格納エリアや、配信サーバ２から受ける翻訳結果情報や検索結果情報を格納するエリア等がさらに設定される。
【００９１】
符号２０は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）である。このＲＯＭ２０は、ＣＰＵ１１が実行する、発信・着信等の制御をする各種電話機能プログラムや楽曲再生処理を補助するプログラムや、電子メールの送受信を制御するメール送受信機能プログラムや、音声合成処理を補助するプログラム等のプログラムの他、前述の第１の辞書および第２の辞書や、楽音データ等の各種データが格納されている。
【００９２】
また、符号２１ａは、表示用シーケンサであり、所定の画像またはテキストを所定のタイミングで表示部２１ｂに表示させることを指示する表示制御用のシーケンスデータを受け取り、表示部２１ｂを制御する機能を有している。
表示部２１ｂは、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等からなり、ＣＰＵ１１および表示用シーケンサ２１ａの制御により、テキストや画像の表示や、操作部１８の操作に応じた表示をする表示器である。
符号２２は、着信時に着信音に代えて携帯電話機１の本体を振動させることにより、着信をユーザに知らせるバイブレータである。
なお、各機能ブロックはバス３０を介してデータや命令の授受を行っている。
【００９３】
ここで、上記音声合成機能付音源１６ｂに含まれる音声合成ユニットの構成について詳細に説明する。
図１６に、この音声合成ユニットの概略構成例を示している。
【００９４】
この図に示した例の音声合成ユニットは、複数のフォルマント生成部４０ａ〜４０ｍと１個のピッチ生成部５０を有しており、発音用シーケンサ１６ａから出力されるフォルマントパラメータ（各フォルマントを生成するためのフォルマント周波数、レベルなどのパラメータ）及びピッチ情報に基づいて各フォルマント生成部４０ａ〜４０ｍで対応するフォルマント信号を発生し、このフォルマント生成部４０ａ〜４０ｍにおいて生成された各フォルマントをミキシング部６０で合成して音素を生成する。そしてこの音素の生成を連続して行うことにより、合成した音声を生成する。なお、各フォルマント生成部４０ａ〜４０ｍはフォルマント信号を発生させるためにその元となる基本波形を発生させるが、この基本波形の発生には、例えば、周知のＦＭ音源の波形発生器を利用することができる。また、ピッチ生成部５０は、演算によりピッチ（音程）を生成する機能を有し、発音する音素が有声音の場合にのみ、演算したピッチを生成される音素に付加する。
【００９５】
次に、図１７を用いて、上記フォルマント生成部４０ａ〜４０ｍの構成について説明する。
図１７に示すように、フォルマント生成部４０ａ〜４０ｍの各々は、波形発生器４１と、ノイズ発生器４２と、加算器４３と、増幅器４４とから構成されている。
【００９６】
波形発生器４１は、音素毎フォルマント毎に指定されるフォルマント周波数、フォルマントの基本波形（正弦波、三角波、…）及び波形の位相に基づき、１音素を構成するフォルマントの１つを順次発生する。ノイズ発生器４２は、波形発生器４１にて発生されたフォルマントが有声音か無声音かに従って、無声音の場合にはノイズを発生し加算器４３に供給する。
【００９７】
加算器４３は、波形発生器４１にて生成されたフォルマントに、ノイズ発生器４２から供給されるノイズを加算する。そして加算器４３の出力は、増幅器４４によりフォルマントレベルに増幅され出力される。
上記各フォルマント生成部４０ａ〜４０ｍの構成は、音素を構成する１つのフォルマントに関するものである。１つの音素は、いくつものフォルマントが合成されて形成されている。したがって、１つの音素を生成するためには、音素を構成する各フォルマントを生成して、これを合成する必要がある。そのために図１６の構成をとっている。
以上、携帯電話機１を構成する各部の詳細を説明した。
【００９８】
次に、このように構成された本実施形態の携帯電話機１および翻訳サーバ２の本発明に係る動作について説明する。なお、通常の電話機能による発信・着信時の動作等、周知の動作については、その説明を省略する。
はじめに、翻訳を行う場合の携帯電話機１および翻訳サーバ２の動作について、図１８、１９を参照し説明する。
【００９９】
まず、携帯電話機１の利用者が、翻訳したいテキスト（例えば、“Ｉｔ‘ｓｖｅｒｙｆｉｎｅ，ｉｓｎ’ｔｉｔ？”という英文）を入力し、その翻訳言語（ここでは、英語から日本語とする）を指定して、これらの情報を含む翻訳要求を送信する（ステップＳ１０１）。
このとき配信サーバ２は、携帯電話機１からの翻訳要求を受けるまで、ステップＳ２０１の判断を繰り返し待機しているが、携帯電話機１から上記翻訳要求を受けると、この翻訳要求に含まれる翻訳対象のテキストを、辞書データベース２ｂの翻訳辞書を用いて翻訳する（ステップＳ２０２）。
【０１００】
この間、携帯電話機１は、翻訳結果のデータを受信するまで、ステップＳ１０２の判断を繰り返し待機している。
配信サーバ２は、さらに、翻訳したテキストを辞書データベース２ｂの翻訳辞書を用いて、ＨＶ−Ｓｃｒｉｐｔによる発音データに変換する（ステップＳ２０３）。ここでは、翻訳後の文または文節もしくは単語単位に、対応するＨＶ−Ｓｃｒｉｐｔによる発音データに置換する。
そして、翻訳結果のテキストと、その発音データを含む前述のデータ交換フォーマットを有する翻訳結果情報を生成して、この翻訳結果情報を携帯電話機１に返信する（ステップＳ２０４）。
【０１０１】
携帯電話機１は、配信サーバ２から翻訳結果情報を受信すると、ステップＳ１０２の判断で、Ｙｅｓと判定して、ステップＳ１０３に移行し、このデータをＲＡＭ１９に格納し記憶する。
この後、利用者による所定のキー操作がなされるまで、ステップＳ１０４の判断を繰り返し待機する。
【０１０２】
ここで、利用者により翻訳結果再生のための所定のキー操作がなされたとする。すると、ステップ１０４の判断で、Ｙｅｓと判定され、ステップＳ１０５に移る。
ＣＰＵ１１は、ステップＳ１０５にて、配信サーバ２から受けた翻訳結果情報をＲＡＭ１９から読み込み、この翻訳結果情報に含まれるテキストのデータを表示部２１ｂに表示させるとともに、発音データを音声合成機能付音源１６ｂに音声合成させ、この翻訳結果情報の再生が完了するまで（ステップＳ１０６の判断で、Ｙｅｓと判定されるまで）、当該翻訳結果のテキストの表示と、その発音データの発音を実行する。
以上が、翻訳を行う場合の携帯電話機１および配信サーバ２の動作である。
【０１０３】
次に、配信サーバ２の辞書検索機能を利用する場合の携帯電話機１と配信サーバ２の動作について、図２０、２１を参照し説明する。
まず、携帯電話機１の利用者が、検索したいテキスト（例えば、英単語の“Ｄｕｃｋ”）を入力し、使用する辞書種類（ここでは、英和辞書とする）を指定して、これらの情報を含む検索要求を送信する（ステップＳ１１１）。
【０１０４】
このとき配信サーバ２は、携帯電話機１からの検索要求を受けるまで、ステップＳ２１１の判断を繰り返し待機しているが、携帯電話機１から上記検索要求を受けると、この検索要求に含まれる見出し語を検索キーとして、辞書データベース２ｂの英和辞書を用いて、指定された見出し語について検索をする（ステップＳ２１２）。
この間、携帯電話機１は、検索結果のデータ（検索結果情報）を受信するまで、ステップＳ１１２の判断を繰り返し待機している。
【０１０５】
配信サーバ２は、検索が完了すると、検索結果の意味情報を表すテキスト（“Ｄｕｃｋ”の訳である“あひる”）と、その読みの発音データと、見出し語（“Ｄｕｃｋ”）に関連する音声としてあひるの鳴き声の音声データと、さらに関連する画像としてあひるの画像の画像データを含む前述のデータ交換フォーマットを有する検索結果情報を携帯電話機１に返信する（ステップＳ２１３）。
【０１０６】
携帯電話機１は、配信サーバ２から上記検索結果情報を受信すると、ステップＳ１１２の判断で、Ｙｅｓと判定して、ステップＳ１１３に移行し、このデータをＲＡＭ１９に格納し記憶する。
この後、利用者による所定のキー操作がなされるまで、ステップＳ１１４の判断を繰り返し待機する。
ここで、利用者により所定のキー操作が成されたとする。すると、ステップ１１４の判断で、Ｙｅｓと判定されステップＳ１１５に移る。
【０１０７】
ＣＰＵ１１は、ステップＳ１１５にて、配信サーバ２から受けた検索結果情報の内、利用者により指定された情報をＲＡＭ１９から読み込み、その再生を実行する。検索結果情報に含まれ利用者により指定されたシーケンスデータは、対応する表示用シーケンサ２１ａ、発音用シーケンサ１６ａに供給され、これらの制御により表示、音声出力がなされる。例えば、利用者が、英和辞書を使って“Ｄｕｃｋ”を検索した場合で、検索結果のテキストの表示を指定した場合には、テキストの“あひる”が表示部２１ｂに表示され、その発音が指定された場合には、音声合成機能付音源１６ｂにて音声合成によりその発音がなされる。また、関連する音声の再生が指定された場合には、音声合成機能付音源１６ｂにて関連する音声として、あひるの鳴き声が再生され、関連する画像の再生が指定された場合には、表示部２１ｂに関連する画像としてあひるの画像が表示される。また、利用者により、各データの同時再生が指定された場合には、発音用シーケンサ１６ａ、表示用シーケンサ２１ａの制御により前述のようにそれぞれのデータ（テキスト、第１，第２の発音データ、画像データ）が同期して再生される。
そして、指定された検索結果情報の再生が完了するまで、ステップＳ１１５、Ｓ１１６の処理を繰り返す。
なお、上記で説明した各動作フローは一例であり、本発明は、上記の処理の流れに限定されるものではない。
【０１０８】
以上、この発明の実施形態を、図面を参照して詳述してきたが、この発明の具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の構成等も含まれる。例えば、配信サーバ２の辞書データベース２ｂの内容を携帯電話機１に設け、翻訳機能と辞書検索機能を携帯電話機１に設ける構成としてもよい。この場合、携帯電話機１は、翻訳または辞書検索を行う場合、配信サーバ２との通信を行う必要がなくなる。
【０１０９】
【発明の効果】
以上、詳細に説明したように、本発明によれば、翻訳結果は、音声として発音されるので、利用者は、翻訳結果を聴覚により認識することができる。また、翻訳手段から返信される発音データは、フォルマントパラメータを示すものであって、当該携帯端末装置外の装置から発音データの返信を受ける場合には、従来技術のように、音声信号が返信される場合のような伝送容量を必要としない。
また、本発明によれば、翻訳結果を表すテキストが当該携帯端末装置に備わる表示手段に表示されるので、利用者は、翻訳結果を視覚によっても認識することができる。
【０１１０】
また、本発明によれば、見出し語情報を検索キーとして検索された意味情報は、音声として発音され、利用者は、この意味情報を聴覚により認識することができる。また、辞書データベースから返信される検索結果情報は、フォルマントパラメータを示すものであり、当該携帯端末装置外から検索結果情報の返信を受ける場合には、必要とする伝送容量が少なくて済む。
また、本発明によれば、利用者は、検索結果の意味情報のみならず関連する画像も見ることができる。さらに、発音手段により、意味情報を表すテキストの音声のみならず、見出し語に関連した音も発音されるので、利用者は、検索キーである見出し語の意味のみならず関連した豊富な情報を得ることができる。
【図面の簡単な説明】
【図１】本発明の一実施の形態である携帯電話機と、この携帯電話機と通信網を介して接続する配信サーバとからなるシステムの概略構成を示す図である。
【図２】辞書データベースに格納される辞書の内容例を示す図である。
【図３】各シーケンスデータにおけるイベント・データとデュレーション・データとの関係を説明する図である。
【図４】ＳＭＡＦの概念を説明するための図である。
【図５】ＨＶトラックチャンクをデータチャンクの一つとして含むＳＭＡＦファイルの例を示す図である。
【図６】（ａ）ＴＳｅｑ型、（ｂ）ＰＳｅｑ型、及び、（ｃ）ＦＳｅｑ型の３通りのフォーマットタイプの違いについて説明するための図である。
【図７】音声再生シーケンスデータのデータ交換フォーマットの一実施例を示す図である。
【図８】（ａ）はシーケンスデータの構成、（ｂ）はデュレーションとゲートタイムの関係を示す図である。
【図９】韻律制御情報について説明するための図である。
【図１０】ゲートタイムとディレイタイムの関係を示す図である。
【図１１】フォルマントのレベルと中心周波数を示す図である。
【図１２】ＦＳｅｑデータチャンクのボディ部のデータを示す図である。
【図１３】ＨＶ−Ｓｃｒｉｐｔにおける各韻律記号（代表例）の意味を説明する図である。
【図１４】フォルマントを特徴づける各パラメータを示す図である。
【図１５】同実施形態の携帯電話機の概略構成を示すブロック図である。
【図１６】音声合成ユニットの構成図である。
【図１７】フォルマント生成部の構成図である。
【図１８】翻訳を行う場合の携帯電話機（携帯端末装置）の動作を説明するフローチャートである。
【図１９】翻訳を行う場合の翻訳サーバの動作を説明するフローチャートである。
【図２０】辞書機能を利用する場合の携帯電話機（携帯端末装置）の動作を説明するフローチャートである。
【図２１】辞書機能を利用する場合の配信サーバの動作を説明するフローチャートである。
【符号の説明】
１…携帯電話機（携帯端末装置）、１１…ＣＰＵ（制御手段）、１２…通信部、１２ａ…アンテナ、１３…音声処理部、１４，１７…スピーカ、１５…マイク、１６ａ…発音用シーケンサ、１６ｂ…音声合成機能付音源（音声合成デバイス）、１８…操作部、１９…ＲＡＭ、２０…ＲＯＭ、２１ａ…表示用シーケンサ、２１ｂ…表示部、２２…バイブレータ、３０…バス、２…配信サーバ（翻訳手段）、２ａ…制御部、２ｂ…辞書データベース、４０ａ〜４０ｍ…フォルマント生成部、４１…波形発生器、４２…ノイズ発生器、４３…加算器、４４…増幅器、５０…ピッチ生成部、６０…ミキシング部

Claims

入力されたテキストを他の言語に翻訳する翻訳手段に対して、翻訳対象のテキストを送信して翻訳させ、該翻訳手段にその翻訳結果の発音の仕方を表す発音データを含んで構成される翻訳結果情報を返信するように制御する制御手段と、
前記発音データを入力することによって該発音データに基づく音声を発音する発音手段と、を有する携帯端末装置であって、
前記発音データは、フォルマントパラメータを示すデータである
ことを特徴とする携帯端末装置。
前記翻訳結果情報は、翻訳結果を表すテキストを含んで構成され、該テキストは、該携帯端末装置に備わる表示手段に表示される
ことを特徴とする請求項１に記載の携帯端末装置。
前記翻訳手段は、前記携帯端末装置が無線通信網を介して接続する外部のサーバ装置に設けられる
ことを特徴とする請求項１または請求項２に記載の携帯端末装置。
前記翻訳手段は、前記携帯端末装置内部に設けられる
ことを特徴とする請求項１または請求項２に記載の携帯端末装置。
所定の発音データを入力することによって音声を発音する発音手段と、
辞書データベースに対して見出し語情報を検索キーとして、対応する意味情報を検索させ、その意味情報の発音の仕方を表す第１の発音データを含んで構成される検索結果情報を返信するように制御する制御手段と、を有する携帯端末装置であって、
前記第１の発音データは、フォルマントパラメータを示すデータである
ことを特徴とする携帯端末装置。
表示手段をさらに有し、
前記検索結果情報は、前記意味情報を表すテキストと、その検索キーの見出し語に関連した画像を表す画像データと、その見出し語に関連した音を表す第２の発音データを含んで構成され、前記テキストと画像を前記表示手段に表示する
ことを特徴とする請求項５に記載の携帯端末装置。
前記発音データは、翻訳結果または検索結果を発声する文字を示す発声文字列と、該発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成され、前記発声文字列と前記韻律記号はテキストで記述される
ことを特徴とする請求項１から請求項４のいずれかに記載の携帯端末装置。
前記第１の発音データは、翻訳結果または検索結果を発声する文字を示す発声文字列と、該発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成され、前記発声文字列と前記韻律記号はテキストで記述される
ことを特徴とする請求項５または請求項６に記載の携帯端末装置。