JP2004294816A - 携帯端末装置 - Google Patents

携帯端末装置 Download PDF

Info

Publication number
JP2004294816A
JP2004294816A JP2003087721A JP2003087721A JP2004294816A JP 2004294816 A JP2004294816 A JP 2004294816A JP 2003087721 A JP2003087721 A JP 2003087721A JP 2003087721 A JP2003087721 A JP 2003087721A JP 2004294816 A JP2004294816 A JP 2004294816A
Authority
JP
Japan
Prior art keywords
data
pronunciation
translation
text
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003087721A
Other languages
English (en)
Inventor
Masahiko Kawai
雅彦 川合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2003087721A priority Critical patent/JP2004294816A/ja
Priority to KR20040020474A priority patent/KR100634142B1/ko
Priority to CNB200410031786XA priority patent/CN100359907C/zh
Publication of JP2004294816A publication Critical patent/JP2004294816A/ja
Priority to HK04109268A priority patent/HK1066365A1/xx
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

【課題】無線通信網を介して翻訳がなされる場合には、その翻訳結果情報を少ない容量で携帯端末に渡して該携帯端末にて翻訳結果を音声合成することができ、また、携帯端末側で、翻訳結果のみならず関連情報を、少なくとも音声によりさらには画像を用いて、ユーザに提供可能とする携帯端末を提供する。
【解決手段】入力されたテキスト情報を他の言語に翻訳する翻訳手段(配信サーバ)に対して、翻訳対象のテキスト情報を送信して翻訳させ、該翻訳手段にその翻訳結果の発音の仕方を表す発音データを含んで構成される翻訳結果情報を返信するように制御する制御手段と、発音データを入力することによって該発音データに基づく音声を発音する発音手段とを有する携帯端末装置で、前記発音データとして、フォルマントパラメータを示すデータを用いる。
【選択図】 図15

Description

【0001】
【発明の属する技術分野】
本発明は、翻訳手段による翻訳結果または辞書検索結果を音声合成により発音する携帯端末装置に関する。
【0002】
【従来の技術】
近年、携帯電話機に対しある言語の自由文を入力するだけで、他国語に機械翻訳し、さらにその翻訳結果を音声で聞くことができる無線通信網を介したサービスが実施されている。現在では、このように携帯電話機を用いて、電話としての通信機能の他に、上記サービス等により提供される言語の翻訳(通訳)の機能も利用できるようになっている。
また、特許文献1に開示された技術のように、携帯電話機からインターネットを介して音声を通訳サーバヘ送り、通訳サーバで機械翻訳された音声を携帯電話機へ出力するといったものもある。
【0003】
【特許文献1】
特開2002−125050号公報
【0004】
【発明が解決しようとする課題】
しかしながら、上記サービスや特許文献1に記載の技術は、音声による翻訳結果を提供するため電話回線を利用するものであり、送受信する音声データ(音声信号)を伝送するために、所定の回線容量を必ず使用する。したがって、これらの技術では、リソースを有効に利用できているとは言えない。
また、上記従来技術では、携帯電話機側で、翻訳結果のテキストの表示や、翻訳結果の音声出力が可能となるのみであるが、これらの情報の提供に加えて、さらに関連した画像や音声の情報も同時に提供されることが期待された。
【0005】
本発明は、上記の点に鑑みてなされたもので、翻訳や辞書検索の結果を音声合成により出力する携帯端末装置で、翻訳や辞書検索の結果の情報の送信に要する容量を少ないものとすることができ、関連する情報も、少なくとも音声によりさらには画像を用いて、ユーザに提供可能とする携帯端末装置を提供するものである。
【0006】
【課題を解決するための手段】
請求項1に記載の発明は、入力されたテキストを他の言語に翻訳する翻訳手段に対して、翻訳対象のテキストを送信して翻訳させ、該翻訳手段にその翻訳結果の発音の仕方を表す発音データを含んで構成される翻訳結果情報を返信するように制御する制御手段と、前記発音データを入力することによって該発音データに基づく音声を発音する発音手段と、を有する携帯端末装置であって、前記発音データは、フォルマントパラメータを示すデータであることを特徴としている。
【0007】
本発明では、制御手段が、入力されたテキストを他の言語に翻訳する翻訳手段に対して、翻訳対象のテキストを送信して翻訳させる。この翻訳手段は、翻訳結果の発音の仕方を表す発音データを含んで構成される翻訳結果情報を、当該携帯端末装置(の制御手段)に返信する。返信された翻訳結果情報に含まれる発音データは、フォルマントパラメータを示すデータであり、発音手段は、このフォルマントパラメータを示す発音データに基づき発音する。
以上のように、翻訳結果は、音声として発音されるので、利用者は、入力したテキストの翻訳結果を聴覚により認識することができる。また、翻訳手段から返信される発音データは、フォルマントパラメータ(これは、音素毎の、その音の合成に用いる)を示すものであり、上記発音データに対して、フォルマントパラメータが対応する。このように発音データは、対応するフォルマントパラメータを特定するデータであって(例えば、フォルマントパラメータそのものからなるデータ列であってもよい)、その容量は音声信号に比して小さく、当該携帯端末装置外の装置から発音データの返信を受ける場合には、前述の従来技術のように、音声信号が返信される場合のような伝送容量を必要としない。
【0008】
また、請求項2に記載の発明は、請求項1に記載の携帯端末において、前記翻訳結果情報が、翻訳結果を表すテキストを含んで構成され、該テキストは、該携帯端末装置に備わる表示手段に表示されることを特徴としている。
本発明では、翻訳結果を表すテキストが翻訳結果情報に含まれ、この翻訳結果を表すテキストが当該携帯端末装置に備わる表示手段に表示されるので、利用者は、翻訳結果を視覚によっても認識することができる。
【0009】
また、請求項3に記載の発明は、請求項1または請求項2に記載の携帯端末において、前記翻訳手段が、前記携帯端末装置が無線通信網を介して接続する外部のサーバ装置に設けられることを特徴としている。
本発明では、翻訳手段が、無線通信網を介して接続する外部のサーバ装置に設けられるので、当該携帯端末装置に、翻訳手段を設ける必要がない。また、前述のように、本発明は、発音データの送受信のための伝送容量が少なくて済むので、翻訳手段を外部に設けても、そのために要する通信の負荷を従来よりも低減できる。
【0010】
また、請求項4に記載の発明は、請求項1または請求項2に記載の携帯端末において、前記翻訳手段が、前記携帯端末装置内部に設けられることを特徴としている。
本発明では、翻訳手段が、当該携帯端末装置内部に設けられるので、翻訳を実行する際、通信を要しない。従って、通信コストもかからず、通信不可能な屋内等にあっても、翻訳を実行できる。
【0011】
また、請求項5に記載の発明の携帯端末は、所定の発音データを入力することによって音声を発音する発音手段と、辞書データベースに対して見出し語情報を検索キーとして、対応する意味情報を検索させ、その意味情報の発音の仕方を表す第1の発音データを含んで構成される検索結果情報を返信するように制御する制御手段と、を有する携帯端末装置であって、前記第1の発音データは、フォルマントパラメータを示すデータであることを特徴としている。
【0012】
本発明では、制御手段が、辞書データベースに対して、見出し語情報を検索キーとして、対応する意味情報を検索する。そして、検索された意味情報の発音の仕方を表す第1の発音データを含んで構成される検索結果情報を返信させる。
返信された検索結果情報に含まれる第1の発音データは、フォルマントパラメータを示すデータであり、発音手段は、このフォルマントパラメータを示す発音データに基づき発音する。
以上のように、見出し語情報を検索キーとして検索された意味情報は、音声として発音され、利用者は、この意味情報を聴覚により認識することができる。また、辞書データベースから返信される検索結果情報は、フォルマントパラメータを示すものであり(フォルマントパラメータそのものから構成されるものであってもよい)、当該携帯端末装置外から検索結果情報の返信を受ける場合には、必要とする伝送容量が少なくて済む。
【0013】
また、請求項6に記載の発明は、請求項5に記載の携帯端末において、表示手段をさらに有し、前記検索結果情報は、前記意味情報を表すテキストと、その検索キーの見出し語に関連した画像を表す画像データと、その見出し語に関連した音を表す第2の発音データを含んで構成され、前記テキストと画像を前記表示手段に表示することを特徴としている。
【0014】
本発明では、検索された意味情報を表すテキストの他、検索キーである見出し語に関連した画像を表す画像データと、その見出し語に関連した音を表す第2の発音データが検索結果情報に含まれる。そして、この意味情報を表すテキストと関連した画像が当該携帯端末装置に備わる表示手段に表示されるので、利用者は、検索結果の意味情報のみならず関連する画像も見ることができる。さらに、発音手段により、意味情報を表すテキストの音声のみならず、見出し語に関連した音を表す第2の発音データも発音されるので、利用者は、検索キーである見出し語の意味のみならず関連した豊富な情報を得ることができる。
【0015】
また、請求項7に記載の発明は、請求項1から請求項4のいずれかに記載の携帯端末において、前記発音データが、翻訳結果または検索結果を発声する文字を示す発声文字列と、該発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成され、前記発声文字列と前記韻律記号はテキストで記述されることを特徴としている。
また、請求項8に記載の発明は、請求項5または請求項6に記載の携帯端末において、前記第1の発音データが、翻訳結果または検索結果を発声する文字を示す発声文字列と、該発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成され、前記発声文字列と前記韻律記号はテキストで記述されることを特徴としている。
請求項7または請求項8に記載の発明では、発音データが、翻訳結果または検索結果を発声する文字を示す発声文字列と、この発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成されるとともに、この発声文字列と韻律記号がテキストで記述されるので、発音データの情報量が小さい。したがって、この発音データを伝送する際にはより好適である。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
図1に、本発明の携帯端末装置の一実施の形態である携帯電話機1と、この携帯電話機1に対し通信網(無線通信網およびデータ網を含む)を介して翻訳サービスおよび辞書検索サービスを提供する配信サーバ2とからなるシステムの概略構成を示している。
【0017】
携帯電話機1は、後述のように音声合成により翻訳結果や検索結果を発音する機能をもち、コンテンツ事業者等が管理する配信サーバ2と上記通信網を介して接続される。配信サーバ2には、下記に示す、配信サーバ2を構成する各部を制御する制御部2aと辞書データベース2bが備わる。
辞書データベース2bは、制御部2aが翻訳を行う際に用いる翻訳辞書および単語の意味等を検索するための各種辞書が格納されている。翻訳辞書には、翻訳対象の文または単語に対し、その翻訳結果の文または単語と、その読みを携帯電話機1にて音声合成させるための発音データ(第1の発音データ;詳細は後述する)とが登録されている。また、各種辞書には、検索キーとなる見出し語に対し、その意味情報(検索対象の見出し語に対するその意味等)を表すテキストと、その読みの発音データ(第2の発音データ)と、関連する情報(画像・音声)が対応づけられ登録されている。
【0018】
制御部2aは、携帯電話機1からの翻訳要求や検索要求に応じて、翻訳要求の場合には、上記翻訳辞書を用いて携帯電話機1から送られた翻訳対象のテキストの翻訳を行い、その翻訳結果のテキストと、その読みの発音データを含む翻訳結果情報を生成し、この翻訳結果情報を携帯電話機1に返信する。他方、検索要求の場合には、検索要求に含まれる検索対象の見出し語を検索キーとして指定された辞書を用いて検索を行い、検索結果の意味情報を表すテキスト及びその読みの発音データ、ならびに当該見出し語と関連する音の発音データと関連する画像の画像データを含む検索結果情報を生成し、この検索結果情報を携帯電話機1に返信する。
【0019】
ここで、辞書データベース2bの構成についてさらに詳細に説明する。
辞書データベース2bには、前述のように翻訳辞書や各種辞書等が格納されている。この辞書データベース2bに格納される翻訳辞書には、例えば、英和辞書の場合、“It‘s very fine, isn’t it?”という英文に対し、その翻訳文のテキストとして「とてもいい天気ですね。」が登録され、その読みの発音データとして、「とっ’ても,S54’い/いて$ん_き/です_ねー2*ー」が登録されている(なお、翻訳辞書には、後述する発音用シーケンスデータも登録されているが、ここでは省略して説明する)。このように本実施の形態における音声(人の声)の発音データは、音声合成により発音する際の音の抑揚等を規定する韻律記号を含んで構成される。
【0020】
なお、上記のようにテキストで記述される発音データの記述ルール(本実施の形態では、HV−Scriptと称す)に関しては後述する。また、本実施の形態では、携帯電話機1が、配信サーバ2から受けたHV−Scriptによる発音データを、音素毎のフォルマントパラメータに変換し、さらに付加された韻律記号に基づいて変更されたフォルマントパラメータからなるフレーム・データ列を用いて音声合成を行うものとするが、後述のように音素記述型によるデータやフォルマント・フレーム記述型によるデータを利用することもできる。
【0021】
以上のように翻訳辞書には、短い文や単語に対し、その翻訳文のテキストとその読みの発音データが登録されているが、長い文を翻訳する場合には、周知の手法により構文解析等を行い翻訳を行うものとし、翻訳辞書にのそのためのデータが含まれているものとする。この場合、発音データに関しては、文を構成する文節あるいは単語毎に対応する発音データが登録されており、翻訳結果の文を構成する文節あるいは単語毎に、対応する発音データに置換することにより文全体に対応した発音データを生成する。また、その文節または単語が使われている条件(文頭か、文中か、疑問文なのか?など)からどのような韻律記号を使うかというルールも辞書データベース2bに持ち、それを基に韻律記号をさらに追加したり変更したりするようにすることもできる。
【0022】
また、上記辞書データベース2bには、各種辞書も格納されている。各辞書は、図2に示すように見出し語情報(インデックス)と、その見出し語情報に対応した意味情報とを組みにした辞書項目情報が複数集まって構成されている。意味情報は、その見出し語情報の意味を表すデータ(データ1)、上記見出し語の発音の仕方を表す第1の発音データ(データ2)、上記見出し語に関連した音を表す第2の発音データ(データ3)及び上記見出し語に関連した画像を表す画像データ(データ4)とで構成される。
【0023】
例えば、英和辞書の場合、図2に示すようにインデックスの欄に、検索キーとして指定される英単語が登録されている。そして、各見出し語の英単語に対し、データ1としてその意味情報を表す単語の訳(例えば、見出し語が“Duck”の場合、“あひる”)が登録され、データ2としてその訳の発音データが登録され、データ3として見出し語の英単語と関連する音の発音データ(見出し語が“Duck”の場合には、例えば、あひるの鳴き声の発音データ)が登録され、データ4としてその見出し語の英単語と関連する画像の画像データ(見出し語が“Duck”の場合には、例えば、あひるの画像の画像データ)が登録されている。
【0024】
なお、インデックス、データ1の欄のデータは、テキストシーケンスデータであり、後述のイベント・データ(このテキストシーケンスデータの場合、テキスト文字列、再生位置等を表す)とデュレーション・データとで構成される。
データ2の欄のデータは、音声シーケンスデータであり、上記HV−Scriptによる発音データと、発音用シーケンスデータとで構成される。発音データは発音No.により指定される。発音用シーケンスデータは図3に示すように、イベント・データ(発音No.、発音時間等を表す)とデュレーション・データ(イベント間隔を表す)とで構成される。
【0025】
データ3の欄のデータは、PCMシーケンスデータもしくはFMシーケンスデータであり、PCMシーケンスデータは、発音データである波形データと、PCM用シーケンスデータとで構成される。波形データは波形No.により指定される。PCM用シーケンスデータは図3に示すように、イベント・データ(波形No.、発音時間等を表す)とデュレーション・データ(イベント間隔を表す)とで構成される。また、FMシーケンスデータは、MIDI(Musical Instrument Digital Interface)等による発音データである音色データと、FM用シーケンスデータとで構成される。音色データはFM合成アルゴリズムを示すデータで音色No.により指定される。FM用シーケンスデータは図3に示すように、イベント・データ(音色No.、音程、音長等を表す)とデュレーション・データ(イベント間隔を表す)とで構成される。
【0026】
データ4の欄のデータは、画像シーケンスデータであり、この画像シーケンスデータは、所定形式(JPEG(Joint Photographic Experts Group)等)の画像データと画像表示用シーケンスデータとで構成される。画像データは画像No.により指定される。画像表示用シーケンスデータは図3に示すように、イベント・データ(画像No.、表示時間、表示形態等を表す)とデュレーション・データ(イベント間隔を表す)とで構成される。また、各種辞書は、上記のように複数の辞書項目により構成されるが、さらに、各辞書をリンク先としている他の辞書リンク付き文書から該当辞書の所定の辞書項目にジャンプできるように、上記各辞書項目にリンクアドレスを付与してもよい。
【0027】
また、検索結果情報を携帯電話機1に返信する際、検索結果情報に含まれる再生用の各データを携帯電話機1側で同期して再生させるため、所定のデータ交換フォーマットを持たせる。これは、本出願人により公開されているSMAF仕様書 Ver.3.06 ヤマハ株式会社、[平成14年10月18日検索]、インターネット<URL:http://smaf.yamaha.co.jp>によるフォーマットを、音声(人の声)の発音に対応できるように拡張したものである。
このSMAF(Synthetic Music Mobile Application Format)は、携帯端末などにおいてマルチメディアコンテンツを表現するためのデータフォーマット仕様である。
【0028】
ここでSMAFについて図4を参照し説明する。
同図において、100はSMAFファイルであり、チャンクとよばれるデータの塊が基本構造となっている。チャンクは、固定長(8バイト)のヘッダ部と任意長のボディ部とからなり、ヘッダ部は、さらに、4バイトのチャンクIDと4バイトのチャンクサイズに分けられる。チャンクIDはチャンクの識別子に用い、チャンクサイズはボディ部の長さを示している。SMAFファイル100は、それ自体及びそれに含まれる各種データも全てチャンク構造となっている。
【0029】
この図に示すように、SMAFファイル100の中身は、管理用の情報が格納されているコンテンツ・インフォ・チャンク(Contents Info Chunk)101と,出力デバイスに対するシーケンスデータを含む1つ以上のトラックチャンク102〜108とからなる。シーケンスデータは出力デバイスに対する制御を時間を追って定義したデータ表現である。1つのSMAFファイル100に含まれる全てのシーケンスデータは時刻0で同時に再生を開始するものと定義されており、結果的に全てのシーケンスデータが同期して再生される。
【0030】
シーケンスデータはイベントとデュレーションの組み合わせで表現される。イベントは、シーケンスデータに対応する出力デバイスに対する制御内容のデータ表現であり、デュレーションは、イベントとイベントとの間の経過時間を表現するデータである。イベントの処理時間は実際には0ではないが、SMAFのデータ表現としては0とみなし、時間の流れは全てデュレーションで表すようにしている。あるイベントを実行する時刻は、そのシーケンスデータの先頭からのデュレーションを積算することで一意に決定することができる。イベントの処理時間は、次のイベントの処理開始時刻に影響しないことが原則である。従って、値が0のデュレーションを挟んで連続したイベントは同時に実行すると解釈される。
【0031】
SMAFでは、上記出力デバイスとして、MIDI相当の制御データで発音を行うFM音源デバイスや、PCMデータの再生を行うPCM音源デバイスや、テキストや画像の表示を行うLCDなどの表示デバイスなどが定義されている。
上記トラックチャンクには、定義されている各出力デバイスに対応して、スコアトラックチャンク102〜105、PCMオーディオトラックチャンク106、グラフィクストラックチャンク107及びマスタートラックチャンク108がある。ここで、マスタートラックチャンク108を除くスコアトラックチャンク102〜105、PCMオーディオトラックチャンク106及びグラフィクストラックチャンク107は、それぞれ最大256トラックまで記述することが可能である。
【0032】
図示する例では、スコアトラックチャンク102〜105はFM音源デバイス(音源111)に再生させるためのシーケンスデータを格納し、PCMトラックチャンク106はPCM音源デバイス(PCMデコーダ112)で発音されるADPCMやMP3、TwinVQ等のwaveデータをイベント形式で格納し、グラフィックトラックチャンク107は背景画や差込静止画等の画像データやテキストデータと、それらを表示デバイス(LCDディスプレイ113)に再生させるためのシーケンスデータを格納している。また、マスタートラックチャンク108にはSMAFシーケンサ自身を制御するためのシーケンスデータが格納されている。
SMAFは、上述のようなフォーマットをもつので、MIDI相当のデータ(楽曲データ)、PCMオーディオデータ、テキストや画像の表示用データなどの各種シーケンスデータを含み、全シーケンスを同期して再生できる。しかし、人の声を表現することについては、定義されていないので、以下のように拡張する。
【0033】
すなわち、SMAFファイル100に、さらに音源を用いて音声(人の声)を再生させるための音声再生シーケンスデータを格納させるHV(human Voice)トラックチャンクh4を設ける(図5参照)。また、この音声再生シーケンスデータを、フォルマントパラメータを示す発音データに基づく音声の再生を指示する音声再生イベントと、その音声再生イベントを実行するタイミングを先行する音声再生イベントからの経過時間により指定するデュレーションとの組が時間順に配置されたものとする。
この拡張により、従来のSMAFファイル100を用いた再生と同様に、各シーケンスデータの再生を同時に開始させることにより、各データを同じ時間軸上で同期して再生させることができる。
【0034】
なお、上記音声再生イベントとしては、(1)合成される音声の読みを示す文字列と音声表現(発音の抑揚等)を指定する韻律記号とからなるテキスト記述型の情報、(2)合成される音声を示す音素情報と韻律制御情報とからなる音素記述型の情報、または、(3)再生される音声を示すフレーム時間毎のフォルマントパラメータからなるフォルマント・フレーム記述型の情報、の3種の再生を指示するデータのいずれかを用いることができる。
【0035】
テキスト記述型(TSeq型)は、発音すべき音声をテキスト表記により記述するフォーマットであり、それぞれの言語の文字コードによる文字列とアクセントなどの音声表現を指示する記号(韻律記号)とを含む。携帯電話機1側での再生時には、図6の(a)に示すように、ミドルウェア処理により、このTSeq型のシーケンスデータを、まず、PSeq型に変換し(第1のコンバート処理)、次に、PSeq型をFSeq型に変換(第2のコンバート処理)して、音声合成デバイスに出力することとなる。
【0036】
ここで、TSeq型からPSeq型へ変換する第1のコンバート処理は、言語に依存する情報である文字列(例えば、ひらがなやカタカナなどのテキスト)と韻律記号と、それに対応する言語に依存しない発音を示す情報(音素)と韻律を制御するための韻律制御情報を格納した第1の辞書を参照することにより行われる。PSeq型からFSeq型への変換である第2のコンバート処理は、各音素とそれに対応するフォルマントパラメータ(各フォルマントを生成するためのフォルマントの周波数、帯域幅、レベルなどのパラメータ)を格納した第2の辞書を参照することにより行われ、変換結果のフォルマントパラメータは、韻律制御情報に基づき変更される。
【0037】
音素記述型(PSeq型)は、SMFで定義するMIDIイベントに類似する形式で発音すべき音声に関する情報を記述するものであり、音声記述としては言語依存によらない音素単位をベースとする。図6の(b)に示すように、配信サーバ2にて、辞書データベース2bに格納された辞書から検索されたTSeq型の発音データを第1のコンバート処理によりPSeq型に変換する。このPSeq型の発音データを携帯電話機1にて再生するときは、そのミドルウェア処理として実行される第2のコンバート処理によりPSeq型のデータファイルをFSeq型に変換して、音声合成デバイスに出力する。
【0038】
フォルマント・フレーム記述型(FSeq型)は、フォルマントパラメータをフレーム・データ列として表現したフォーマットである。図6の(c)に示すように、配信サーバ2にて、TSeq型→第1のコンバート処理→PSeq型→第2のコンバート処理→FSeq型への変換を行う。また、サンプリングされた波形データから通常の音声分析処理と同様の処理である第3のコンバート処理によりFSeq型のデータを作成することもできる。携帯電話機1での再生時には、与えられたFSeq型のファイルをそのまま音声合成デバイスに出力して再生することができる。
【0039】
次に、HVトラックチャンクh4(図7)の内容について詳細に説明する。
図7に示すように、各HVトラックチャンクh4には、このチャンクに含まれている音声再生シーケンスデータが上述した3通りのフォーマットタイプのうちのどのタイプであるかを示すフォーマットタイプ(Format Type)、使用されている言語種別を示す言語タイプ(Language Type)及びタイムベース(Timebase)をそれぞれ指定するデータが記述されている。
フォーマットタイプ(Format Type)の例を表1に示す。
【表1】
Figure 2004294816
【0040】
言語タイプ(Language Type)の例を表2に示す。
【表2】
Figure 2004294816
なお、ここでは、日本語(0x00;0xは16進を表す。以下、同じ。)と韓国語(0x01)のみを示しているが、中国語、英語などその他の言語についても同様に定義することができる。
【0041】
タイムベース(Timebase)は、このトラックチャンクに含まれるシーケンスデータチャンク内のデュレーション及びゲートタイムの基準時間を定めるものである。この一例を表3に示す。この値(一例として、20[msec])は、適宜設定される。
【表3】
Figure 2004294816
【0042】
ここでさらに上記3通りのフォーマットタイプのデータの詳細について説明する。
(a)Tseq型(フォーマットタイプ=0x00)
前述のように、このフォーマットタイプは、テキスト表記によるシーケンス表現(TSeq:text sequence)を用いたフォーマットであり、シーケンスデータチャンクh5とn個(nは1以上の整数)のTSeqデータチャンク(TSeq#00〜TSeq#n)h6,h7,h8を含んでいる(図7)。シーケンスデータに含まれる音声再生イベント(ノートオンイベント)でTSeqデータチャンクに含まれるデータの再生を指示する。
【0043】
(a−1)シーケンスデータチャンク
シーケンスデータチャンクh5は、SMAFにおけるシーケンスデータチャンクと同様に、デュレーションとイベントの組み合わせを時間順に配置したシーケンスデータを含む。図8の(a)はシーケンスデータの構成を示す図である。ここで、デュレーションは、イベントとイベントの間の時間を示している。先頭のデュレーション(Duration 1)は、時刻0からの経過時間を示している。図8の(b)は、イベントが下記のノートメッセージである場合に、デュレーションとノートメッセージに含まれるゲートタイムの関係を示す図である。この図に示すように、ゲートタイムはそのノートメッセージの発音時間を示している。なお、図8で示したシーケンスデータチャンクの構造は、PSeq型及びFSeq型におけるシーケンスデータチャンクにおいても同様である。
このシーケンスデータチャンクでサポートされるイベントとしては、次の3通りのイベントがある。なお、以下に記述する初期値は、イベント指定がないときのデフォルト値である。
【0044】
(a−1−1)ノートメッセージ「0x9n kk gt」
ここで、n:チャンネル番号(0x0[固定])、kk:TSeqデータ番号(0x00〜0x7F)、gt:ゲートタイム(1〜3バイト)である。
ノートメッセージは、チャンネル番号nで指定されるチャンネルのTSeqデータ番号kkで指定されるTSeqデータチャンクを解釈し発音を開始するメッセージである。なお、ゲートタイムgtが「0」のノートメッセージについては発音を行わない。
(a−1−2)ボリューム「0xBn 0x07 vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。なお、チャンネルボリュームの初期値は0x64である。
ボリュームは、指定チャンネルの音量を指定するメッセージである。
(a−1−3)パン(パンポット)「0xBn 0x0A vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。なお、パンポット初期値は、0x40(センター)である。
パンメッセージは、ステレオのサウンドシステムを有する利用装置に対し、指定チャンネルのステレオ音場位置を指定するメッセージである。
【0045】
(a−2)TSeqデータチャンク(TSeq#00〜TSeq#n)
TSeqデータチャンク(h6,h7,h8等)は、音声合成用の情報として、言語や文字コードに関する情報、発音する音(抑揚等)の設定、(音声合成する)読み情報を含んだ、しゃベり用フォーマットでありHV−Scriptにより記述されている。
【0046】
(b)PSeq型(フォーマットタイプ=0x01)
このPSeq型は、MIDIイベントに類似する形式の音素によるシーケンス表現(PSeq:phoneme sequence)を用いたフォーマットタイプである。この形式は、音素を記述するようにしているので言語依存がない。音素は発音を示す文字情報により表現することができ、例えば、複数の言語に共通にアスキーコードを用いることができる。
図7に示すように、このPSeq型は、セットアップデータチャンクh9、ディクショナリデータチャンクh10及びシーケンスデータチャンクh11を含んでいる。シーケンスデータ中の音声再生イベント(ノートメッセージ)で指定されたチャンネルの音素と韻律制御情報の再生を指示する。
【0047】
(b−1)セットアップデータチャンク(Setup Data Chunk)(オプション)
音源部分の音色データなどを格納するチャンクであり、イクスクルーシブ・メッセージの並びを格納する。この実施の形態では、含まれているイクスクルーシブ・メッセージは、HV音色パラメータ登録メッセージである。
HV音色パラメータ登録メッセージは「0xF0 Size 0x43 0x79 0x07 0x7F 0x01 PC data ... 0xF7」というフォーマットであり、ここでPCは、プログラム番号(0x02〜0x0F)、dataは、HV音色パラメータである。このメッセージは、該当するプログラム番号PCのHV音色パラメータを登録する。
【0048】
HV音色パラメータを次の表4に示す。
【表4】
Figure 2004294816
【0049】
表4に示すように、HV音色パラメータとしては、ピッチシフト量、第1〜第n(nは2以上の整数)の各フォルマントに対するフォルマント周波数シフト量、フォルマントレベルシフト量及びオペレータ波形選択情報が含まれている。利用装置である携帯電話機1内には、各音素とそれに対応するフォルマントパラメータ(フォルマントの周波数、帯域幅、レベルなど)を記述したプリセット辞書(前述の第2の辞書)が記憶されており、HV音色パラメータは、このプリセット辞書に記憶されているパラメータに対するシフト量を規定している。これにより、全ての音素について同様のシフトが行われ、合成される音声の声質を変化させることができる。
なお、このHV音色パラメータにより、0x02〜0x0Fに対応する数(すなわち、プログラム番号の数)の音色を登録することができる。
【0050】
(b−2)ディクショナリデータチャンク(Dictionary Data Chunk)(オプション)
このチャンクには、言語種別に応じた辞書データ、例えば、前記プリセット辞書と比較した差分データやプリセット辞書で定義していない音素データなどを含む辞書データを格納する。これにより、音色の異なる個性のある音声を合成することが可能となる。
【0051】
(b−3)シーケンスデータチャンク(Sequence Data Chunk)
前述のシーケンスデータチャンクと同様に、デュレーションとイベントの組み合わせを時間順に配置したシーケンスデータを含む。
このPSeq型におけるシーケンスデータチャンクh11でサポートするイベント(メッセージ)を次に列挙する。読み込み側は、これらのメッセージ以外は無視する。また、以下に記述する初期設定値は、イベント指定がないときのデフォルト値である。
【0052】
(b−3−1)ノートメッセージ「0x9n Nt Vel Gatetime Size data ... 」
ここで、n:チャンネル番号(0x0[固定])、Nt:ノート番号(絶対値ノート指定:0x00〜0x7F,相対値ノート指定:0x80〜0xFF)、Vel:ベロシティ(0x00〜0x7F)、Gatetime:ゲートタイム長(Variable)、Size:データ部のサイズ(可変長)である。
このノートメッセージにより、指定チャンネルの音声の発音が開始される。
なお、ノート番号のMSB(Most Significant Bit)は、解釈を絶対値と相対値とに切り替えるフラグである。このMSB以外の7ビットはノート番号を示す。音声の発音はモノラルのみであるため、ゲートタイムが重なる場合は後着優先として発音する。
【0053】
データ部は、音素とそれに対する韻律制御情報(ピッチベンド、ボリューム)を含み、次の表5に示すデータ構造からなる。
【表5】
Figure 2004294816
【0054】
表5に示すように、データ部は、音素の数n(#1)、例えばアスキーコードで記述した個々の音素(音素1〜音素n)(#2〜#4)、及び、韻律制御情報からなっている。韻律制御情報はピッチベンドとボリュームであり、ピッチベンドに関して、その発音区間を音素ピッチベンド数(#5)により規定されるN個の区間に区切り、それぞれにおけるピッチベンドを指定するピッチベンド情報(音素ピッチベンド位置1,音素ピッチベンド1(#6〜#7)〜音素ピッチベンド位置N,音素ピッチベンドN(#9〜#10))と、ボリュームに関して、その発音区間を音素ボリューム数(#11)により規定されるM個の区間に区切り、それぞれにおけるボリュームを指定するボリューム情報(音素ボリューム位置1,音素ボリューム1(#12,#13)〜音素ボリューム位置M,音素ボリュームM(#15,#16))からなっている。
【0055】
図9は、上記韻律制御情報について説明するための図である。ここでは、発音する文字情報が「ohayou」である場合を例にとって示している。また、この例では、N=M=128としている。この図に示すように、発音する文字情報(「ohayou」)に対応する区間を128(=N=M)の区間に区切り、各点におけるピッチとボリュームを前述のピッチベンド情報及びボリューム情報で表現して韻律を制御するようにしている。
【0056】
図10は、前述のゲートタイム長(Gatetime)とディレイタイム(Delay Time (#0))との関係を示す図である。この図に示すように、ディレイタイムにより、実際の発音を、デュレーションで規定されるタイミングよりも遅らせることができる。なお、Gate time =0は、禁止とする。
【0057】
(b−3−2)プログラムチェンジ「0xCn pp」
ここで、n:チャンネル番号(0x0[固定])、pp:プログラム番号(0x00〜0xFF)である。また、プログラム番号の初期値は0x00とされている。
このプログラムチェンジメッセージにより指定されたチャンネルの音色が設定される。ここで、チャンネル番号は、0x00:男声プリセット音色、0x01:女声プリセット音色、0x02〜0x0F:拡張音色である。
【0058】
(b−3−3)コントロールチェンジ
コントロールチェンジメッセージとしては、次のものがある。
(b−3−3−1)チャンネルボリューム「0xBn 0x07 vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。また、チャンネルボリュームの初期値は0x64とされている。
このチャンネルボリュームメッセージは、指定チャンネルの音量を指定するものであり、チャンネル間の音量バランスを設定することを目的としている。
(b−3−3−2)パン(パンポット)「0xBn 0x0A vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。パンポットの初期値は0x40(センター)とされている。
このメッセージは、ステレオのサウンドシステムを有する利用装置に対し、指定チャンネルのステレオ音場位置を指定する。
【0059】
(b−3−3−3)エクスプレッション「0xBn 0x0B vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。このエクスプレッションメッセージの初期値は0x7F(最大値)とされている。
このメッセージは、指定チャンネルのチャンネルボリュームで設定した音量の変化を指定する。これは曲中等で音量を変化させる目的で使用される。
【0060】
(b−3−3−4)ピッチベンド「0xEn ll mm」
ここで、n:チャンネル番号(0x0[固定])、ll:ベンド値LSB(0x00〜0x7F)、mm:ベンド値MSB(0x00〜0x7F)である。ピッチベンドの初期値はMSB(上位バイト)が0x40、LSB(下位バイト)が0x00とされている。
このメッセージは、指定チャンネルのピッチを上下に変化させる。変化幅(ピッチ・ベンド・レンジ)の初期値は±2半音であり、0x00/0x00で下方向へのピッチベンドが最大となる。0x7F/0x7Fで上方向へのピッチベンドが最大となる。
【0061】
(b−3−3−5)ピッチベンド・センシティビティ「0x8n bb」
ここで、n:チャンネル番号(0x0[固定])、bb:データ値(0x00〜0x18)である。このピッチベンド・センシティビティの初期値は0x02である。
このメッセージは、指定チャンネルのピッチベンドの感度設定を行う。単位は半音である。例えば、bb=01のときは±1半音(変化範囲は計2半音)となる
【0062】
このように、PSeq型のフォーマットタイプは、発音を示す文字情報で表現した音素単位をベースとし、MIDIイベントに類似する形式で音声情報を記述したものであり、データ・サイズはTSeq型よりは大きいがFSeq型よりは小さくなる。
これにより、MIDIと同様に時間軸上の細かいピッチやボリュームをコントロールすることができる、音素ベースで記述しているため言語依存性がない、音色(声質)を細かく編集することができる、MIDIと類似した制御ができ、従来のMIDI機器へ追加実装し易いという長所を有している。
【0063】
(c)フォルマント・フレーム記述(FSeq)型(フォーマットタイプ=0x02)
フォルマントパラメータ(各フォルマントを生成するための、フォルマント周波数やゲインなどのパラメータ)をフレーム・データ列として表現したフォーマットである。すなわち、一定時間(フレーム)の間は、発音する音声のフォルマントなどは一定であるとし、各フレーム毎に発音する音声に対応するフォルマントパラメータ(各々のフォルマント周波数やゲインなど)を更新するシーケンス表現(FSeq:formant sequence)を用いる。シーケンスデータに含まれるノートメッセージにより指定されたFSeqデータチャンクのデータの再生を指示する。
このフォーマットタイプは、シーケンスデータチャンクh12とn個(nは1以上の整数)のFSeqデータチャンク(FSeq#00〜FSeq#n:h13,h14,h15等)を含んでいる。
【0064】
(c−1)シーケンスデータチャンク
前述のシーケンスデータチャンクと同様に、デュレーションとイベントの組を時間順に配置したシーケンスデータを含む。
以下に、このシーケンスデータチャンクh12でサポートするイベント(メッセージ)を列挙する。読み込み側は、これらのメッセージ以外は無視する。また、以下に記述する初期設定値は、イベント指定がないときのデフォルト値である。
(c−1−1)ノートメッセージ「0x9n kk gt」
ここで、n:チャンネル番号(0x0[固定])、kk:FSeqデータ番号(0x00〜0x7F)、gt: ゲートタイム(1〜3バイト)である。
このメッセージは、指定チャンネルのFSeqデータ番号のFSeqデータチャンクを解釈し発音を開始するメッセージである。なお、ゲートタイムが“0”のノートメッセージは発音を行わない。
【0065】
(c−1−2)ボリューム「0xBn 0x07 vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。なお、チャンネルボリュームの初期値は0x64である。
このメッセージは、指定チャンネルの音量を指定するメッセージである。
【0066】
(c−1−3)パン(パンポット)「0xBn 0x0A vv」
ここで、n:チャンネル番号(0x0[固定])、vv:コントロール値(0x00〜0x7F)である。なお、パンポットの初期値は0x40(センター)である。
このメッセージは、ステレオのサウンドシステムを有する利用装置に対し、指定チャンネルのステレオ音場位置を指定するメッセージである。
【0067】
(c−2)FSeqデータチャンク(FSeq#00〜FSeq#n)
FSeqデータチャンクは、FSeqフレーム・データ列で構成する。すなわち、音声情報を所定時間長(例えば、20msec)を有するフレーム毎に切り出し、それぞれのフレーム期間内の音声データを分析して得られたフォルマントパラメータ(フォルマント周波数やゲインなど)を、それぞれのフレームの音声データを表すフレーム・データ列として表現したフォーマットである。
【0068】
表6にFSeqのフレーム・データ列を示す。
【表6】
Figure 2004294816
【0069】
表6において、#0〜#3は音声合成に用いる複数個(この実施の形態においては、n個)のフォルマントの波形の種類(サイン波、矩形波など)を指定するデータである。#4〜#11は、フォルマントレベル(振幅)(#4〜#7)と中心周波数(#8〜#11)によりn個のフォルマントを規定するパラメータである。#4と#8が第1フォルマント(#0)を規定するパラメータ、以下同様に、#5〜#7と#9〜#11は第2フォルマント(#1)〜第nフォルマント(#3)を規定するパラメータである。また、#12は無声/有声を示すフラグなどである。
【0070】
図11は、フォルマントのレベルと中心周波数を示す図であり、本実施の形態においては、第1〜第nフォルマントまでのn個のフォルマントのデータを用いるようにしている。各フレーム毎の第1〜第nフォルマントに関するパラメータとピッチ周波数に関するパラメータは、後述する携帯電話機1に備わる音声合成音声合成デバイスに供給され、そのフレームの音声合成出力が前述のようにして生成出力される。
【0071】
図12は、FSeqデータチャンクのボディ部のデータを示す図である。表6に示したFSeqのフレーム・データ列のうち、#0〜#3は、各フォルマントの波形の種類を指定するデータであり、各フレームごとに指定する必要はない。従って、図12に示すように、最初のフレームについては、前記表6に示した全てのデータとし、後続するフレームについては、表6における#4以降のデータだけでよい。FSeqデータチャンクのボディ部を図12のようにすることにより、総データ数を少なくすることができる。
【0072】
このように、FSeq型は、フォルマントパラメータ(各々のフォルマント周波数やゲインなど)をフレーム・データ列として表現したフォーマットであるため、FSeq型のファイルをそのまま音声合成デバイスに出力することにより音声を再生することができる。従って、処理側はTSeq型やPSeq型のように変換処理の必要がなく、CPUは所定時間ごとにフレームを更新する処理を行うのみでよい。なお、既に格納されている発音データに対し、一定のオフセットを与えることで音色(声質)を変更することができる。
【0073】
以上のように作成されたいずれかのタイプのファイルが携帯電話機1に送信され、シーケンスデータに含まれているデュレーションにより規定されるタイミングで音声合成デバイスに制御パラメータを供給する発音用シーケンサと、発音用シーケンサから供給される制御パラメータに基づいて音声を再生出力する音声合成デバイスを有する利用装置である携帯電話機1にて、他の情報(意味情報、関連する音、関連する画像など)とともに音声が同期して再生されることとなる。なお、本実施の形態では、前述のようにHV−Scriptによるテキスト記述型の音声再生シーケンスデータを用いるものとして説明する。
【0074】
ここで、HV−Scriptによる発音データ(ただし、発音用シーケンスデータを除く)について詳細に説明する。
HV−Scriptによる発音データの一例である「か_3さが ほ^5し_4い’4ね$2ー」は、「かさがほしいねー」という文にイントネーションを付加して音声合成させるためのHV−Scriptによる記述である。この例に記述された記号「’」、「^」、「_」、「$」等は、文字(かな文字)に付加するイントネーションの種別を示す韻律記号で、この韻律記号の後の文字(この記号の直後に数値がある場合は、この数値に続く文字)に対して、所定のアクセントを付加するものである。
【0075】
図13(a)に、HV−Scriptによる各記号(代表例)の意味を示す。すなわち「’」は、語頭でピッチを上げ(図13(b)▲1▼参照)、「^」では発音中ピッチを上げ(図13(c)▲3▼参照)、「_」は、語頭でピッチを下げ(図13(b)▲2▼参照)、「$」では、発音中ピッチを下げるように(図13(c)▲4▼参照)音声合成を行うことを意味している。
また、上記記号の直後に数値が付加される場合は、その数値は付加するアクセントの変化量を指定するものである。例えば、「か_3さが」では、「さ」を語頭でピッチを3の量だけ下げることを示し、「が」をその下げたピッチで発音し、「か」は、標準の高さで発音することを示す。
【0076】
このように、HV−Scriptでは、発音させる言葉に含まれる文字にアクセント(イントネーション)を付加する場合に、その文字の直前に、韻律記号(さらには、イントネーションの変化量を示す数値)を付加する記述をする構文となっている。なお、以上ではピッチを制御する記号についてのみ説明したが、これら以外に音の強弱、速度、音質等を制御する記号を用いることもできる。
【0077】
例えば、前述の“It‘s very fine, isn’t it?”という英文の翻訳文の「とてもいい天気ですね。」に対する発音データである「とっ’ても,S54’い/いて$ん_き/です_ねー2*ー」では、これに含まれる“S54”のSは、速度を変化させる制御文字の一つであり、その制御文字の次から発話速度を変えさせる働きをする。この制御文字Sに続く“54”は速度を表す数字であり、初期値が50で、初期値より4の量だけ速度を上げることを指示する。この制御文字Sにより変化させた速度は、次に変更するまで同じ速度が維持される。
【0078】
また、“/”は、アクセントシフトクリア記号(変化させたアクセントを戻すための記号)の一つであり、韻律記号で変化させたピッチを0に戻す。なお、韻律記号で変化したピッチや音量は “、”,“。”などの文節の区切りを示す記号(文節区切り記号)が出るまでそのピッチや音量を持続するように制御される。また、“*”は、次の文字の後半でピッチと音量を下げることを指示する記号であり、“ー”は、直前の音節を伸ばして発音することを指示する記号である。
【0079】
また、“ねー2*ー”の2はその直前の長音(ー)にかかっていて、この長音を2倍にすることを指示する。つまり、“ねー2*ー”は、“ね”を3の量だけ伸ばして、“*”により最後にピッチと音量を(1の量だけ)下げることを指示している。“’”、“$”については、前述の通りである。
以上のように、フォルマントのパラメータを示すデータの一つであるHV−Scriptによる発音データは少ない情報量で、自然な音声を発音させることができるため、翻訳結果を発音させる用途等に好適である。なお、ここで説明したHV−Scriptは、日本語の音声合成に適したものであり、他国語の音声合成には、前述のPSeq型やFSeq型を利用するとよい。
【0080】
ここで、前記フォルマントおよびフォルマントパラメータについて、詳細に説明する。
フォルマントは、図14に示すような形態をしており、フォルマント周波数やフォルマントレベルおよびフォルマント帯域幅といったパラメータ(フォルマントパラメータ)で特定される。したがって、人の声に含まれるフォルマントの数や、各フォルマントの周波数や振幅、帯域幅などは声の性質を決定する重要な要素となり、声を出す人の性別や体格、年齢などによって大きく異なっている。
【0081】
しかし、たとえ誰が喋っていても、「あ」は「あ」であり、「い」は「い」であり、言葉としては同じように聞こえる。これは、人の声では発音する言葉の種類ごとに、特徴的なフォルマントの組み合わせが決まっているためである。フォルマントを種類により大別すると、有声音を合成するためのピッチ情報をもった有声フォルマントと、無声音を合成するためのピッチ情報をもたない無声フォルマントとになる。
【0082】
ここで、有声音とは、発声する際に声帯が振動する声をいい、例えば、母音や半母音、そしてバ行、ガ行、マ行、ラ行などで使用される有声子音が含まれる。また、無声音とは、発声する際に声帯が振動しない声をいい、例えば、ハ行、カ行、サ行などの子音が含まれる。そして、1つの音素は、図11に示すように、いくつかのフォルマントにより構成される。
【0083】
したがって、ある特定人の発音の音素毎のフォルマントを携帯電話機1側に予め登録しておき、各フォルマントに対して、上述のフォルマントパラメータ、すなわち、フォルマント周波数やフォルマントレベル、フォルマント帯域幅およびフォルマントを形成する基本波形を、テキスト記述型であるHV−Scriptによる韻律記号に基づいて、あるいは、前述の音素記述型おける韻律制御情報に従って変更し音声合成することで、様々なイントネーションをもった音声を発音することができるようになる。
【0084】
なお、前記配信サーバ2は、メモリおよびCPU(中央処理装置)等により構成される制御部2aが、翻訳処理の際には、翻訳対象のテキストの翻訳ならびにその翻訳結果情報の返信のための処理手順からなるプログラムをメモリにロードして実行することによりその機能が実現されるものとする。また、辞書検索処理の際も同様に、与えられた見出し語を検索キーとした該当辞書の検索ならびにその検索結果情報の返信のための処理手順からなるプログラムをメモリにロードして実行することによりその機能が実現されるものとする。
【0085】
また、この配信サーバ2には、周辺機器として入力装置、表示装置等(いずれも図示せず)が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはCRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
また、辞書データベース2bは、ハードディスク、光磁気ディスク等の不揮発性の記録装置により構成されており、配信サーバ2内部に設けられても、配信サーバ2からアクセス可能な外部または別のサーバに設けられてもよい。
以上、配信サーバ2の構成および各種データ等の構成の詳細を説明した。
【0086】
次に、本実施の形態の携帯電話機1について、その概略構成を示す図15のブロック図を参照し説明する。
なお、本発明は、携帯電話機に限らず、PHS(登録商標)(Personal handyphone system)や、無線通信可能な携帯情報端末(PDA:Personal Digital Assistant)等にも適用できるものである。
【0087】
図15において、符号11は、CPU(中央処理装置)であり、各種プログラムを実行することにより携帯電話機1の各部の動作を制御する。
符号12は、通信部であり、この通信部12に備わるアンテナ12aで受信された信号の復調を行うとともに、送信する信号を変調してアンテナ12aに供給している。
上記CPU11は、通信部12で復調された配信サーバ2からの信号を、所定のプロトコルに従って復号化し、HV−Scriptによるテキスト記述型の音声再生シーケンスデータに対しては、前述の第1のコンバート処理及び第2のコンバート処理を実行して、フォルマントパラメータからなるフレーム・データ列を生成する。そして、受信したファイル中のデータが、表示用のデータか発音用のデータかに応じて下記の表示用シーケンサ21aまたは発音用シーケンサ16aにその信号を供給する。
【0088】
符号13は、音声処理部である。通信部12で復調された電話回線の音声信号は、この音声処理部13において復号され、スピーカ14から出力される。一方、マイク15から入力された音声信号はデジタル化され音声処理部13において圧縮符号化される。そして、通信部12にて変調されアンテナ12aから携帯電話網の基地局へ出力される。音声処理部13は、例えばCELP(Code Excited LPC)系やADPCM(適応差分PCM符号化)方式により、音声データを高能率圧縮符号化/復号化している。
【0089】
符号16aは、発音用シーケンサであり、所定の音声または楽音を所定のタイミングでサウンドシステムに発音させることを指示する発音制御用のシーケンスデータを受け取り、下記の音声合成機能付音源16bを制御する機能を有している。
符号16bは、音声合成機能付音源であり、同図に図示しない音声合成ユニットとFM音源デバイスまたは/およびPCM音源デバイスからなる。この音声合成機能付音源16bは、下記のように音声合成を行う他、着信音として選択された楽曲データを再生しスピーカ17から放音する。なお、この音声合成ユニットの構成の詳細は後述する。
【0090】
符号18は、操作部であり、携帯電話機1の本体に設けられた英数字のボタンを含む各種ボタン(図示せず)やその他の入力デバイスからの入力を検知する入力手段である。
また、符号19は、RAM(Random Access Memory)であり、CPU11のワークエリアや、ダウンロードされた楽曲データや伴奏データ(これらは着信メロディの再生等に用いる)の格納エリアや、受信した電子メールのデータが格納されるメールデータ格納エリアや、配信サーバ2から受ける翻訳結果情報や検索結果情報を格納するエリア等がさらに設定される。
【0091】
符号20は、ROM(Read Only Memory)である。このROM20は、CPU11が実行する、発信・着信等の制御をする各種電話機能プログラムや楽曲再生処理を補助するプログラムや、電子メールの送受信を制御するメール送受信機能プログラムや、音声合成処理を補助するプログラム等のプログラムの他、前述の第1の辞書および第2の辞書や、楽音データ等の各種データが格納されている。
【0092】
また、符号21aは、表示用シーケンサであり、所定の画像またはテキストを所定のタイミングで表示部21bに表示させることを指示する表示制御用のシーケンスデータを受け取り、表示部21bを制御する機能を有している。
表示部21bは、LCD(Liquid Crystal Display)等からなり、CPU11および表示用シーケンサ21aの制御により、テキストや画像の表示や、操作部18の操作に応じた表示をする表示器である。
符号22は、着信時に着信音に代えて携帯電話機1の本体を振動させることにより、着信をユーザに知らせるバイブレータである。
なお、各機能ブロックはバス30を介してデータや命令の授受を行っている。
【0093】
ここで、上記音声合成機能付音源16bに含まれる音声合成ユニットの構成について詳細に説明する。
図16に、この音声合成ユニットの概略構成例を示している。
【0094】
この図に示した例の音声合成ユニットは、複数のフォルマント生成部40a〜40mと1個のピッチ生成部50を有しており、発音用シーケンサ16aから出力されるフォルマントパラメータ(各フォルマントを生成するためのフォルマント周波数、レベルなどのパラメータ)及びピッチ情報に基づいて各フォルマント生成部40a〜40mで対応するフォルマント信号を発生し、このフォルマント生成部40a〜40mにおいて生成された各フォルマントをミキシング部60で合成して音素を生成する。そしてこの音素の生成を連続して行うことにより、合成した音声を生成する。なお、各フォルマント生成部40a〜40mはフォルマント信号を発生させるためにその元となる基本波形を発生させるが、この基本波形の発生には、例えば、周知のFM音源の波形発生器を利用することができる。また、ピッチ生成部50は、演算によりピッチ(音程)を生成する機能を有し、発音する音素が有声音の場合にのみ、演算したピッチを生成される音素に付加する。
【0095】
次に、図17を用いて、上記フォルマント生成部40a〜40mの構成について説明する。
図17に示すように、フォルマント生成部40a〜40mの各々は、波形発生器41と、ノイズ発生器42と、加算器43と、増幅器44とから構成されている。
【0096】
波形発生器41は、音素毎フォルマント毎に指定されるフォルマント周波数、フォルマントの基本波形(正弦波、三角波、…)及び波形の位相に基づき、1音素を構成するフォルマントの1つを順次発生する。ノイズ発生器42は、波形発生器41にて発生されたフォルマントが有声音か無声音かに従って、無声音の場合にはノイズを発生し加算器43に供給する。
【0097】
加算器43は、波形発生器41にて生成されたフォルマントに、ノイズ発生器42から供給されるノイズを加算する。そして加算器43の出力は、増幅器44によりフォルマントレベルに増幅され出力される。
上記各フォルマント生成部40a〜40mの構成は、音素を構成する1つのフォルマントに関するものである。1つの音素は、いくつものフォルマントが合成されて形成されている。したがって、1つの音素を生成するためには、音素を構成する各フォルマントを生成して、これを合成する必要がある。そのために図16の構成をとっている。
以上、携帯電話機1を構成する各部の詳細を説明した。
【0098】
次に、このように構成された本実施形態の携帯電話機1および翻訳サーバ2の本発明に係る動作について説明する。なお、通常の電話機能による発信・着信時の動作等、周知の動作については、その説明を省略する。
はじめに、翻訳を行う場合の携帯電話機1および翻訳サーバ2の動作について、図18、19を参照し説明する。
【0099】
まず、携帯電話機1の利用者が、翻訳したいテキスト(例えば、“It‘s very fine, isn’t it?”という英文)を入力し、その翻訳言語(ここでは、英語から日本語とする)を指定して、これらの情報を含む翻訳要求を送信する(ステップS101)。
このとき配信サーバ2は、携帯電話機1からの翻訳要求を受けるまで、ステップS201の判断を繰り返し待機しているが、携帯電話機1から上記翻訳要求を受けると、この翻訳要求に含まれる翻訳対象のテキストを、辞書データベース2bの翻訳辞書を用いて翻訳する(ステップS202)。
【0100】
この間、携帯電話機1は、翻訳結果のデータを受信するまで、ステップS102の判断を繰り返し待機している。
配信サーバ2は、さらに、翻訳したテキストを辞書データベース2bの翻訳辞書を用いて、HV−Scriptによる発音データに変換する(ステップS203)。ここでは、翻訳後の文または文節もしくは単語単位に、対応するHV−Scriptによる発音データに置換する。
そして、翻訳結果のテキストと、その発音データを含む前述のデータ交換フォーマットを有する翻訳結果情報を生成して、この翻訳結果情報を携帯電話機1に返信する(ステップS204)。
【0101】
携帯電話機1は、配信サーバ2から翻訳結果情報を受信すると、ステップS102の判断で、Yesと判定して、ステップS103に移行し、このデータをRAM19に格納し記憶する。
この後、利用者による所定のキー操作がなされるまで、ステップS104の判断を繰り返し待機する。
【0102】
ここで、利用者により翻訳結果再生のための所定のキー操作がなされたとする。すると、ステップ104の判断で、Yesと判定され、ステップS105に移る。
CPU11は、ステップS105にて、配信サーバ2から受けた翻訳結果情報をRAM19から読み込み、この翻訳結果情報に含まれるテキストのデータを表示部21bに表示させるとともに、発音データを音声合成機能付音源16bに音声合成させ、この翻訳結果情報の再生が完了するまで(ステップS106の判断で、Yesと判定されるまで)、当該翻訳結果のテキストの表示と、その発音データの発音を実行する。
以上が、翻訳を行う場合の携帯電話機1および配信サーバ2の動作である。
【0103】
次に、配信サーバ2の辞書検索機能を利用する場合の携帯電話機1と配信サーバ2の動作について、図20、21を参照し説明する。
まず、携帯電話機1の利用者が、検索したいテキスト(例えば、英単語の“Duck”)を入力し、使用する辞書種類(ここでは、英和辞書とする)を指定して、これらの情報を含む検索要求を送信する(ステップS111)。
【0104】
このとき配信サーバ2は、携帯電話機1からの検索要求を受けるまで、ステップS211の判断を繰り返し待機しているが、携帯電話機1から上記検索要求を受けると、この検索要求に含まれる見出し語を検索キーとして、辞書データベース2bの英和辞書を用いて、指定された見出し語について検索をする(ステップS212)。
この間、携帯電話機1は、検索結果のデータ(検索結果情報)を受信するまで、ステップS112の判断を繰り返し待機している。
【0105】
配信サーバ2は、検索が完了すると、検索結果の意味情報を表すテキスト(“Duck”の訳である“あひる”)と、その読みの発音データと、見出し語(“Duck”)に関連する音声としてあひるの鳴き声の音声データと、さらに関連する画像としてあひるの画像の画像データを含む前述のデータ交換フォーマットを有する検索結果情報を携帯電話機1に返信する(ステップS213)。
【0106】
携帯電話機1は、配信サーバ2から上記検索結果情報を受信すると、ステップS112の判断で、Yesと判定して、ステップS113に移行し、このデータをRAM19に格納し記憶する。
この後、利用者による所定のキー操作がなされるまで、ステップS114の判断を繰り返し待機する。
ここで、利用者により所定のキー操作が成されたとする。すると、ステップ114の判断で、Yesと判定されステップS115に移る。
【0107】
CPU11は、ステップS115にて、配信サーバ2から受けた検索結果情報の内、利用者により指定された情報をRAM19から読み込み、その再生を実行する。検索結果情報に含まれ利用者により指定されたシーケンスデータは、対応する表示用シーケンサ21a、発音用シーケンサ16aに供給され、これらの制御により表示、音声出力がなされる。例えば、利用者が、英和辞書を使って“Duck”を検索した場合で、検索結果のテキストの表示を指定した場合には、テキストの“あひる”が表示部21bに表示され、その発音が指定された場合には、音声合成機能付音源16bにて音声合成によりその発音がなされる。また、関連する音声の再生が指定された場合には、音声合成機能付音源16bにて関連する音声として、あひるの鳴き声が再生され、関連する画像の再生が指定された場合には、表示部21bに関連する画像としてあひるの画像が表示される。また、利用者により、各データの同時再生が指定された場合には、発音用シーケンサ16a、表示用シーケンサ21aの制御により前述のようにそれぞれのデータ(テキスト、第1,第2の発音データ、画像データ)が同期して再生される。
そして、指定された検索結果情報の再生が完了するまで、ステップS115、S116の処理を繰り返す。
なお、上記で説明した各動作フローは一例であり、本発明は、上記の処理の流れに限定されるものではない。
【0108】
以上、この発明の実施形態を、図面を参照して詳述してきたが、この発明の具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の構成等も含まれる。例えば、配信サーバ2の辞書データベース2bの内容を携帯電話機1に設け、翻訳機能と辞書検索機能を携帯電話機1に設ける構成としてもよい。この場合、携帯電話機1は、翻訳または辞書検索を行う場合、配信サーバ2との通信を行う必要がなくなる。
【0109】
【発明の効果】
以上、詳細に説明したように、本発明によれば、翻訳結果は、音声として発音されるので、利用者は、翻訳結果を聴覚により認識することができる。また、翻訳手段から返信される発音データは、フォルマントパラメータを示すものであって、当該携帯端末装置外の装置から発音データの返信を受ける場合には、従来技術のように、音声信号が返信される場合のような伝送容量を必要としない。
また、本発明によれば、翻訳結果を表すテキストが当該携帯端末装置に備わる表示手段に表示されるので、利用者は、翻訳結果を視覚によっても認識することができる。
【0110】
また、本発明によれば、見出し語情報を検索キーとして検索された意味情報は、音声として発音され、利用者は、この意味情報を聴覚により認識することができる。また、辞書データベースから返信される検索結果情報は、フォルマントパラメータを示すものであり、当該携帯端末装置外から検索結果情報の返信を受ける場合には、必要とする伝送容量が少なくて済む。
また、本発明によれば、利用者は、検索結果の意味情報のみならず関連する画像も見ることができる。さらに、発音手段により、意味情報を表すテキストの音声のみならず、見出し語に関連した音も発音されるので、利用者は、検索キーである見出し語の意味のみならず関連した豊富な情報を得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である携帯電話機と、この携帯電話機と通信網を介して接続する配信サーバとからなるシステムの概略構成を示す図である。
【図2】辞書データベースに格納される辞書の内容例を示す図である。
【図3】各シーケンスデータにおけるイベント・データとデュレーション・データとの関係を説明する図である。
【図4】SMAFの概念を説明するための図である。
【図5】HVトラックチャンクをデータチャンクの一つとして含むSMAFファイルの例を示す図である。
【図6】(a)TSeq型、(b)PSeq型、及び、(c)FSeq型の3通りのフォーマットタイプの違いについて説明するための図である。
【図7】音声再生シーケンスデータのデータ交換フォーマットの一実施例を示す図である。
【図8】(a)はシーケンスデータの構成、(b)はデュレーションとゲートタイムの関係を示す図である。
【図9】韻律制御情報について説明するための図である。
【図10】ゲートタイムとディレイタイムの関係を示す図である。
【図11】フォルマントのレベルと中心周波数を示す図である。
【図12】FSeqデータチャンクのボディ部のデータを示す図である。
【図13】HV−Scriptにおける各韻律記号(代表例)の意味を説明する図である。
【図14】フォルマントを特徴づける各パラメータを示す図である。
【図15】同実施形態の携帯電話機の概略構成を示すブロック図である。
【図16】音声合成ユニットの構成図である。
【図17】フォルマント生成部の構成図である。
【図18】翻訳を行う場合の携帯電話機(携帯端末装置)の動作を説明するフローチャートである。
【図19】翻訳を行う場合の翻訳サーバの動作を説明するフローチャートである。
【図20】辞書機能を利用する場合の携帯電話機(携帯端末装置)の動作を説明するフローチャートである。
【図21】辞書機能を利用する場合の配信サーバの動作を説明するフローチャートである。
【符号の説明】
1…携帯電話機(携帯端末装置)、11…CPU(制御手段)、12…通信部、12a…アンテナ、13…音声処理部、14,17…スピーカ、15…マイク、16a…発音用シーケンサ、16b…音声合成機能付音源(音声合成デバイス)、18…操作部、19…RAM、20…ROM、21a…表示用シーケンサ、21b…表示部、22…バイブレータ、30…バス、2…配信サーバ(翻訳手段)、2a…制御部、2b…辞書データベース、40a〜40m…フォルマント生成部、41…波形発生器、42…ノイズ発生器、43…加算器、44…増幅器、50…ピッチ生成部、60…ミキシング部

Claims (8)

  1. 入力されたテキストを他の言語に翻訳する翻訳手段に対して、翻訳対象のテキストを送信して翻訳させ、該翻訳手段にその翻訳結果の発音の仕方を表す発音データを含んで構成される翻訳結果情報を返信するように制御する制御手段と、
    前記発音データを入力することによって該発音データに基づく音声を発音する発音手段と、を有する携帯端末装置であって、
    前記発音データは、フォルマントパラメータを示すデータである
    ことを特徴とする携帯端末装置。
  2. 前記翻訳結果情報は、翻訳結果を表すテキストを含んで構成され、該テキストは、該携帯端末装置に備わる表示手段に表示される
    ことを特徴とする請求項1に記載の携帯端末装置。
  3. 前記翻訳手段は、前記携帯端末装置が無線通信網を介して接続する外部のサーバ装置に設けられる
    ことを特徴とする請求項1または請求項2に記載の携帯端末装置。
  4. 前記翻訳手段は、前記携帯端末装置内部に設けられる
    ことを特徴とする請求項1または請求項2に記載の携帯端末装置。
  5. 所定の発音データを入力することによって音声を発音する発音手段と、
    辞書データベースに対して見出し語情報を検索キーとして、対応する意味情報を検索させ、その意味情報の発音の仕方を表す第1の発音データを含んで構成される検索結果情報を返信するように制御する制御手段と、を有する携帯端末装置であって、
    前記第1の発音データは、フォルマントパラメータを示すデータである
    ことを特徴とする携帯端末装置。
  6. 表示手段をさらに有し、
    前記検索結果情報は、前記意味情報を表すテキストと、その検索キーの見出し語に関連した画像を表す画像データと、その見出し語に関連した音を表す第2の発音データを含んで構成され、前記テキストと画像を前記表示手段に表示する
    ことを特徴とする請求項5に記載の携帯端末装置。
  7. 前記発音データは、翻訳結果または検索結果を発声する文字を示す発声文字列と、該発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成され、前記発声文字列と前記韻律記号はテキストで記述される
    ことを特徴とする請求項1から請求項4のいずれかに記載の携帯端末装置。
  8. 前記第1の発音データは、翻訳結果または検索結果を発声する文字を示す発声文字列と、該発声文字列を音声化する際の発音の抑揚等を規定する韻律記号を含んで構成され、前記発声文字列と前記韻律記号はテキストで記述される
    ことを特徴とする請求項5または請求項6に記載の携帯端末装置。
JP2003087721A 2003-03-27 2003-03-27 携帯端末装置 Pending JP2004294816A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003087721A JP2004294816A (ja) 2003-03-27 2003-03-27 携帯端末装置
KR20040020474A KR100634142B1 (ko) 2003-03-27 2004-03-25 휴대 단말 장치
CNB200410031786XA CN100359907C (zh) 2003-03-27 2004-03-25 便携式终端装置
HK04109268A HK1066365A1 (en) 2003-03-27 2004-11-24 Portable terminal device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003087721A JP2004294816A (ja) 2003-03-27 2003-03-27 携帯端末装置

Publications (1)

Publication Number Publication Date
JP2004294816A true JP2004294816A (ja) 2004-10-21

Family

ID=33402042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003087721A Pending JP2004294816A (ja) 2003-03-27 2003-03-27 携帯端末装置

Country Status (4)

Country Link
JP (1) JP2004294816A (ja)
KR (1) KR100634142B1 (ja)
CN (1) CN100359907C (ja)
HK (1) HK1066365A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002524A (ja) * 2009-06-17 2011-01-06 Dainippon Printing Co Ltd 音素符号補正装置、音素符号データベース、および音声合成装置
JP2011002529A (ja) * 2009-06-17 2011-01-06 Dainippon Printing Co Ltd 音素符号変換装置、音素符号データベース、および音声合成装置
JP2011039088A (ja) * 2009-08-06 2011-02-24 Dainippon Printing Co Ltd 音素符号変換装置、音素符号データベース、および音声合成装置
JP2011090218A (ja) * 2009-10-23 2011-05-06 Dainippon Printing Co Ltd 音素符号変換装置、音素符号データベース、および音声合成装置
CN106154819A (zh) * 2016-06-15 2016-11-23 金钱象网络科技(北京)有限公司 一种可翻译智能手表

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101052069B (zh) * 2006-04-07 2010-09-08 英华达(南京)科技有限公司 语音通话的翻译方法
CN101207500B (zh) * 2006-12-21 2010-09-01 中兴通讯股份有限公司 一种音频数据变音方法
CN101594407B (zh) * 2008-05-26 2012-08-15 华为技术有限公司 信息交互的方法、装置和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
JP3059398B2 (ja) * 1997-03-04 2000-07-04 株式会社エイ・ティ・アール音声翻訳通信研究所 自動通訳装置
CN100352291C (zh) * 1999-12-22 2007-11-28 英华达(上海)电子有限公司 移动通信中的即时翻译系统
JP4135307B2 (ja) * 2000-10-17 2008-08-20 株式会社日立製作所 音声通訳サービス方法および音声通訳サーバ
JP3732793B2 (ja) * 2001-03-26 2006-01-11 株式会社東芝 音声合成方法、音声合成装置及び記録媒体
KR100406901B1 (ko) * 2001-07-20 2003-12-03 최석천 휴대폰을 이용한 번역장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002524A (ja) * 2009-06-17 2011-01-06 Dainippon Printing Co Ltd 音素符号補正装置、音素符号データベース、および音声合成装置
JP2011002529A (ja) * 2009-06-17 2011-01-06 Dainippon Printing Co Ltd 音素符号変換装置、音素符号データベース、および音声合成装置
JP2011039088A (ja) * 2009-08-06 2011-02-24 Dainippon Printing Co Ltd 音素符号変換装置、音素符号データベース、および音声合成装置
JP2011090218A (ja) * 2009-10-23 2011-05-06 Dainippon Printing Co Ltd 音素符号変換装置、音素符号データベース、および音声合成装置
CN106154819A (zh) * 2016-06-15 2016-11-23 金钱象网络科技(北京)有限公司 一种可翻译智能手表

Also Published As

Publication number Publication date
CN1534955A (zh) 2004-10-06
KR20040084855A (ko) 2004-10-06
CN100359907C (zh) 2008-01-02
KR100634142B1 (ko) 2006-10-16
HK1066365A1 (en) 2005-03-18

Similar Documents

Publication Publication Date Title
JP3938015B2 (ja) 音声再生装置
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
JP2002221980A (ja) テキスト音声変換装置
JP2021099461A (ja) 電子楽器、方法及びプログラム
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP2022071098A (ja) 電子楽器、方法及びプログラム
CN114155823A (zh) 电子乐器、方法及程序
CN114155822A (zh) 电子乐器、方法及程序
JP2021099462A (ja) 電子楽器、方法及びプログラム
Macon et al. Concatenation-based midi-to-singing voice synthesis
KR100634142B1 (ko) 휴대 단말 장치
JP6474518B1 (ja) 簡易操作声質変換システム
JP2005208394A (ja) 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
JP3576848B2 (ja) 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体
KR100612780B1 (ko) 음성 및 악곡 재생 장치
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
KR100650071B1 (ko) 악음·음성 재생 장치 및 악음·음성 재생 방법
KR100994340B1 (ko) 문자음성합성을 이용한 음악 컨텐츠 제작장치
JP4244706B2 (ja) 音声再生装置
JP2006053389A (ja) 音声合成プログラム及び方法
JP5845857B2 (ja) パラメータ抽出装置、音声合成システム
JP2004341338A (ja) カラオケシステム、カラオケ再生方法および車両
JP2000172287A (ja) 音声合成装置および記憶媒体
JP2004157238A (ja) 携帯端末
JP2004294795A (ja) 楽音合成制御データ、該データを記録した記録媒体、データ作成装置、プログラム及び楽音合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070727

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070828