JP2001282281A - 記憶媒体、配信方法及び音声出力装置 - Google Patents

記憶媒体、配信方法及び音声出力装置

Info

Publication number
JP2001282281A
JP2001282281A JP2000089862A JP2000089862A JP2001282281A JP 2001282281 A JP2001282281 A JP 2001282281A JP 2000089862 A JP2000089862 A JP 2000089862A JP 2000089862 A JP2000089862 A JP 2000089862A JP 2001282281 A JP2001282281 A JP 2001282281A
Authority
JP
Japan
Prior art keywords
voice
information
intermediate language
font
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000089862A
Other languages
English (en)
Inventor
Ritsu Tanagi
律 棚木
Motoo Kawabata
基夫 川端
Masami Akamine
政巳 赤嶺
Shigenobu Seto
重宣 瀬戸
Takehiko Kagoshima
岳彦 篭嶋
Yoichi Akashi
陽一 赤司
Kunio Maikuma
邦夫 毎熊
Fumiko Takeuchi
文子 竹内
Hiroshi Iwasaki
博 岩崎
Nobuhiro Yamazaki
悦宏 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000089862A priority Critical patent/JP2001282281A/ja
Priority to PCT/JP2000/006546 priority patent/WO2001073752A1/ja
Publication of JP2001282281A publication Critical patent/JP2001282281A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 文字情報の種類によらず、ユーザーの好みの
人の声色に近づけた合成音声にして再生出力することが
できる音声合成技術を提供する。 【解決手段】 文字情報40と中間言語情報20を用い
て一般的なアクセント及びイントネーションの中間言語
を作成し、さらにこの中間言語に対してボイスフォント
30を用いて特定の人物の声色に似せた音声50に合成
して再生出力する。これにより、ボイスフォント30の
種類をユーザーの好みにあったものにし、合成音声の再
生出力にエンターテイメント性を付与する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、記憶媒体、配信方
法及び音声出力装置に関する。
【0002】
【従来の技術】従来より、書籍文化は紙に印刷された活
字を人が目で読むというスタイルが長い間続けられてき
たが、近年、電子機器を利用してこの書籍文化を模倣す
るものとして、例えば米国等で普及しているe−BOO
K(商品名)のような書籍電子機器が登場してきてい
る。
【0003】この書籍電子機器は、単純に電子機器のデ
ィスプレイ上に表した活字を読むというものであり、そ
の活字は、電子機器の中のメモリ領域や外部から供給さ
れる記録媒体に、活字のままにテキストデータとして、
あるいは活字イメージの画像データとして格納されてい
る。
【0004】また、人が朗読した書籍内容をカセットテ
ープやCDのような記録媒体に格納した電子パッケージ
書籍を、書籍朗読するための電子機器にかけて聞くよう
な手法も、既に実用化されている。
【0005】また、コンピュータに自然発声言語をマイ
クから入力し、これを音声認識ソフトによって文字情報
に変換し、記憶装置に記憶していき、認識結果をいわゆ
る読上げソフトによって音声合成し、再生出力してユー
ザに確認させるようにしたアプリケーションソフトも知
られている。そしてこの読上げソフトは単独でも利用す
ることができ、コンピュータに記憶されている文字情報
を音声合成して比較的自然なアクセント、イントネーシ
ョンにして音声出力できるようになっている。
【0006】
【発明が解決しようとする課題】しかしながら、従来技
術には次のような問題点があった。
【0007】(1)ディスプレイ上に活字を表示させる
書籍電子機器を用い、ディスプレイ上で集中して活字を
長時間読み続けるには、現行のディスプレイでは未だ印
刷された活字に比して、手軽さ、鮮明度、目に対する負
担の度合い等の点で劣っているため、ユーザーに多くの
負担を強いることになる。解像度を上げるために、紙の
上の活字イメージを画像データとして直接取り込む方法
も行われているが、この場合は、ディスプレイの解像度
の向上も必要であり、かつメモリ領域も多く必要とし、
紙の上の書籍文化の手軽さから懸け離れてくるために現
実的ではない、という問題点があった。
【0008】(2)電子パッケージ書籍を利用する場合
では、紙の上の活字を読む書籍文化とは別の文化圏、つ
まりラジオドラマのような範疇のものと考えられ、した
がって、紙の上の活字を読む書籍文化に置き換わる、あ
るいは競合するといった分野ではない。また、朗読した
書籍を記録媒体に格納すると、音楽データと同様にデー
タ量が活字データよりも桁違いに膨大なものとなる。そ
のため、メモリ等の記憶媒体に記憶可能な時間が少なく
なり、かつ人が一定時間内に獲得する情報量が、紙の上
の活字を読む場合に比べて格段に少なくなり、やはり紙
の上の書籍文化の手軽さから懸け離れ現実的ではない、
という問題点があった。
【0009】(3)さらに、読上げソフトは、文字情報
に対して単語毎のアクセント、イントネーション、さら
には一連の語群に対するリズム、イントネーションなど
を特徴づける情報を備えており、また複数種の男性の声
や女性の声、さらにはしゃべり方の速さ、ピッチ、イン
トネーション、高さなどをある程度調整する機能を備え
ているが、なお、棒読み的であり、人の自然な声を聞い
ているものとはほど遠いものであった。
【0010】本発明は、このような従来技術の問題点を
解決するためになされたもので、特に文字情報の種類に
よらず、ユーザーの好みの人の声色に近づけた合成音声
にして再生出力することができる音声合成技術をもとに
したサービスを提供することを目的とする。
【0011】本発明はまた、ユーザーの好みの人のボイ
スフォントを選択して入手可能にし、文字情報の音声出
力にエンターテイメント性を付与できるボイスフォント
配信技術を提供することを目的とする。
【0012】
【課題を解決するための手段】請求項1の発明は、記憶
媒体において、音声合成により出力される音声に対し
て、特定の声色を付与する要素に関する情報についての
み、記憶したことを特徴とする。
【0013】請求項2の発明は、請求項1に記載の記憶
媒体において、前記情報は、書き換え可能となっている
ことを特徴とする。
【0014】請求項3の発明は、配信方法において、音
声合成により出力される音声に対して、特定の声色を付
与する要素に関する情報について、情報ネットワークを
通じて配信を行なうことを特徴とする。
【0015】請求項4の発明は、請求項3に記載の配信
方法において、前記情報は、暗号化して配信を行なうこ
とを特徴とする。
【0016】請求項5の発明は、請求項3に記載の配信
方法において、前記情報は、複数種の声色に係る要素に
関するものであることを特徴とする。
【0017】請求項6の発明は、請求項3に記載の配信
方法において、前記配信は、通信キャリアを通じて行な
うことを特徴とする。
【0018】請求項7の発明は、請求項3に記載の配信
方法において、前記配信は、有料で行なわれ前記情報ネ
ットワークを通じたクレジットカードによる決済で料金
が支払われることを特徴とする。
【0019】請求項8の発明は、請求項3に記載の配信
方法において、前記音声は、所定の文字情報に基づくも
のであり、この文字情報は文芸書、目覚ましメッセー
ジ、手紙、ゲーム中の台詞、日記、電子メール、映像中
の音声、移動体電話又は据置電話の応答メッセージ、点
字の読取り情報のいずれかであることを特徴とする。
【0020】請求項9の発明は、音声出力装置におい
て、所定の文字情報に関する文字情報記憶手段と、前記
文字情報について付与する発声速度やリズムに関する中
間言語情報記憶手段と、所定の話者に発声させたときに
この話者に係る特有の声色を付与する要素に関するボイ
スフォント記憶手段と、前記文字情報記憶手段に記憶さ
れている文字情報について、前記中間言語情報記憶手段
に記憶されている中間言語情報を用いて発声速度やリズ
ムに係る中間言語を形成し、この中間言語に対して前記
ボイスフォント記憶手段に記憶されているボイスフォン
トを用いて特定の声色を合成音声にして出力する音声合
成手段とを備えることを特徴とする。
【0021】請求項10の発明は、請求項9に記載の音
声出力装置において、前記ボイスフォント記憶手段は、
複数種のボイスフォントを記憶し、前記音声合成手段
は、これら複数種のボイスフォントの中から選択された
ボイスフォントを用いて、前記中間言語にそれぞれ異な
った声色を付けて合成し出力することを特徴とする。
【0022】これらのような記憶媒体・配信方法・音声
出力装置を用いることによって、ボイスフォントの種類
をユーザーの好みに合ったもの、例えば、有名な俳優、
タレント、声優、キャスター、アナウンサー等のものに
選択することにより、文字情報をそれら話者に特有の声
色に似せた音声にして出力することが可能となり、単な
る音声合成ではなく、合成される音声にユーザーの好み
を反映させエンターテイメント性を付与できる。
【0023】また、種々のボイスフォントを利用してイ
ンターネットや移動体ネットワークに代表される情報ネ
ットワークを通じて配信し、資格者に有料で配信するサ
ービスを実現することができる。
【0024】そして、ボイスフォントそのものを文字情
報と同じように、そのときの好みに応じて何度も書き換
え可能なアプリケーションソフトとして商品化すること
ができる。
【0025】
【発明の実施の形態】以下、本発明の実施の形態を図に
基づいて詳説する。
【0026】まず図1に基づき、ボイスフォントと中間
言語について説明する。人にある文章を読ませて、その
自然音声を解析すれば、話す速度と音声が有意な言葉と
して聞き取れる要素であるほぼ万人に一般的なアクセン
トやイントネーション・リズム(以下の説明では、標準
語アクセントについて説明するが、方言であってもよ
い)のような規則性のある言語要素(「中間言語情報」
と称する)及び特定の声色(人間、動物その他)を特徴
づける要素(特殊音声パラメータ:ここでは「ボイスフ
ォント」と称する)とを抽出することができる。
【0027】ここで中間言語情報とは、表音文字列を表
現するもので、具体例としては、読みを表すカタカナ表
記、アクセントを表す制御機能、イントネーションを表
す制御機能、ポーズを表す制御機能を導入して表音文字
列を表現するものである。そして、ボイスフォントと
は、同じ文章を同じ中間言語情報に基づいて朗読したと
しても、声質のパラメータによりそれが誰によって読ま
れているのかを識別できる声色を表現するものである。
そしてこのボイスフォントは、特に有名な俳優、タレン
ト、声優、タレント、キャスター、アナウンサー等の声
色であれば、例えば、書籍の朗読であってもその音声を
ユーザーの好みのものに選択、変更できれるようにすれ
ば、それ自体が流通価値のある商品となる。
【0028】そこで、例えば、有名な俳優、タレント、
声優、タレント、キャスター、アナウンサー等に個々に
特定の文章を読上げさせる音声収録を行ってデータベー
ス10に登録する。そして各人の音声を解析することに
より、話す速度やリズムのパラメータから上述した中間
言語情報20を抽出して記憶し、また声質のパラメータ
を抽出して各人のボイスフォント情報30を記憶する。
【0029】つまり、ある文字情報、例えば、文章(原
文)40を話者に読み上げさせて出力させる場合、次の
ように処理する。まず文章情報40に対して文解析を行
い、中間言語情報20を適用してアクセント、イントネ
ーション、リズムを文解析された文に付けると共に、特
定話者Aのボイスフォント情報30を用いて声色を付与
して音声合成を行って合成音声50を生成し、出力する
のである。これにより、最終的に元の文章40を収録話
者の声色に似せた合成音声50で読上げさせることがで
きることになる。
【0030】上記において、文字情報40とこれを文解
析してアクセント、イントネーション、リズム等の中間
言語情報20とをひとくくりにして商品とし、これを記
憶させた記録媒体を流通させる方法、あるいはインター
ネットを含む情報ネットワークを通じて配信し、ユーザ
ー端末の記憶装置にダウンロードさせる方法によって流
通させる。またボイスフォント30についても、これを
記憶させた記録媒体を流通させる方法、あるいはインタ
ーネットや移動体通信ネットワークのような公開情報ネ
ットワークを通じて配信し、ユーザー端末の記憶装置に
ダウンロードさせる方法によって流通させる。この流通
方法については、後述する。
【0031】そしてユーザーは、図1に示した処理機能
をアプリケーションソフトとして内蔵したコンピュータ
100によって再生し、あるいは一例として図2に示す
ような再生用電子機器200によって再生して楽しむこ
とができる。
【0032】この再生用電子機器200について説明す
る。この再生用電子機器200は書籍朗読用のものであ
り、本体210はポータブルな形状をなし、カード型若
しくはスティック型の記録媒体である半導体メディアカ
ード220A,Bが着脱自在に装着されるように構成さ
れている。さらに、機器本体210内の電子回路部に
は、復号部211、音声合成処理・合成音出力部21
2、スピーカ(又はイヤホン)213、ディスプレイ駆
動部214、液晶ディスプレイ215、及び制御部21
6が設けられている。制御部216は、例えばマイクロ
プロセッサで構成され、半導体メディアカード220
A,Bの格納データを読み出す制御や上記各要素間のタ
イミング調整等の機器全体の制御を司る。また、図示は
しないが、制御回路216に対して、ユーザーの操作に
応じた各種の指示信号を出力する操作ボタン及びそのイ
ンターフェイス回路も設けられ、上記の各要素の駆動は
内蔵バッテリによって行われる。
【0033】ここで、半導体メディアカード220は、
不揮発性のメモリチップと、このメモリチップを支持す
る薄型カード状若しくはスティック状の基体で構成され
ている。この半導体メディアカード220の記憶領域2
21Aには、活字データである書籍コンテンツデータD
と中間言語データSとを共に暗号化して生成した暗号化
コンテンツデータDS(ka)が格納されており、記憶
領域221Bには、ユーザーが入手した好みのボイスフ
ォントデータVを暗号化して生成した暗号化ボイスフォ
ントデータV(ka)が格納されている。
【0034】実際に、本電子機器200を動作させるた
めには、半導体メディアカード220を機器本体210
に差し込み、暗号化コンテンツデータDS(ka)と暗
号化ボイスフォントデータV(ka)とを機器本体21
0内に取り込んで処理することになる。すなわち、この
半導体メディアカード220から読み出された暗号化コ
ンテンツデータDS(ka)は復号部211で復号され
て、元の書籍コンテンツデータDとそれに対応した中間
言語データSが得られる。また半導体メディアカード2
20から読み出された暗号化ボイスフォントV(ka)
も復号部211で復号されてボイスフォントデータVが
得られる。そして音声合成処理・合成音出力部212で
は、復号された書籍コンテンツデータDを受け取って、
このデータDに対して中間言語データSを適用して一般
的なアクセント、イントネーション、リズムを備えた中
間音声情報とし、さらに、ボイスフォントVによりある
人物の声色を付けた音声となるように音声合成を行い、
さらにスピーカ213を駆動する。これによって、スピ
ーカ213からは、書籍内容を活字化した活字データD
が、ユーザーの選択した人物の声色の合成音声として出
力される。
【0035】一方、復号された書籍コンテンツデータD
は、ディスプレイ駆動部214にも供給され、このディ
スプレイ駆動部214が液晶ディスプレイ215を駆動
して、書籍コンテンツデータDの活字表示を行う。具体
的には、液晶ディスプレイ215には、合成音声と同期
した活字を所定字数単位或いは書籍ページ単位で表示す
るようにする。また、ディスプレイ215上での活字表
示と合成音の同期は、例えばページ単位で行い、そのペ
ージの朗読が終わったら次のページの表示を行うといっ
た動作を繰り返す。
【0036】次に、暗号化方式及び復号方式を説明す
る。著作権上の違法なコピーを防止するコピーガードと
して、上述したように半導体メディアカード220の記
憶領域221Aには、活字タイプの書籍コンテンツデー
タDと中間言語データSを暗号化して生成した暗号化コ
ンテンツデータDS(ka)が格納され、たま記憶領域
221Bには、ボイスフォントデータVを暗号化して生
成した暗号化ボイスフォントV(ka)が格納されてい
る。なお、電子機器200に複数スロットを設け、暗号
化コンテンツデータDS(ka)が格納された半導体メ
ディアカードと暗号化ボイスフォントV(ka)が格納
された半導体メディアカードとをそれぞれのスロットに
装着する形式にしてもよい。
【0037】図3は、暗号化方式の一例を示している。
半導体メディアカード220は、暗号化コンテンツデー
タDS(ka)を記憶する記憶領域221A、暗号化ボ
イスフォントデータV(ka)を記憶する記憶領域22
1Bのほかに、識別番号A(メディアユニークID:
A)を記憶する読み出し専用領域222を有している。
【0038】まず、半導体メディアカード220のこの
専用領域222から識別番号Aを読み出し、識別番号A
をキー或いはキーの一部とするキー化を行って暗号キー
(ka)を生成する(図3のT1)。そして、この暗号
キー(ka)を用いて、オリジナルの書籍コンテンツデ
ータDと中間言語データSを暗号化することで(図3の
T2)、暗号化されたコンテンツデータDS(ka)を
生成し、この暗号化コンテンツデータDS(ka)を半
導体メディアカードカード220の記憶領域221Aに
格納する(図3のT3)。ボイスフォントデータVにつ
いても、コンテンツデータDSと同様に暗号化して記憶
領域221Bに格納する。なお、ボイスフォントデータ
VはコンテンツデータDSと別個に流通させるので、ボ
イスフォントデータVについては別の識別番号Bを登録
し、この識別番号Bをキー或いはキーの一部とするキー
化を行って暗号キー(kb)を生成する方が実用的であ
る。ただし、ここでの説明では、同じ識別番号Aにより
生成した暗号キー(ka)を採用した場合を説明する。
【0039】このようにして半導体メディアカード22
0に格納された暗号化コンテンツデータDS(ka)、
そしてボイスフォントデータV(ka)を機器本体21
0で再生する方法について、以下、図4を用いて説明す
る。
【0040】図4は、復号方式の一例を示す図である。
まず、制御部216は、機器本体210に装着された半
導体メディアカード220の識別番号Aを読み込み、こ
の識別番号Aをキー或いはキーの一部とするキー化を行
って暗号キー(ka)を生成する(図4のT21)。復
号部211は、この暗号キー(ka)を用いて、識別番
号Aを有する半導体メディアカード220の記憶領域2
21Aから読み出された暗号化コンテンツデータDS
(ka)を復号し(図4のT22,T23)、これによ
って、オリジナルの書籍コンテンツデータDと中間言語
データSを取り出す。同様にしてボイスフォントデータ
Vも復号して取り出す。
【0041】ここで、識別番号Aを持つ半導体メディア
カード中の暗号化コンテンツデータDS(ka)が、識
別番号Cを持つ半導体メディアカードにコピーされると
いう違法コピーが行われたとする。この場合は、識別番
号Cを持つ半導体メディアカードには暗号化コンテンツ
データDS(ka)が格納され、この半導体メディアカ
ードを機器本体210に装着して、当該半導体メディア
カード中の暗号化コンテンツデータDS(ka)を再生
しようとしても、暗号化コンテンツデータDS(ka)
は当該機器本体210内で暗号化キー(kc)を用いて
は復号されないため、再生することができない。本機器
本体210内において、識別番号Cを持つ半導体メディ
アカードが復号できるのは、正しく暗号化されたコンテ
ンツデータDS(kc)が格納されている場合のみであ
る。
【0042】このような再生用電子機器200は、活字
データの記録媒体としてメモリカードタイプのものであ
る半導体メディアカードを使用しているので、記録媒体
自体が小型軽量であるばかりでなく、磁気や光ディスク
方式と比べて駆動部分がないために、機器本体210が
小型化且つ軽量化される。したがって、ユーザーは、イ
ヤホンなどで音声合成音を聞きながら、液晶ディスプレ
イ215上に表示された活字を目で追いかけることがで
きるため、音のみで聞いて書籍内容を理解するよりも理
解を容易にし且つ深めることが可能になる。さらに、合
成音声だけで携帯的に使うことも、完全に本のようにデ
ィスプレイ215上の活字だけを読むように使うことも
可能に構成されており、使い方はその時の状況とユーザ
ーの好みによって使い分けることができる。
【0043】そして本実施の形態の場合、文芸書その他
の書籍をボイスフォントによってユーザーの好みの人物
の声色にして朗読させるので、エンターテイメント性が
一層向上する。
【0044】なお、暗号化を不要とするケースも考えら
れるが、その場合の再生用電子機器200は、機器本体
210内の復号部211を省略することになる。
【0045】また、本実施形態の変形例として、書籍の
中のコミック・漫画・劇画と呼ばれるジャンルを取り扱
う場合、書籍コンテンツデータDは、活字データではな
く、イメージデータとなり、中間言語データSはコミッ
ク・漫画・劇画の中に書かれた活字データを取り出し、
それを基に音声ルールを付加したものとなる。
【0046】イメージデータは活字データに比べて、半
導体メディアカード220に必要とされるメモリ容量が
白黒のイメージデータとしても5倍以上は必要となる
が、書籍の中のコミック・漫画・劇画と呼ばれるジャン
ルもカバーできるようになる。
【0047】なお、上記では再生用電子機器200につ
いて説明したが、同じコンテンツデータ、ボイスフォン
トを格納している半導体メディアカードにアクセス可能
なスロットを備えたマルチメディア対応のコンピュータ
(デスクトップタイプ、ノートタイプ、さらに小形のP
DA)においても同様の機能を発揮させることができ
る。
【0048】次に、上記のコンピュータや再生用電子機
器200で書籍その他の文芸書のコンテンツデータD
S、そしてボイスフォントVの配信方法について説明す
る。図5は、コンテンツデータDS、そしてボイスフォ
ントデータVの配信におけるライセンス関係の一例を示
している。文芸著作物には著作権が絡み、また当該中間
言語データ及びボイスフォントデータに関連する技術の
実施権のライセンスも絡んでくる。そこで、コンテンツ
データDS、そしてボイスフォントデータVの作成に関
連する技術を所有するライセンサーL1は、書籍メーカ
ーL2から文芸著作物のディジタル化権を買い上げる。
そして、著作物の文字情報(書籍コンテンツデータ)に
対する中間言語データを作成する必要があり、これを中
間言語メーカーL3にライセンスする。中間言語メーカ
ーL3はこれを外部のソフトメーカーL4に外注し、或
いは社内において書籍コンテンツデータDと中間言語デ
ータSとを統合したコンテンツデータDSを作成する。
【0049】同様に、ライセンサーL1は、俳優、タレ
ント、歌手、その他の人物L5から音声データを収録
し、ボイスフォントデータを作成するためのデジタル化
権の契約を結ぶ。そしてボイスフォントメーカーL6に
ボイスフォント化をライセンスする。ボイスフォントメ
ーカーL6は、自社内で或いはソフトメーカーL4に外
注してボイスフォントデータVを作成する。
【0050】なお、ライセンサーL1は中間言語メーカ
ーL3に対して中間言語作成技術のライセンスを与え、
中間言語メーカーL3側で個別に書籍メーカーL2と文
芸著作物に対するデジタル化権を取得させるようにして
もよい。またボイスフォントメーカーL6に対してもボ
イスフォント作成技術のライセンスを与え、ボイスフォ
ントメーカーL6側で個別に特定の人物L5とボイスフ
ォント作成の契約を結ばせるようにしてもよい。
【0051】また中間言語メーカーL3とボイスフォン
トメーカーL6は同一であっても異なっていてもよい。
そして、これらのメーカーL3,L6は以下で説明する
通信キャリア又はプロバイダとして、インターネット上
での配信、あるいは通信販売を行う。
【0052】次に、図6に基づいてコンテンツデータ及
びボイスフォントデータの配信(通信販売も含む)方法
について説明する。図6に示すように、書籍に代表され
るコンテンツプロバイダ300、そしてこれと同一或い
は別個の中間言語作成者(プロバイダ)302、またこ
れと同一或いは別個のボイスフォント作成者(プロバイ
ダ)301は通信キャリアを通じて、インターネットの
ような情報ネットワーク310上にe−ビジネスの販売
ショップ又はダウンロードサイトを展開する。
【0053】(1)ネットワークを通じた配信 コンテンツデータプロバイダ300であれば、ダウンロ
ードサイトを展開して、種々の暗号化コンテンツデータ
DS(ka)をアップロードしておき、ユーザーから所
定の購入手続を行わせ、条件、資格にかなったアクセス
に対してダウンロードさせ、ユーザー端末320のハー
ドディスク、半導体メディアカードなどに保存させる。
【0054】同様にボイスフォントプロバイダ301も
同様に、情報ネットワーク310上にダウンロードサイ
トを展開して、種々の暗号化ボイスフォントデータV
(ka)をアップロードしておき、ユーザーから所定の
購入手続によりダウンロードさせ、ユーザー端末320
のハードディスク、半導体メディアカードなどに保存さ
せる。
【0055】なお、これらの情報ネットワーク310を
通してのダウンロードによる対価は、簡便のために、通
常はユーザーが登録したクレジットカード会社からのこ
の情報ネットワーク310を通じた支払とする。
【0056】(2)ネットワークを通じた販売 プロバイダ301,302は情報ネットワーク310上
にe−ショップを展開しておく。そして暗号化コンテン
ツデータDS(ka)、暗号化ボイスフォントデータV
(ka)は半導体メディアカード、CD−ROM、FD
等の記録メディアに格納した商品として準備しておく。
【0057】そしてユーザーがユーザー端末320を通
じて通信販売の申し込みを行えば、申し込みのあったコ
ンテンツやボイスフォントの記録媒体を宅配業者を通じ
て配達する。この場合の対価の支払は、通常のe−ショ
ップ(インターネットショッピングやテレビショッピン
グなど)と同様、クレジット、代引払い、郵便振替等を
利用する。
【0058】なお、情報ネットワークを通じた電子的な
配信、また記録メディアを販売する場合のいずれであっ
ても、コピーガードのための暗号化したデータを配信
し、あるいは記録媒体に格納して販売することになる。
そのため、ユーザーは暗号化されたデータの復号のため
の暗号キーの取得が必要であるが、そのためには、申し
込みユーザー毎にパスワードを登録させておき、暗号化
の際にそのパスワードを利用して暗号化し、またパスワ
ードによって復号できる様式にするのが好ましい。
【0059】また再生用電子機器での使用を前提とする
場合、再生用電子機器毎に異なった暗号キーを割り付
け、コンテンツやボイスフォント購入の際にその暗号キ
ーを識別する番号をユーザーから送信させ、この番号を
上述したパスワードのように用いるようにしてもよい。
【0060】以上のコンテンツ及びボイスフォントのソ
フトウェア配信の課金システムは、図7のようにまとめ
ることができる。ライセンサー400は例えば、インタ
ーネットを利用する通信キャリア401に対しては課金
委託のライセンスを行い、また無線通信ネットワークを
利用する通信キャリア402に対しても同様のライセン
スを行う。なお、ここで通信キャリア401,402が
自ら若しくは外注にてコンテンツを制作する場合には、
ライセンサー400は不要となる。
【0061】通信キャリア401,402はユーザー4
10からの配信申し込みに対してコンテンツデータ、ボ
イスフォントデータを配信し、同時に対価の決済方法を
も取り決め、対価をクレジット会社のような決済業者4
03や無線通信事業者のような課金業者404から受け
る。そしてユーザー410は対価をこれらの決済業者4
03、課金業者404に支払う。
【0062】上述したように情報ネットワークを通じて
ソフトウェアを格納した記録メディアを販売する場合、
通信キャリア401,402は申し込みのあった記録メ
ディアを運送業者405に委託して宅配させることにな
る。この場合には、代引配送であれば、運送業者405
がユーザー410から代金を代理受領し、通信キャリア
401,402に対して代金精算することになる。
【0063】ユーザーが自身の好みのコンテンツデー
タ、そしてボイスフォントデータを取得すれば、これを
用いてコンテンツを再生することになる。この再生に
は、図1で示した機能を有するコンピュータ100ある
いは図2に示した再生用電子機器200を利用する。
【0064】再生形態は、図8に示すようなものであ
る。いま、ユーザー410は通信キャリア401又は4
02から書籍コンテンツと中間言語データから成るコン
テンツデータ500を取得し、また(A),(B),
(C)3種類のボイスフォント501A,501B,5
01Cを取得しているとする。なお、実際には暗号化さ
れているが、ここでは説明を省略する。
【0065】ユーザー410は、コンテンツ500を再
生する場合、ボイスフォント(A)501Aを選択して
再生するならば、コンテンツ500の文字情報が音声A
の声色で出力されるのを聴取できることになる。そして
ボイスフォント(B)501Bを選択すれば、同じ内容
のコンテンツ500を音声Bの声色で聴取することがで
き、さらにボイスフォント(C)501Cを選択すれ
ば、音声Cの声色で聴取できることになる。
【0066】このようにして、本発明の実施の形態によ
れば、小説や随筆のような文学書、漫画、劇画の類の文
芸書、さらに一般の文字情報を音読させて聴取させる場
合、同じ内容の文字情報であってもボイスフォントの選
択によりユーザーの好みの声色にして聴取させることが
できるのである。
【0067】なお、ボイスフォントの用途は上述した文
芸書その他の文字情報を音読する場合に限られるわけで
はなく、次のように広い用途に利用でき、点字であって
もその対象となり、福祉分野でも利用できる。
【0068】(1)目覚まし時計、またPDAその他の
電子機器でアラーム機能を有しているものにおいて、時
刻到来のメッセージをユーザーの好みの人物の声色の合
成音声にして出力させることができる。
【0069】(2)手紙、日記、電子メールのような文
字情報を読上げるソフトにおいて、その文字情報を好み
の人物の声色の合成音声にして読上げさせることができ
る。
【0070】(3)映像中の音声やコンピュータゲーム
中の台詞を、好みの人物の声色の合成音声にして出力さ
せることができる。
【0071】(4)移動体電話又は据置電話の自動応答
メッセージを、好みの人物の声色の合成音声にして出力
させることができる。
【0072】(5)点字情報を音声出力させる場合に
も、好みの人物の声色の合成音声にして出力させること
ができる。
【0073】さらに、ボイスフォントの配信方法につい
ては、多数のボイスフォントデータをキオスク端末に登
録しておき、ユーザーが自分用のメモリカードを用意し
てそのキオスク端末に挿入して有償で好みのボイスフォ
ントデータを選択してダウンロードさせる方法を採用す
ることもできる。
【0074】また、上記の実施の形態では暗号化技術を
必須のものとして説明したが、ボイスフォントの暗号化
は商業的に、無資格者の盗用を防止するために必要なも
のであり、不特定人に使用させることに支障がなけれ
ば、暗号化技術を採用する必要はない。また、コンテン
ツの内容に応じて暗号化技術を採用するようにしてもよ
い。
【0075】
【発明の効果】以上のように本発明の記憶媒体、配信方
法又は音声出力装置を用いることによって、ボイスフォ
ントの種類をユーザーの好みに合ったもの、例えば、有
名な俳優、タレント、声優、キャスター、アナウンサー
等のものに選択することにより、文字情報をそれら話者
に特有の声色に似せた音声にして出力することが可能と
なり、単なる音声合成ではなく、合成される音声にユー
ザーの好みを反映させエンターテイメント性を付与でき
る。
【0076】また、種々のボイスフォントを利用してイ
ンターネットや移動体ネットワークに代表される情報ネ
ットワークを通じて配信し、資格者に有料で配信するサ
ービスを実現することができる。
【0077】そして、ボイスフォントそのものを文字情
報と同じように、そのときの好みに応じて何度も書き換
え可能なアプリケーションソフトとして商品化すること
ができる。
【図面の簡単な説明】
【図1】本発明の1つの実施の形態におけるボイスフォ
ントの収録処理及びそれを利用するシステムの構成を示
すブロック図。
【図2】本発明の他の実施の形態における再生用電子機
器のブロック図。
【図3】上記の実施の形態におけるコンテンツ及びボイ
スフォントの暗号化処理を示すフロー図。
【図4】上記の実施の形態におけるコンテンツ及びボイ
スフォントの復号処理を示すフロー図。
【図5】本発明のさらに他の実施の形態における中間言
語データ、ボイスフォントデータのライセンス関係を示
す説明図。
【図6】上記の実施の形態におけるコンテンツデータ及
びボイスフォントデータのネットワークを通じた配信シ
ステムを示すブロック図。
【図7】上記の配信システムにおける課金関係を示すブ
ロック図。
【図8】上記の実施の形態における複数のボイスフォン
トの利用形態を示すフロー図。
【符号の説明】
10 音声データベース 20 中間言語情報 30 ボイスフォント 40 文章 50 合成音声 100 コンピュータ 110 文解析処理部 120 中間言語情報記憶部 130 イントネーション・リズム生成部 140 音声合成処理部 150 ボイスフォント記憶部 200 再生用電子機器 210 本体 211 復号部 212 音声合成処理・合成音出力部 213 スピーカ 214 ディスプレイ駆動部 215 ディスプレイ 216 制御部 220 半導体メディアカード 221A 記憶領域 221B 記憶領域 222 識別番号A 300 コンテンツプロバイダ 301 ボイスフォントプロバイダ 302 中間言語プロバイダ 310 情報ネットワーク 320 ユーザー端末
───────────────────────────────────────────────────── フロントページの続き (72)発明者 赤嶺 政巳 神奈川県川崎市幸区小向東芝町1 株式会 社東芝研究開発センター内 (72)発明者 瀬戸 重宣 神奈川県川崎市幸区小向東芝町1 株式会 社東芝研究開発センター内 (72)発明者 篭嶋 岳彦 神奈川県川崎市幸区小向東芝町1 株式会 社東芝研究開発センター内 (72)発明者 赤司 陽一 東京都港区芝浦一丁目1番1号 株式会社 東芝本社事務所内 (72)発明者 毎熊 邦夫 東京都港区芝浦一丁目1番1号 株式会社 東芝本社事務所内 (72)発明者 竹内 文子 東京都港区芝浦一丁目1番1号 株式会社 東芝本社事務所内 (72)発明者 岩崎 博 東京都港区芝浦一丁目1番1号 株式会社 東芝本社事務所内 (72)発明者 山崎 悦宏 東京都港区芝浦一丁目1番1号 株式会社 東芝本社事務所内 Fターム(参考) 5C064 BA01 BB01 BC03 BC20 BD02 BD08 5D045 AA09 AB01 AB14 AB26 5D108 CA02 CA07 CA15 CA21 CA28 CA29

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声合成により出力される音声に対し
    て、特定の声色を付与する要素に関する情報についての
    み、記憶したことを特徴とする記憶媒体。
  2. 【請求項2】 前記情報は、書き換え可能となっている
    ことを特徴とする請求項1に記載の記憶媒体。
  3. 【請求項3】 音声合成により出力される音声に対し
    て、特定の声色を付与する要素に関する情報について、
    情報ネットワークを通じて配信を行なうことを特徴とす
    る配信方法。
  4. 【請求項4】 前記情報は、複数種の声色に係る要素に
    関するものであることを特徴とする請求項3に記載の配
    信方法。
  5. 【請求項5】 前記情報は、暗号化して配信を行なうこ
    とを特徴とする請求項3に記載の配信方法。
  6. 【請求項6】 前記配信は、通信キャリアを通じて行な
    うことを特徴とする請求項3に記載の配信方法。
  7. 【請求項7】 前記配信は、有料で行なわれ前記情報ネ
    ットワークを通じたクレジットカードによる決済で料金
    が支払われることを特徴とする請求項3に記載の配信方
    法。
  8. 【請求項8】 前記音声は、所定の文字情報に基づくも
    のであり、この文字情報は文芸書、目覚ましメッセー
    ジ、手紙、ゲーム中の台詞、日記、電子メール、映像中
    の音声、移動体電話又は据置電話の応答メッセージ、点
    字の読取り情報のいずれかであることを特徴とする請求
    項3に記載の配信方法。
  9. 【請求項9】 所定の文字情報に関する文字情報記憶手
    段と、 前記文字情報について付与する発声速度やリズムに関す
    る中間言語情報記憶手段と、 所定の話者に発声させたときにこの話者に係る特有の声
    色を付与する要素に関するボイスフォント記憶手段と、 前記文字情報記憶手段に記憶されている文字情報につい
    て、前記中間言語情報記憶手段に記憶されている中間言
    語情報を用いて発声速度やリズムに係る中間言語を形成
    し、この中間言語に対して前記ボイスフォント記憶手段
    に記憶されているボイスフォントを用いて特定の声色を
    合成音声にして出力する音声合成手段とを備えることを
    特徴とする音声出力装置。
  10. 【請求項10】 前記ボイスフォント記憶手段は、複数
    種のボイスフォントを記憶し、前記音声合成手段は、こ
    れら複数種のボイスフォントの中から選択されたボイス
    フォントを用いて、前記中間言語にそれぞれ異なった声
    色を付けて合成し出力することを特徴とする請求項9に
    記載の音声出力装置。
JP2000089862A 2000-03-28 2000-03-28 記憶媒体、配信方法及び音声出力装置 Pending JP2001282281A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000089862A JP2001282281A (ja) 2000-03-28 2000-03-28 記憶媒体、配信方法及び音声出力装置
PCT/JP2000/006546 WO2001073752A1 (fr) 2000-03-28 2000-09-25 Moyen de stockage, procede de distribution et dispositif de sortie vocale

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000089862A JP2001282281A (ja) 2000-03-28 2000-03-28 記憶媒体、配信方法及び音声出力装置

Publications (1)

Publication Number Publication Date
JP2001282281A true JP2001282281A (ja) 2001-10-12

Family

ID=18605559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000089862A Pending JP2001282281A (ja) 2000-03-28 2000-03-28 記憶媒体、配信方法及び音声出力装置

Country Status (2)

Country Link
JP (1) JP2001282281A (ja)
WO (1) WO2001073752A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058180A (ja) * 2001-06-08 2003-02-28 Matsushita Electric Ind Co Ltd 合成音販売システムおよび音素の著作権認定システム
JP2003122387A (ja) * 2001-10-11 2003-04-25 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2003140672A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 音素ビジネスシステム
JP2003140677A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2005524879A (ja) * 2002-05-09 2005-08-18 トムソン ライセンシング ソシエテ アノニム ハンドヘルド装置用音声合成(tts)
JP2020076885A (ja) * 2018-11-08 2020-05-21 東京瓦斯株式会社 音声出力システムおよびプログラム
JP6948044B1 (ja) * 2020-10-05 2021-10-13 合同会社オフィス香川 管理サーバおよび電子書籍提供方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3850058B2 (ja) * 1994-12-13 2006-11-29 インターシア ソフトウェア エルエルシー 暗号鍵システム
JPH0950286A (ja) * 1995-05-29 1997-02-18 Sanyo Electric Co Ltd 音声合成装置及びこれに使用する記録媒体
JP3270356B2 (ja) * 1996-12-04 2002-04-02 株式会社ジャストシステム 発話文書作成装置,発話文書作成方法および発話文書作成手順をコンピュータに実行させるプログラムを格納したコンピュータ読み取り可能な記録媒体
JPH10304088A (ja) * 1997-05-01 1998-11-13 Nippon Telegr & Teleph Corp <Ntt> 端末装置
JP3224760B2 (ja) * 1997-07-10 2001-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声メールシステム、音声合成装置およびこれらの方法
JPH11143483A (ja) * 1997-08-15 1999-05-28 Hiroshi Kurita 音声発生システム
JPH11175308A (ja) * 1997-12-15 1999-07-02 Nec Software Kobe Ltd 文書読み上げ音声の声色指定方法
JPH11282772A (ja) * 1998-03-27 1999-10-15 Sony Corp 情報配信システム、情報送信装置、情報受信装置
JPH11308270A (ja) * 1998-04-22 1999-11-05 Olympus Optical Co Ltd 通信システム及びそれに用いられる端末装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058180A (ja) * 2001-06-08 2003-02-28 Matsushita Electric Ind Co Ltd 合成音販売システムおよび音素の著作権認定システム
JP2003122387A (ja) * 2001-10-11 2003-04-25 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2003140672A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 音素ビジネスシステム
JP2003140677A (ja) * 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2005524879A (ja) * 2002-05-09 2005-08-18 トムソン ライセンシング ソシエテ アノニム ハンドヘルド装置用音声合成(tts)
JP2020076885A (ja) * 2018-11-08 2020-05-21 東京瓦斯株式会社 音声出力システムおよびプログラム
JP6948044B1 (ja) * 2020-10-05 2021-10-13 合同会社オフィス香川 管理サーバおよび電子書籍提供方法
JP2022060994A (ja) * 2020-10-05 2022-04-15 合同会社オフィス香川 管理サーバおよび電子書籍提供方法

Also Published As

Publication number Publication date
WO2001073752A1 (fr) 2001-10-04

Similar Documents

Publication Publication Date Title
US7099826B2 (en) Text-to-speech synthesis system
US6633741B1 (en) Recap, summary, and auxiliary information generation for electronic books
CN101657816B (zh) 用于分布式音频文件编辑的门户网站
US9230552B2 (en) Advanced encoding of music files
US20070088712A1 (en) Apparatus and method for the manufacture of audio books
US20020103759A1 (en) Contents providing service system, server apparatus, and client apparatus
KR20020055398A (ko) 전자 서적 송출장치, 전자 서적 장치 및 기록매체
CN102867526A (zh) 用于分布式音频文件编辑的门户网站
KR200171103Y1 (ko) 전자출판물 시스템에 적합한 휴대용단말기
Siefert Aesthetics, technology, and the capitalization of culture: how the talking machine became a musical instrument
JP2001282281A (ja) 記憶媒体、配信方法及び音声出力装置
JP2003122554A (ja) 電子書籍データ配信装置、電子書籍装置およびプログラム
US20060248105A1 (en) Interactive system for building and sharing databank
US20030009340A1 (en) Synthetic voice sales system and phoneme copyright authentication system
KR101124798B1 (ko) 전자 그림책 편집 장치 및 방법
US20230353843A1 (en) Information processing system, information processing method, and storage medium
KR20030013791A (ko) 인터넷 기반의 도서 음성 재생 시스템 및 그 방법
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
JP2001306070A (ja) シーケンスデータファイル処理装置及び方法並びに記憶媒体
JP2003140677A (ja) 読み上げシステム
WO2000067249A1 (en) System for storing, distributing, and coordinating displayed text of books with voice synthesis
Farquharson Writer. Producer. Engineer.: A Handbook for Creating Contemporary Commercial Music
Mitra Digital Music
JP2004133119A (ja) 携帯端末装置