JP2005107320A - 音声再生用データ生成装置 - Google Patents

音声再生用データ生成装置 Download PDF

Info

Publication number
JP2005107320A
JP2005107320A JP2003342387A JP2003342387A JP2005107320A JP 2005107320 A JP2005107320 A JP 2005107320A JP 2003342387 A JP2003342387 A JP 2003342387A JP 2003342387 A JP2003342387 A JP 2003342387A JP 2005107320 A JP2005107320 A JP 2005107320A
Authority
JP
Japan
Prior art keywords
data
phoneme
terminal
content
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003342387A
Other languages
English (en)
Inventor
Yoshikazu Yoneda
美和 米田
Yoshihiro Hori
吉宏 堀
Toshiaki Hioki
敏昭 日置
Yoshinori Hatayama
佳紀 畑山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2003342387A priority Critical patent/JP2005107320A/ja
Publication of JP2005107320A publication Critical patent/JP2005107320A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 携帯電話などの処理性能、特にアプリケーションプログラムのデータ容量に制限が設けられている端末において、テキストデータの音声による再生を可能とする。さらに、テキストデータの音声合成の機能を備えない端末に、電子メールや料理コンテンツなどに含まれるテキストデータを音声にて再生する機能を提供する。
【解決手段】 本発明は、テキストデータの音声合成を行うデータの生成において、テキストデータの言語処理によって得られた中間言語、それに対応して抽出された音素データ群、中間言語および音素データ群を用いて音声合成を行う音響処理プログラム等を、一つのコンテンツとして生成する。これを端末に送信し、端末が、受信したコンテンツに含まれる音声再生用のプログラムを実行することによって、資源と処理能力が限られる場合であっても、テキストデータを音声として再生することができる。
【選択図】 図1

Description

本発明は、テキストデータを音声として再生するためのデータを生成する装置に関する。
近年、ユーザに利便性を提供するために、テキストデータを音声として再生するサービスの要求が高まっている。
しかし、現状の携帯電話やPDAなどの端末には、音声合成を実現するためのリソースが配備されていないため、単独では、テキストデータに応じた音声出力を行うことができない。これに対し、サーバやPC(Personal Computer)などの汎用のマシンには音声合成を実現するためのリソースが配備されているため、メールやニュースなどのテキストデータを、デジタルオーディオ信号あるいはアナログオーディオ信号などの音声信号に変換して、音声として再生することができる。したがって、リソースの乏しい端末においては、変換後の音声信号をサーバやPCなどから通信によって受信することによって、音声として出力再生することができる。しかし、この場合、一々、サーバやPCを経由する必要があるため、ユーザの利便性が損なわれる。
これに対し、特許文献1には、音声合成に用いる中間言語の生成処理をサーバにて行うことにより、端末側に別途言語処理機能を配備することなく、音声合成を実現する技術が記載されている。ここでは、端末側には、音声合成のための音響処理機能と、その際に参照される音素データベースが配備され、サーバから受信した中間言語を、音素データベースを参照しながら音響処理することにより、テキストデータが音声として出力される。
特開平8−314487号公報
しかしながら、特許文献1に記載された技術のように、端末が音響処理だけ行う方式においても、大量の音素データベースが必要となり、したがって、この処理を行うだけでも、端末側に、多くのリソースと高い処理能力が必要となる。
処理性能、特にアプリケーションプログラムの総容量に制限がある端末において、上記のような相当量の音素データベースと音素データを必要とする処理を行うことは、リソース的、処理能力的にも極めて困難である。また、端末にて、音声合成を実現する場合、その処理プログラム自体の容量が大きいため、端末に容易に実装することは困難である。
そこで、本発明は、リソースと処理能力が限られる端末において、テキストデータを音声として再生することができる、音声再生用データ生成装置を提供する。これにより、端末には、音声再生のために必要となるだけの音素データベースが提供されるため、どの端末でもテキストデータを音声として再生することが可能となる。
各請求項に係る発明の特徴は以下の通りである。
請求項1の発明は、テキストデータを音声として再生するためデータを生成する装置であって、音素データのデータベースである音素辞書と、テキストデータに対応する音素データを音素辞書から抽出して音素データ群を生成する音素データ生成手段と、前記抽出された音素データをテキストデータに応じて連結する制御データを生成する制御データ生成手段と、前記抽出された音素データと、それに応じて生成された制御データとを用いて音声出力を実行するプログラムを生成するプログラム生成手段と、前記音素データ生成手段によって生成された音素データ群と、前記制御データ生成手段によって生成された制御データと、前記プログラム生成手段によって生成されたプログラムとを含むコンテンツを生成するコンテンツ生成手段とを備えることを特徴とする。
請求項2の発明は、請求項1に記載の音声再生用データ生成装置であって、前記制御データ生成手段によって生成される制御情報は、前記音素データの配列とこれら音素データのつながり具合とを規定する情報を含むことを特徴とする。
請求項3の発明は、請求項1または2に記載の音声再生用データ生成装置であって、前記音素データ生成手段は、言語辞書を用いてテキストデータを読みデータに変換し、当該読みデータから音素データを抽出することを特徴とする。
請求項4の発明は、請求項1ないし3の何れかに記載の音声再生用データ生成装置であって、さらに、データの送受信を行うデータ送受信手段と、受信したデータからテキストデータを抽出するテキスト抽出手段とを備え、前記音素データ生成手段は、前記抽出されたテキストデータに対応する音素データ群を生成し、前記データ送受信手段は、前記生成されたコンテンツを送信することを特徴とする。
請求項5の発明は、請求項4に記載の音声再生用データ生成装置であって、さらに、コンテンツの送信先である端末を識別し、当該端末のデータ受容量を特定する手段を備え、前記音素データ生成手段は、前記送信先端末のデータ受容量に基づいて、前記テキストデータに対応する音素データ群を生成することを特徴とする。
請求項6の発明は、請求項4または5に記載の音声再生用データ生成装置であって、前記データ送受信手段は、電子メールデータの送受信機能を備え、前記受信した電子メールデータから当該電子メールデータの送付先端末を抽出し、当該端末を前記音声再生端末として識別し、前記テキスト抽出手段は、受信した電子メールデータからテキストデータを抽出し、前記音素データ生成手段は、前記音声再生端末の仕様に対応して、前記抽出されたテキストデータに対応する音素データを生成し、前記データ送受信手段は、前記生成されたコンテンツを当該電子メールデータに付加して、送付先端末として識別した音声再生端末に送信することを特徴とする。
携帯電話などの処理性能、特にアプリケーションプログラムのデータ容量に制限がある端末においても、テキストデータの音声による音声再生を行うことができる。さらに、テキストデータの音声合成の機能を持たない端末において、電子メールや料理コンテンツなどに含まれるデータを再生することが可能となる。
本発明の実施の形態について、図を参照しながら以下に説明する。
本実施例のテキスト音声変換システムは、電子メールを音声データに変換して、ユーザに供給するものである。音声データは、メールの送受信によって提供される。
図1に、本実施例のテキスト音声変換システムのブロック構成図を示す。
まず、ユーザ宛に送信された電子メールデータは、1次メールサーバ101によって受信され、言語処理装置102に与えられる。言語処理装置102は、この電子メールの通信文であるテキストデータを、Java(米国Sun Microsystemes,Inc.の登録商標、以下同じ)音声合成コンテンツに変換し、これをテキストデータに付加して音声付き電子メールデータを生成する。
音声付き電子メールデータは、2次メールサーバ103を介して、ユーザが使用する端末104に送信される。
ユーザが使用する端末104では、ユーザの操作によってこの音声付き電子メールデータがアクセスされると、音声付き電子メールデータに添付されたJava音声合成コンテンツが起動される。そして、テキストデータに対する音声が音声合成され、これにより得られる音声再生データを再生して、音響信号としてスピーカあるいはイヤホーン(図示しない)から出力される。このようにして、ユーザは、電子メールデータの読み上げサービスを受けることができる。
ここで、1次メールサーバ101は、インターネットなどのネットワークを介し送信元から送信された電子メールデータ、すなわち、テキストデータあるいは画像データ等が添付されたテキストデータ等を受信し、これを素データとして言語処理装置102へ転送する。
言語処理装置102は、1次メールサーバ101から転送された素データを受け、素データから音声合成の対象となる通信文であるテキストデータを取り出す。
さらに、ユーザ端末104のデータ受容量等に応じて、このテキストデータに対する音声を提供するために必要となる音素データ群、端末向け言語データ、さらに、これらのデータによって音声出力するための音響処理プログラムからなるJava音声合成コンテンツを生成する。このJava音声合成コンテンツは、端末104にて動作可能なアプリケーションである。
なお、本実施例では、音声合成サービスをJavaコンテンツとして提供する場合について説明を行うが、サービスの提供形態は必ずしもJavaコンテンツに限定するものではない。例えば、ユーザの端末104において、音素データ群、端末向け言語データ、音響処理プログラムが含まれるコンテンツを受信し、そのコンテンツの中の音響処理プログラムを実行することによって、同コンテンツに含まれる音素データ群、端末向け言語データによって音声が提供できれば、いかなる方式によってもかまわない。
言語処理装置102は、続いて、1次メールサーバ101より転送された電子メールデータに、生成したJava音声合成コンテンツを添付して、音声付き電子メールデータとし、これを2次メールサーバ103に送信する。
2次メールサーバ103は、言語処理装置102から送信された電子メールデータを受信し、端末104へのメール着信通知と電子メールデータの送信を行う。
端末104は、2次メールサーバ103より送信された電子メールデータを受信し、受信した電子メールデータに、Java音声合成コンテンツが添付されていれば、テキストデータの表示に加えて、添付されたJava音声合成コンテンツに含まれる音響処理プログラムを実行してテキストデータを音声として出力する。
さらに、端末104は、ユーザの指示を入力する入力手段を備えており、テキストデータのスクロール表示や表示の切換、また、音声の繰り返し再生や再生停止等、制御することができる。
以下、上記各構成要素の詳細な説明を行う。但し、本実施例において、1次メールサーバ101と2次メールサーバ103は、コンピュータによって構成される汎用のメールサーバであるため、その詳細な説明は省略する。
図2は、言語処理装置102の構成を示すブロック図である。本構成は、ハードウエア的に、任意のコンピュータのCPU、メモリ、その他のLSIなどで実現できる。また、ソフトウエア的に、メモリにロードされた記録制御機能のあるプログラムなどによって実現される。
本図に、ハードウェアおよびソフトウェアによって実現される機能ブロックを示す。これらの機能ブロックが、ハードウエアのみ、ソフトウエアのみ、それらの組合せによって、いろいろな形態で実現できることは言うまでもない。
通信処理部201は、電子メールデータの受信や、生成した音声付き電子メールデータの送信などの通信制御を行う。さらに、受信した電子メールデータからメールアドレスなどを用いて、送信先の端末を特定する。
プロセッサ202は、言語処理装置102内の各部を制御する。
言語処理部203は、中間言語生成部211、言語辞書212からなり、電子メールデータから抽出されたテキストデータを解析し、テキストデータの語彙や文節解析などを行って、表音記号、アクセント、ブレスなどの制御記号からなる中間言語データを生成する。
図4に、電子メールデータから抽出されたテキストデータの一例を示す。
この言語処理では、まず、中間言語生成部211が言語辞書212を参照し、抽出したテキストデータを中間形式である読みデータに変換する。この読みデータは、さらに表音データに変換される。図5(a)および図5(b)に、図4のテキストデータに対する中間処理結果である読みデータおよび表音データを各々示す。
図5(b)において、“→”は“長音”を示す。“↓"は“アクセント下げる”を示す。“↑”は“アクセント上げる”を示す。“/”は“ブレス”を示す制御記号である。
続いて、中間言語生成部211は、表音データを短音、単語、文節単位に分解して、表音記号表を生成する。この表音記号表は、音声合成の際に必要な中間言語によって表現された中間言語データである。図6に、図5のテキストデータに対する表音記号表を示す。
この中間言語データは、上記の如く、中間言語生成部211において言語辞書212を参照して生成されるが、このとき、言語辞書212のデータ量と、後述する中間言語処理部204が使用する音素辞書221のデータ量が膨大であるほど、すなわち、データが充実しているほど、より自然で、かつ、流暢な合成音声が提供される。
図2に戻り、中間言語処理部204は、音素辞書221、端末データベース222、音素抽出部223、端末向け言語生成部224から構成され、言語処理部203から出力された中間言語データに基づき、端末に対応した言語データと音素データ群を生成する。生成されたこれらのデータは、音響処理プログラムと共にJava音声合成コンテンツに組み込まれる。
音素辞書221は、中間言語の表音記号に対する音素データを保持するデータベースである。ここで、音素データとは、短音、単語、文節単位などに対する合成音を出力するためのデータである。一般に、短音、単語、文節単位の順に、音声再生時の音質(流暢さ)は高くなるが、反面、音素データのサイズは大きくなる。
端末データベース222には、端末の汎用情報として、当該端末において処理することができるJavaコンテンツのデータ量の上限値や、Java音声合成コンテンツのオーバヘッドデータ量、例えば、音響合成プログラムのデータ量などの情報が、端末種別ごとに区分して保持されている。
さらにこの端末データベース222には、ユーザ毎の端末情報として、当該ユーザが使用する端末の機種番号、端末種別等の端末識別情報が当該ユーザのメールアドレスに対応付けて登録されている。なお、この登録は、ユーザが本実施例のサービスの利用開始時等に、予め、行われる。
音素抽出部223は、言語処理部203から入力された中間言語データと、端末データベース222から取得されるメール配信先端末104の端末固有情報に基づいて、音素辞書221を参照して、対象端末104に提供する音素データを決定する。このとき、提供される音素データ群のデータ量が、端末104が処理可能なデータ量の上限を超えないように制御される。すなわち、例えば、端末104で受容可能なデータサイズがxKバイトと制限されていると、端末104へ送信するJava音声合成コンテンツはxKバイト以下でなければならない。このとき、Java音声合成コンテンツのサイズに最も影響を与える音素データ群の作成にあたり、音素抽出部223は、音素辞書221から抽出する音素片データの組み合わせ、すなわち、組み合わせた音素片データの総量と再生音声品質とのトレードオフとなる音素データの抽出を行う。このようにして生成される音素データは、複数単位で音素データ群を構成する。
図7に、端末104に対応される音素データ群の一例を示す。この音素データ群は、図7のテキストデータに対するものである。図中、左列の音素番号は、後述の端末向け言語データを生成するときに引用記号として用いられる。
図2に戻り、端末向け言語生成部224は、音素抽出部223からの音素データ群および中間言語生成部211からの中間言語データに基づいて、端末向け言語データを生成する。この端末向け言語データは、音素データ群を参照する引用記号とアクセントやブレスなどの制御記号から構成される。
図8に、図4のテキストデータに対する端末向け言語データを示す。本図で示される“,”は、ブレス以外の音素片データの区切りを示し、続けて再生する制御記号である。また、“/”はブレスの制御記号、“a"は、アクセントを下げる制御記号、“b”は、アクセントを上げる制御記号、”c”は、音を伸ばす制御記号である。
図2に戻り、コンテンツ生成部205は、音響処理プログラムデータベース231およびパッケージ化処理部232から構成され、音素データ群、端末向け言語データと、これらを用いて言語音声を出力する音響処理プログラムを一体化してJava音声合成コンテンツを生成する。生成されたJava音声合成コンテンツは、電子メールデータに添付される。
音響処理プログラムデータベース231には、予め、端末の識別情報に対応付けて音響処理プログラムが格納されている。
パッケージ化処理部232は、端末に対応した音響処理プログラムを音響処理プログラムデータベース231から抽出し、抽出した音響処理プログラムと上記音素データ群および端末向け言語データとを一体化してJava音声合成コンテンツを生成する。
図9は、Java音声合成コンテンツのデータ構成図である。
ヘッダー901は、Javaコンテンツであることを示す識別情報である。
Javaプログラム902は、端末向け言語データ903と音素データ群904とから再生音声を得る音響処理プログラムであって、上記の如く、音響処理プログラムデータベース231から抽出されたものである。
端末向け言語データ903と音素データ群904は、再生音声用のデータであって、上記の如く、端末向け言語生成部224と音素抽出部223によって生成されたものである。具体的には、それぞれ後述する処理フロー(図3)におけるステップS104、S103における処理結果である。
次に、言語処理装置102における処理フローについて説明する。図3に本処理のフローを示す。
プロセッサ202は、通信処理部201を介して1次メールサーバ101から電子メールデータを素データとして受信し、受信した素データから通信文であるテキストデータを抽出する(S101)。
言語処理部203は、抽出したテキストデータから表音記号表を生成する言語処理を実行する。この言語処理では、まず、言語処理部203が言語辞書212を参照し、抽出したテキストデータを中間形式である読みデータに変換する。読みデータは、さらに表音データに変換される。
言語処理部203は、さらに表音データを短音、単語、文節単位に分解して、表音記号表を生成する(S102)。
音素抽出部223は、言語処理部203の処理結果である表音記号表に基づいて、音素辞書221と端末データベース222を参照しながら、端末104に適した音素データ群を生成する(S103)。
端末向け言語生成部224は、表音記号表と音素データ群を参照して、引用記号とアクセントや区切りの制御記号からなる端末向け言語データを生成する(S104)。
コンテンツ生成部205は、上記の処理結果の音素データ群、端末向け言語データ、さらに、これらのデータによって音声出力するための音響処理プログラムを一体化してJava音声合成コンテンツとして生成する(S105)。
プロセッサ202は、生成したJava音声合成コンテンツを電子メールデータに添付して端末104宛の音声付き電子メールデータとし、これを、通信処理部201を介して、2次メールサーバ103に送信する(S106)。
次に、ユーザが使用する端末104について説明する。図10に端末104のブロック構成を示す。
端末104は、Javaコンテンツの再生機能、電子メール機能、通話機能を備え、データバス400、通信処理部401、プロセッサ402、メモリ403、コンテンツ処理部405、音響処理部406、スピーカ407、表示制御部408、ディスプレイ409、操作パネル410、マイク411の構成を含む。
データバス400は、端末104の各部間のデータ授受を行う。
通信処理部401は、携帯電話網との間でデジタルデータを無線伝送する。
プロセッサ402は、データバス400を介して端末104の各部を制御する。
メモリ403は、通信処理部401を介して受信したJava音声合成コンテンツあるいは電子メールデータを格納する。
通話コーデック部404は、マイク411から入力された音声および通信処理部401から入力された音声データの通信方式に対応した符号化および復号を行なう。
コンテンツ処理部405は、メモリ403に格納されたJava音声合成コンテンツを読み込んで音声出力処理を実行する。すなわち、Java音声合成コンテンツ中のJavaプログラムに従って、操作パネル410を介してユーザからの指示を受け、スピーカ407を介してユーザに聴覚情報を提供する。
音響処理部406は、マイク411からのアナログ音声信号を音声データに、逆に音声データをアナログ音声信号に変換しスピーカ407へ供給する。
スピーカ407は、受話音声あるいはJava音声合成コンテンツの再生音声を出力する。
表示処理部408は、プロセッサ402の指示に従って、メモリ403に格納された電子メールデータから表示情報を生成し、これをディスプレイ409上に表示する。
ディスプレイ409は、ユーザに視覚的に情報を提供する。
操作パネル410は、ユーザからの指示を入力する。
マイク411は、ユーザの音声を取り込む。
なお、受信された電子メールデータの管理や表示は、プロセッサ402の制御により実行される。
また、コンテンツ処理部405は、プロセッサ402によって実行されるプログラムとして実現することも可能である。このとき、プロセッサ402によって実行されるプログラムは、メモリ403に格納されていてもよい。
なお、以下では、端末104を携帯電話としてJava音声合成コンテンツの再生を説明するが、Javaコンテンツが実行可能であり、音声を再生出力可能な端末であれば、携帯電話に限定することなく、如何なる端末であってもよいことは言うまでもない。
次に、端末104における音声付き電子メールデータの受信から音声再生までの処理について説明する。本処理のフローを図11に示す。
プロセッサ402は、通信処理部401を介して、音声付き電子メールデータを受信し、メモリ403に格納する(S201)。
次に、プロセッサ402は、表示処理部408を制御しながら、通信文のテキストデータや画像データ等をディスプレイ409に表示する。このとき、Java音声合成コンテンツが添付されていれば、その旨が表示される(S202)。
操作パネル410を介してJava音声合成コンテンツの実行が指示されると(S203Y)、プロセッサ402はコンテンツ処理部405にJava音声合成コンテンツの実行を指示する。
コンテンツ処理部405は、メモリ403から音声付き電子メールデータに添付されているJava音声合成コンテンツを取得し、これを実行する。これにより、Java音声合成コンテンツに含まれる音響処理プログラムがテキストデータに対応する音素データを端末向け言語データに従って合成し、音声データが生成される(S204)。
生成された音声データは、音響処理部406を介して再生音声としてスピーカ407から出力され(S205)、本処理は終了する。このようにして、ユーザは電子メールの通信文が読み上げられた音声を聞くことができる。
一方、ステップS202の後、Java音声合成コンテンツの実行が指示されない場合(S203N)、本処理は終了する。
なお、本実施例では、ユーザからの指示によってJava音声合成コンテンツを実行するものであるが、これに代わり、受信したメールの通信文のテキストデータや画像データ等をディスプレイ409に表示する際、自動的にJava音声合成コンテンツを実行するようにしてもよい。
上記実施例1では、Java音声合成コンテンツは、音声付き電子メールデータとして電子メールデータに添付され、2次メールサーバ103からユーザ端末104に送信されていた。本実施例では、このJava音声合成コンテンツは、コンテンツサーバからダウンロードされる形態によって、実施例1と同様のサービスを提供する。以下に詳細な説明を行う。
本実施例のシステムの構成図を図12に示す。
本システムは、現在の携帯電話におけるインフラを用いて提供可能なサービス形態である。なお、本図において、実施例1における図1に示す構成要素と重複するものには同一の番号を付し、詳細な説明は省略する。
言語処理装置122は、言語処理装置102と同様、1次メールサーバ101から転送された電子メールデータを素データとして受信し、素データから音声合成の対象となる通信文に相当するテキストデータを抽出する。
さらに、ユーザの端末104の機能に対応して、このテキストデータに対する音声を提供するために必要な音素データ群、端末向け言語データ、さらに、これらのデータを用いて音声出力するための音響処理プログラムとから、Java音声合成コンテンツを生成する。このとき、Java音声合成コンテンツは、実施例1と異なり、素データを含む。
この生成されたJava音声合成コンテンツは、コンテンツサーバ123に送信される。
さらに、言語処理装置122は、Java音声合成コンテンツを端末104がコンテンツサーバ123からダウンロードするために、このJava音声合成コンテンツのダウンロード用URL(Uniform Resource Locator)を含むように端末104のユーザ宛の電子メールデータ(以降、通知メールデータと呼ぶ)を生成し、2次メールサーバ103に送信する。2次メールサーバ103は、この通知メールデータを端末104に送信する。
一方、コンテンツサーバ123は、言語処理装置122から送信された端末104向けのJava音声合成コンテンツを保持し、端末104からのURLへのアクセスが発生したとき、これに応答して、端末104向けのJava音声合成コンテンツを送信する。
端末104は、2次メールサーバ103から受信した通知メールデータを表示し、ユーザに音声付き電子メールの受信を告示する。これに従い、ユーザが通知メールデータに含まれるURLにアクセスすると、コンテンツサーバ123からJava音声合成コンテンツがダウンロードされる。
端末104では、ダウンロードされたJava音声合成コンテンツが実行されると、テキストデータを音声合成して、音響信号としてスピーカあるいはイヤホーン(図示しない)から出力される。
図13は、言語処理装置122の構成を示すブロック図である。実施例1における言語処理装置102と比較して、実施例1におけるコンテンツ生成部205を、コンテンツ生成部206の構成に変更し、さらに、通知メール生成部263を追加したものである。この他の構成は言語処理装置102と同一であるため、説明を省略する。
コンテンツ生成部206は、音響処理プログラムデータベース231、パッケージ化処理部262から構成される。
パッケージ化処理部262は、言語処理部203および中間言語処理部204によって得られた音素データ群、端末向け言語データ、これらのデータによって音声出力するための音響処理プログラムと、テキストデータである素データとを一体化してJava音声合成コンテンツとして生成する。
なお、本実施例においては、音響処理プログラムは、素データを表示する機能も含み、この音響処理プログラムによって、素データが表示され、中間言語処理部204で生成された端末向け言語データが、音素データ群にしたがって音声再生される。
図14に、Java音声合成コンテンツの構成を示す。Java音声合成コンテンツは、素データ、端末向け言語データ、音素データ群を含む。
実施例1における図9と比較して、素データを格納するフィールド910が追加されており、フィールド902に格納される音響処理プログラムには、素データを表示するためのプログラムが含まれる。
図13に戻り、プロセッサ202は、生成されたJava音声合成コンテンツの格納要求を、通信処理部201を介して、コンテンツサーバ123に送信する。コンテンツサーバ123は、Java音声合成コンテンツが格納されるURLを通信処理部401に送信する。通信処理部401は、受信したURLを通知メール生成部263に転送する。
通知メール生成部263は、端末104がコンテンツサーバ123からJava音声合成コンテンツをダウンロードするためのURLを含むよう、端末104のユーザ宛の通知メールデータを生成する。
プロセッサ202は、生成された通知メールデータを2次メールサーバ103へ通信処理部201を介して送信する。また、コンテンツサーバ123に対して、Java音声合成コンテンツを通信処理部201を介して送信する。
コンテンツサーバ123は、受信したJava音声合成コンテンツを上記URLに格納するとともに、このURLへのアクセスによって、Java音声合成コンテンツが端末104にダウンロードされるよう処理を行う。このコンテンツサーバ123は、コンピュータによって構成される汎用のサーバであるため、その詳細な構成についての説明は省略する。
次に、ユーザが使用する端末104における音声再生処理について説明する。
本実施例では、電子メールデータのテキストデータを音声によって再生するプログラムをサーバからダウンロードして取得する点が、実施例1と異なる。本処理の流れを図15に示す。
プロセッサ402は、通信処理部401を介して、通知メールデータを受信し、メモリ403に格納する(S301)。
次に、プロセッサ402は、表示処理部408を制御しながら、通知メールデータを表示する(S302)。この通知メールデータに示されているURLに対して操作パネル410を介してアクセスが指示されると、端末104とコンテンツサーバ123間のデータ授受のための接続が確立される。接続が確立すると、コンテンツサーバ123は対象のデータを端末104に送信し、端末104は、Java音声合成コンテンツであるデータを受信し、これをメモリ403にロードする(S303Y)。
次に、操作パネル410を介してJava音声合成コンテンツによる実行が指示されると(S304)、プロセッサ402はコンテンツ処理部405にJava音声合成コンテンツに含まれる音響処理プログラムの実行を指示する(S305)。
コンテンツ処理部405は、メモリ403からJava音声合成コンテンツを取得し、これを実行する。これにより、Java音声合成コンテンツに含まれる音響処理プログラムがテキストデータを表示処理部408に表示させ、このテキストデータに対応する音素データを端末向け言語データに従って合成し、音声データを生成する。
生成された音声データは、音響処理部406を介して再生音声としてスピーカ407から出力され(S306)、本処理は終了する。このようにして、ユーザは電子メールの通信文が読み上げられた音声を聞くことができる。
一方、ステップS302の後、Java音声合成コンテンツの実行が指示されない場合(S303N)、本処理は終了する。
図16は、本発明をコンテンツ配信に利用した料理レシピ配信システムの構成を示す図である。
以下、料理レシピをコンテンツとして、Java音声合成コンテンツを提供する一例を説明する。なお、本発明の配信されるコンテンツは本実施例の料理レシピに限らず、コンテンツに含まれるテキストデータを音声合成し、音声データによって出力するものであれば、如何なるコンテンツであってもよいことは言うまでもない。
本図において、第1実施例の図1と同一の構成要素は同一番号を付し、詳細な説明は省略する。
料理レジピデータベース130は、複数の料理レシピデータを格納したコンテンツのデータベースであり、料理レシピデータは、画像データ、表データ、テキストデータ等から構成される。
料理レシピ配信サーバ131は、ユーザの端末104からのアクセスによって、ユーザがリクエストした料理レシピのデータを、料理レシピデータベース130から取得して、言語処理装置132に提供する。さらに、言語処理装置132によって生成されたJava音声コンテンツを受信し、端末104に送信する。
言語処理装置132は、実施例1における言語処理装置102と同一であり、料理レシピ配信サーバ131から料理レシピデータを受信し、受信した料理レシピデータを素データとして、端末104にて利用可能なJava音声合成コンテンツを生成する。
なお、レシピ配信サーバ131は、料理レシピデータベース130より取得した料理レシピデータを、端末104からのリクエストに応じて加工することも可能である。例えば、1人前、2人前などの調理したい分量や、甘め、辛目といった嗜好情報を、ユーザ端末104から料理レシピ配信サーバ131に送信し、その情報に対応した料理レシピを配信することができる。
また、音素データベース221に、複数の音色に対する音素データ辞書を格納しておき、ユーザ端末104から料理レシピ配信サーバ131に対して再生音声の音色を指示すると、料理レシピ配信サーバ131は、言語処理装置132に対して音色を指示し、指定した音色の音素を採用して、音声合成用データを作成する。このようにして、再生音声を好みの音色、例えば、男性の声、女性の声、俳優の声など、で提供することも可能となる。
なお、料理レシピデータベース130、料理レシピサーバ131、言語処理装置132は、ハードウエア的に任意のコンピュータのCPU、メモリ、その他のLSIなどで実現できる。また、ソフトウエア的にはメモリにロードされた記録制御機能のあるプログラムなどによって実現される。言うまでもなく、これらの機能は、ハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形態で実現することができる。
携帯電話などの処理性能、特にアプリケーションプログラムのデータ容量に制限が設けられている端末において、テキスト音声変換による音声再生を行うことができる。さらには、テキスト音声合成の機能を持たない端末に、電子メールや料理コンテンツなどに含まれるテキストデータを読み上げる機能を提供することができる。
本発明における実施例1のシステム構成図である。 言語処理装置の構成を示すブロック図である。 言語処理装置における処理フロチャートである。 素データとなる通信文のテキストデータとその読みデータと発音データの一例である。 テキストデータの例に対する言語処理部の処理結果を説明する図である。 テキストデータの例に対する音素データ群を説明する図である。 端末向け言語の制御記号を示す図である。 テキストデータの例に対する端末向け言語データを示す図である。 Java音声合成コンテンツの構成を示す図である。 端末の構成を示すブロック図である。 端末における音声出力処理のフロチャートである。 本発明における第2実施例を示すシステム構成図である。 実施例2における言語処理装置の構成を示すブロック図である。 実施例2におけるJava音声合成コンテンツの構成を示す図である。 は、実施例2における処理のフロチャートである。 は、本発明における実施例3を示すシステム構成図である。
符号の説明
102 言語処理装置
203 言語処理部
212 言語辞書
211 中間言語生成部
204 中間言語処理部
221 音素辞書
222 端末データベース
223 音素抽出部
224 端末向け言語生成部
205 コンテンツ生成部
231 音響処理プログラムデータベース
232 パッケージ化処理部

Claims (6)

  1. テキストデータを音声として再生するためデータを生成する装置であって、
    音素データのデータベースである音素辞書と、
    テキストデータに対応する音素データを音素辞書から抽出して音素データ群を生成する音素データ生成手段と、
    前記抽出された音素データをテキストデータに応じて連結する制御データを生成する制御データ生成手段と、
    前記抽出された音素データと、それに応じて生成された制御データとを用いて音声出力を実行するプログラムを生成するプログラム生成手段と、
    前記音素データ生成手段によって生成された音素データ群と、前記制御データ生成手段によって生成された制御データと、前記プログラム生成手段によって生成されたプログラムとを含むコンテンツを生成するコンテンツ生成手段と
    を備えることを特徴とする音声再生用データ生成装置。
  2. 請求項1において、
    前記制御データ生成手段によって生成される制御情報は、前記音素データの配列とこれら音素データのつながり具合とを規定する情報を含む、
    ことを特徴とする音声再生用データ生成装置。
  3. 請求項1または2において、
    前記音素データ生成手段は、言語辞書を用いてテキストデータを読みデータに変換し、当該読みデータから音素データを抽出する、
    ことを特徴とする音声再生用データ生成装置。
  4. 請求項1ないし3の何れかにおいて、
    さらに、データの送受信を行うデータ送受信手段と、
    受信したデータからテキストデータを抽出するテキスト抽出手段とを備え、
    前記音素データ生成手段は、前記抽出されたテキストデータに対応する音素データ群を生成し、
    前記データ送受信手段は、前記生成されたコンテンツを送信する、
    ことを特徴とする音声再生用データ生成装置。
  5. 請求項4において、
    さらに、コンテンツの送信先である端末を識別し、当該端末のデータ受容量を特定する手段を備え、
    前記音素データ生成手段は、前記送信先端末のデータ受容量に基づいて、前記テキストデータに対応する音素データ群を生成する、
    ことを特徴とする音声再生用データ生成装置。
  6. 請求項4または5において、
    前記データ送受信手段は、電子メールデータの送受信機能を備え、前記受信した電子メールデータから当該電子メールデータの送付先端末を抽出し、当該端末を前記音声再生端末として識別し、
    前記テキスト抽出手段は、受信した電子メールデータからテキストデータを抽出し、
    前記音素データ生成手段は、前記音声再生端末の仕様に対応して、前記抽出されたテキストデータに対応する音素データを生成し、
    前記データ送受信手段は、前記生成されたコンテンツを当該電子メールデータに付加して、送付先端末として識別した音声再生端末に送信する、
    ことを特徴とする音声再生用データ生成装置。



JP2003342387A 2003-09-30 2003-09-30 音声再生用データ生成装置 Pending JP2005107320A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003342387A JP2005107320A (ja) 2003-09-30 2003-09-30 音声再生用データ生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003342387A JP2005107320A (ja) 2003-09-30 2003-09-30 音声再生用データ生成装置

Publications (1)

Publication Number Publication Date
JP2005107320A true JP2005107320A (ja) 2005-04-21

Family

ID=34536677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003342387A Pending JP2005107320A (ja) 2003-09-30 2003-09-30 音声再生用データ生成装置

Country Status (1)

Country Link
JP (1) JP2005107320A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013061718A1 (ja) * 2011-10-28 2013-05-02 日立公共システムエンジニアリング株式会社 音声合成情報付きのテキストデータ提供装置及びテキストデータ提供方法
JP2015155977A (ja) * 2014-02-20 2015-08-27 シャープ株式会社 音声合成装置および制御プログラム
JP2020009395A (ja) * 2018-07-05 2020-01-16 聡子 荻原 タブレット

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013061718A1 (ja) * 2011-10-28 2013-05-02 日立公共システムエンジニアリング株式会社 音声合成情報付きのテキストデータ提供装置及びテキストデータ提供方法
JP2013097033A (ja) * 2011-10-28 2013-05-20 Hitachi Government & Public Corporation System Engineering Ltd 音声合成情報付きのテキストデータ提供装置及びテキストデータ提供方法
JP2015155977A (ja) * 2014-02-20 2015-08-27 シャープ株式会社 音声合成装置および制御プログラム
JP2020009395A (ja) * 2018-07-05 2020-01-16 聡子 荻原 タブレット

Similar Documents

Publication Publication Date Title
US10720145B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
US9214154B2 (en) Personalized text-to-speech services
US8694320B2 (en) Audio with sound effect generation for text-only applications
KR100706967B1 (ko) 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
US20060224385A1 (en) Text-to-speech conversion in electronic device field
JPH11202885A (ja) 変換情報配信システム、変換情報送信装置、変換情報受信装置
US6501751B1 (en) Voice communication with simulated speech data
JP2005107320A (ja) 音声再生用データ生成装置
WO2008118038A1 (fr) Procédé d'échange de messages et dispositif permettant sa mise en oeuvre
JPH11308270A (ja) 通信システム及びそれに用いられる端末装置
JP2001109487A (ja) 電子メールの音声再生装置、その音声再生方法、及び音声再生プログラムを記録した記録媒体
JP2005062420A (ja) コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
JP2006163280A (ja) 楽曲データおよび端末装置
JP2007323512A (ja) 情報提供システム、携帯端末及びプログラム
JP2004094085A (ja) 音声データ配信装置及び依頼者端末
JP5049310B2 (ja) 音声学習・合成システム及び音声学習・合成方法
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
JP2005106905A (ja) 音声出力システムおよびサーバ装置
JP2002118624A (ja) 携帯移動端末における鳴動効果音声発生方式
JP2006301063A (ja) コンテンツ提供システム、コンテンツ提供装置および端末装置
JPH09251373A (ja) 音声合成方法および音声合成装置
CN103200309A (zh) 用于仅文本的应用的娱乐音频
JP2002182678A (ja) データ更新装置および記録媒体