JP2005107320A

JP2005107320A - 音声再生用データ生成装置

Info

Publication number: JP2005107320A
Application number: JP2003342387A
Authority: JP
Inventors: Yoshikazu Yoneda; 美和米田; Yoshihiro Hori; 吉宏堀; Toshiaki Hioki; 敏昭日置; Yoshinori Hatayama; 佳紀畑山
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2003-09-30
Filing date: 2003-09-30
Publication date: 2005-04-21

Abstract

【課題】携帯電話などの処理性能、特にアプリケーションプログラムのデータ容量に制限が設けられている端末において、テキストデータの音声による再生を可能とする。さらに、テキストデータの音声合成の機能を備えない端末に、電子メールや料理コンテンツなどに含まれるテキストデータを音声にて再生する機能を提供する。
【解決手段】本発明は、テキストデータの音声合成を行うデータの生成において、テキストデータの言語処理によって得られた中間言語、それに対応して抽出された音素データ群、中間言語および音素データ群を用いて音声合成を行う音響処理プログラム等を、一つのコンテンツとして生成する。これを端末に送信し、端末が、受信したコンテンツに含まれる音声再生用のプログラムを実行することによって、資源と処理能力が限られる場合であっても、テキストデータを音声として再生することができる。
【選択図】図１

Description

本発明は、テキストデータを音声として再生するためのデータを生成する装置に関する。

近年、ユーザに利便性を提供するために、テキストデータを音声として再生するサービスの要求が高まっている。

しかし、現状の携帯電話やＰＤＡなどの端末には、音声合成を実現するためのリソースが配備されていないため、単独では、テキストデータに応じた音声出力を行うことができない。これに対し、サーバやＰＣ(Personal Computer)などの汎用のマシンには音声合成を実現するためのリソースが配備されているため、メールやニュースなどのテキストデータを、デジタルオーディオ信号あるいはアナログオーディオ信号などの音声信号に変換して、音声として再生することができる。したがって、リソースの乏しい端末においては、変換後の音声信号をサーバやＰＣなどから通信によって受信することによって、音声として出力再生することができる。しかし、この場合、一々、サーバやＰＣを経由する必要があるため、ユーザの利便性が損なわれる。

これに対し、特許文献１には、音声合成に用いる中間言語の生成処理をサーバにて行うことにより、端末側に別途言語処理機能を配備することなく、音声合成を実現する技術が記載されている。ここでは、端末側には、音声合成のための音響処理機能と、その際に参照される音素データベースが配備され、サーバから受信した中間言語を、音素データベースを参照しながら音響処理することにより、テキストデータが音声として出力される。
特開平８−３１４４８７号公報

しかしながら、特許文献１に記載された技術のように、端末が音響処理だけ行う方式においても、大量の音素データベースが必要となり、したがって、この処理を行うだけでも、端末側に、多くのリソースと高い処理能力が必要となる。

処理性能、特にアプリケーションプログラムの総容量に制限がある端末において、上記のような相当量の音素データベースと音素データを必要とする処理を行うことは、リソース的、処理能力的にも極めて困難である。また、端末にて、音声合成を実現する場合、その処理プログラム自体の容量が大きいため、端末に容易に実装することは困難である。

そこで、本発明は、リソースと処理能力が限られる端末において、テキストデータを音声として再生することができる、音声再生用データ生成装置を提供する。これにより、端末には、音声再生のために必要となるだけの音素データベースが提供されるため、どの端末でもテキストデータを音声として再生することが可能となる。

各請求項に係る発明の特徴は以下の通りである。

請求項１の発明は、テキストデータを音声として再生するためデータを生成する装置であって、音素データのデータベースである音素辞書と、テキストデータに対応する音素データを音素辞書から抽出して音素データ群を生成する音素データ生成手段と、前記抽出された音素データをテキストデータに応じて連結する制御データを生成する制御データ生成手段と、前記抽出された音素データと、それに応じて生成された制御データとを用いて音声出力を実行するプログラムを生成するプログラム生成手段と、前記音素データ生成手段によって生成された音素データ群と、前記制御データ生成手段によって生成された制御データと、前記プログラム生成手段によって生成されたプログラムとを含むコンテンツを生成するコンテンツ生成手段とを備えることを特徴とする。

請求項２の発明は、請求項１に記載の音声再生用データ生成装置であって、前記制御データ生成手段によって生成される制御情報は、前記音素データの配列とこれら音素データのつながり具合とを規定する情報を含むことを特徴とする。

請求項３の発明は、請求項１または２に記載の音声再生用データ生成装置であって、前記音素データ生成手段は、言語辞書を用いてテキストデータを読みデータに変換し、当該読みデータから音素データを抽出することを特徴とする。

請求項４の発明は、請求項１ないし３の何れかに記載の音声再生用データ生成装置であって、さらに、データの送受信を行うデータ送受信手段と、受信したデータからテキストデータを抽出するテキスト抽出手段とを備え、前記音素データ生成手段は、前記抽出されたテキストデータに対応する音素データ群を生成し、前記データ送受信手段は、前記生成されたコンテンツを送信することを特徴とする。

請求項５の発明は、請求項４に記載の音声再生用データ生成装置であって、さらに、コンテンツの送信先である端末を識別し、当該端末のデータ受容量を特定する手段を備え、前記音素データ生成手段は、前記送信先端末のデータ受容量に基づいて、前記テキストデータに対応する音素データ群を生成することを特徴とする。

請求項６の発明は、請求項４または５に記載の音声再生用データ生成装置であって、前記データ送受信手段は、電子メールデータの送受信機能を備え、前記受信した電子メールデータから当該電子メールデータの送付先端末を抽出し、当該端末を前記音声再生端末として識別し、前記テキスト抽出手段は、受信した電子メールデータからテキストデータを抽出し、前記音素データ生成手段は、前記音声再生端末の仕様に対応して、前記抽出されたテキストデータに対応する音素データを生成し、前記データ送受信手段は、前記生成されたコンテンツを当該電子メールデータに付加して、送付先端末として識別した音声再生端末に送信することを特徴とする。

携帯電話などの処理性能、特にアプリケーションプログラムのデータ容量に制限がある端末においても、テキストデータの音声による音声再生を行うことができる。さらに、テキストデータの音声合成の機能を持たない端末において、電子メールや料理コンテンツなどに含まれるデータを再生することが可能となる。

本発明の実施の形態について、図を参照しながら以下に説明する。

本実施例のテキスト音声変換システムは、電子メールを音声データに変換して、ユーザに供給するものである。音声データは、メールの送受信によって提供される。

図1に、本実施例のテキスト音声変換システムのブロック構成図を示す。

まず、ユーザ宛に送信された電子メールデータは、１次メールサーバ１０１によって受信され、言語処理装置１０２に与えられる。言語処理装置１０２は、この電子メールの通信文であるテキストデータを、Ｊａｖａ（米国Sun Microsystemes,Inc.の登録商標、以下同じ）音声合成コンテンツに変換し、これをテキストデータに付加して音声付き電子メールデータを生成する。

音声付き電子メールデータは、２次メールサーバ１０３を介して、ユーザが使用する端末１０４に送信される。

ユーザが使用する端末１０４では、ユーザの操作によってこの音声付き電子メールデータがアクセスされると、音声付き電子メールデータに添付されたＪａｖａ音声合成コンテンツが起動される。そして、テキストデータに対する音声が音声合成され、これにより得られる音声再生データを再生して、音響信号としてスピーカあるいはイヤホーン（図示しない）から出力される。このようにして、ユーザは、電子メールデータの読み上げサービスを受けることができる。

ここで、１次メールサーバ１０１は、インターネットなどのネットワークを介し送信元から送信された電子メールデータ、すなわち、テキストデータあるいは画像データ等が添付されたテキストデータ等を受信し、これを素データとして言語処理装置１０２へ転送する。

言語処理装置１０２は、１次メールサーバ１０１から転送された素データを受け、素データから音声合成の対象となる通信文であるテキストデータを取り出す。

さらに、ユーザ端末１０４のデータ受容量等に応じて、このテキストデータに対する音声を提供するために必要となる音素データ群、端末向け言語データ、さらに、これらのデータによって音声出力するための音響処理プログラムからなるＪａｖａ音声合成コンテンツを生成する。このＪａｖａ音声合成コンテンツは、端末１０４にて動作可能なアプリケーションである。

なお、本実施例では、音声合成サービスをＪａｖａコンテンツとして提供する場合について説明を行うが、サービスの提供形態は必ずしもＪａｖａコンテンツに限定するものではない。例えば、ユーザの端末１０４において、音素データ群、端末向け言語データ、音響処理プログラムが含まれるコンテンツを受信し、そのコンテンツの中の音響処理プログラムを実行することによって、同コンテンツに含まれる音素データ群、端末向け言語データによって音声が提供できれば、いかなる方式によってもかまわない。

言語処理装置１０２は、続いて、１次メールサーバ１０１より転送された電子メールデータに、生成したＪａｖａ音声合成コンテンツを添付して、音声付き電子メールデータとし、これを２次メールサーバ１０３に送信する。

２次メールサーバ１０３は、言語処理装置１０２から送信された電子メールデータを受信し、端末１０４へのメール着信通知と電子メールデータの送信を行う。

端末１０４は、２次メールサーバ１０３より送信された電子メールデータを受信し、受信した電子メールデータに、Ｊａｖａ音声合成コンテンツが添付されていれば、テキストデータの表示に加えて、添付されたＪａｖａ音声合成コンテンツに含まれる音響処理プログラムを実行してテキストデータを音声として出力する。

さらに、端末１０４は、ユーザの指示を入力する入力手段を備えており、テキストデータのスクロール表示や表示の切換、また、音声の繰り返し再生や再生停止等、制御することができる。

以下、上記各構成要素の詳細な説明を行う。但し、本実施例において、１次メールサーバ１０１と２次メールサーバ１０３は、コンピュータによって構成される汎用のメールサーバであるため、その詳細な説明は省略する。

図２は、言語処理装置１０２の構成を示すブロック図である。本構成は、ハードウエア的に、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩなどで実現できる。また、ソフトウエア的に、メモリにロードされた記録制御機能のあるプログラムなどによって実現される。

本図に、ハードウェアおよびソフトウェアによって実現される機能ブロックを示す。これらの機能ブロックが、ハードウエアのみ、ソフトウエアのみ、それらの組合せによって、いろいろな形態で実現できることは言うまでもない。

通信処理部２０１は、電子メールデータの受信や、生成した音声付き電子メールデータの送信などの通信制御を行う。さらに、受信した電子メールデータからメールアドレスなどを用いて、送信先の端末を特定する。

プロセッサ２０２は、言語処理装置１０２内の各部を制御する。

言語処理部２０３は、中間言語生成部２１１、言語辞書２１２からなり、電子メールデータから抽出されたテキストデータを解析し、テキストデータの語彙や文節解析などを行って、表音記号、アクセント、ブレスなどの制御記号からなる中間言語データを生成する。

図４に、電子メールデータから抽出されたテキストデータの一例を示す。

この言語処理では、まず、中間言語生成部２１１が言語辞書２１２を参照し、抽出したテキストデータを中間形式である読みデータに変換する。この読みデータは、さらに表音データに変換される。図５(a)および図５(b)に、図４のテキストデータに対する中間処理結果である読みデータおよび表音データを各々示す。

図５(b)において、“→”は“長音”を示す。“↓"は“アクセント下げる”を示す。“↑”は“アクセント上げる”を示す。“／”は“ブレス”を示す制御記号である。

続いて、中間言語生成部２１１は、表音データを短音、単語、文節単位に分解して、表音記号表を生成する。この表音記号表は、音声合成の際に必要な中間言語によって表現された中間言語データである。図６に、図５のテキストデータに対する表音記号表を示す。

この中間言語データは、上記の如く、中間言語生成部２１１において言語辞書２１２を参照して生成されるが、このとき、言語辞書２１２のデータ量と、後述する中間言語処理部２０４が使用する音素辞書２２１のデータ量が膨大であるほど、すなわち、データが充実しているほど、より自然で、かつ、流暢な合成音声が提供される。

図２に戻り、中間言語処理部２０４は、音素辞書２２１、端末データベース２２２、音素抽出部２２３、端末向け言語生成部２２４から構成され、言語処理部２０３から出力された中間言語データに基づき、端末に対応した言語データと音素データ群を生成する。生成されたこれらのデータは、音響処理プログラムと共にＪａｖａ音声合成コンテンツに組み込まれる。

音素辞書２２１は、中間言語の表音記号に対する音素データを保持するデータベースである。ここで、音素データとは、短音、単語、文節単位などに対する合成音を出力するためのデータである。一般に、短音、単語、文節単位の順に、音声再生時の音質（流暢さ）は高くなるが、反面、音素データのサイズは大きくなる。

端末データベース２２２には、端末の汎用情報として、当該端末において処理することができるＪａｖａコンテンツのデータ量の上限値や、Ｊａｖａ音声合成コンテンツのオーバヘッドデータ量、例えば、音響合成プログラムのデータ量などの情報が、端末種別ごとに区分して保持されている。

さらにこの端末データベース２２２には、ユーザ毎の端末情報として、当該ユーザが使用する端末の機種番号、端末種別等の端末識別情報が当該ユーザのメールアドレスに対応付けて登録されている。なお、この登録は、ユーザが本実施例のサービスの利用開始時等に、予め、行われる。

音素抽出部２２３は、言語処理部２０３から入力された中間言語データと、端末データベース２２２から取得されるメール配信先端末１０４の端末固有情報に基づいて、音素辞書２２１を参照して、対象端末１０４に提供する音素データを決定する。このとき、提供される音素データ群のデータ量が、端末１０４が処理可能なデータ量の上限を超えないように制御される。すなわち、例えば、端末１０４で受容可能なデータサイズがｘＫバイトと制限されていると、端末１０４へ送信するＪａｖａ音声合成コンテンツはｘＫバイト以下でなければならない。このとき、Ｊａｖａ音声合成コンテンツのサイズに最も影響を与える音素データ群の作成にあたり、音素抽出部２２３は、音素辞書２２１から抽出する音素片データの組み合わせ、すなわち、組み合わせた音素片データの総量と再生音声品質とのトレードオフとなる音素データの抽出を行う。このようにして生成される音素データは、複数単位で音素データ群を構成する。

図７に、端末１０４に対応される音素データ群の一例を示す。この音素データ群は、図７のテキストデータに対するものである。図中、左列の音素番号は、後述の端末向け言語データを生成するときに引用記号として用いられる。

図２に戻り、端末向け言語生成部２２４は、音素抽出部２２３からの音素データ群および中間言語生成部２１１からの中間言語データに基づいて、端末向け言語データを生成する。この端末向け言語データは、音素データ群を参照する引用記号とアクセントやブレスなどの制御記号から構成される。

図８に、図4のテキストデータに対する端末向け言語データを示す。本図で示される“,”は、ブレス以外の音素片データの区切りを示し、続けて再生する制御記号である。また、“／”はブレスの制御記号、“ａ"は、アクセントを下げる制御記号、“ｂ”は、アクセントを上げる制御記号、”ｃ”は、音を伸ばす制御記号である。

図２に戻り、コンテンツ生成部２０５は、音響処理プログラムデータベース２３１およびパッケージ化処理部２３２から構成され、音素データ群、端末向け言語データと、これらを用いて言語音声を出力する音響処理プログラムを一体化してＪａｖａ音声合成コンテンツを生成する。生成されたＪａｖａ音声合成コンテンツは、電子メールデータに添付される。

音響処理プログラムデータベース２３１には、予め、端末の識別情報に対応付けて音響処理プログラムが格納されている。

パッケージ化処理部２３２は、端末に対応した音響処理プログラムを音響処理プログラムデータベース２３１から抽出し、抽出した音響処理プログラムと上記音素データ群および端末向け言語データとを一体化してＪａｖａ音声合成コンテンツを生成する。

図９は、Ｊａｖａ音声合成コンテンツのデータ構成図である。

ヘッダー９０１は、Ｊａｖａコンテンツであることを示す識別情報である。

Ｊａｖａプログラム９０２は、端末向け言語データ９０３と音素データ群９０４とから再生音声を得る音響処理プログラムであって、上記の如く、音響処理プログラムデータベース２３１から抽出されたものである。

端末向け言語データ９０３と音素データ群９０４は、再生音声用のデータであって、上記の如く、端末向け言語生成部２２４と音素抽出部２２３によって生成されたものである。具体的には、それぞれ後述する処理フロー（図３）におけるステップＳ１０４、Ｓ１０３における処理結果である。

次に、言語処理装置１０２における処理フローについて説明する。図３に本処理のフローを示す。

プロセッサ２０２は、通信処理部２０１を介して１次メールサーバ１０１から電子メールデータを素データとして受信し、受信した素データから通信文であるテキストデータを抽出する（Ｓ１０１）。

言語処理部２０３は、抽出したテキストデータから表音記号表を生成する言語処理を実行する。この言語処理では、まず、言語処理部２０３が言語辞書２１２を参照し、抽出したテキストデータを中間形式である読みデータに変換する。読みデータは、さらに表音データに変換される。

言語処理部２０３は、さらに表音データを短音、単語、文節単位に分解して、表音記号表を生成する（Ｓ１０２）。

音素抽出部２２３は、言語処理部２０３の処理結果である表音記号表に基づいて、音素辞書２２１と端末データベース２２２を参照しながら、端末１０４に適した音素データ群を生成する（Ｓ１０３）。

端末向け言語生成部２２４は、表音記号表と音素データ群を参照して、引用記号とアクセントや区切りの制御記号からなる端末向け言語データを生成する（Ｓ１０４）。

コンテンツ生成部２０５は、上記の処理結果の音素データ群、端末向け言語データ、さらに、これらのデータによって音声出力するための音響処理プログラムを一体化してＪａｖａ音声合成コンテンツとして生成する（Ｓ１０５）。

プロセッサ２０２は、生成したＪａｖａ音声合成コンテンツを電子メールデータに添付して端末１０４宛の音声付き電子メールデータとし、これを、通信処理部２０１を介して、２次メールサーバ１０３に送信する（Ｓ１０６）。

次に、ユーザが使用する端末１０４について説明する。図１０に端末１０４のブロック構成を示す。

端末１０４は、Ｊａｖａコンテンツの再生機能、電子メール機能、通話機能を備え、データバス４００、通信処理部４０１、プロセッサ４０２、メモリ４０３、コンテンツ処理部４０５、音響処理部４０６、スピーカ４０７、表示制御部４０８、ディスプレイ４０９、操作パネル４１０、マイク４１１の構成を含む。

データバス４００は、端末１０４の各部間のデータ授受を行う。

通信処理部４０１は、携帯電話網との間でデジタルデータを無線伝送する。

プロセッサ４０２は、データバス４００を介して端末１０４の各部を制御する。

メモリ４０３は、通信処理部４０１を介して受信したＪａｖａ音声合成コンテンツあるいは電子メールデータを格納する。

通話コーデック部４０４は、マイク４１１から入力された音声および通信処理部４０１から入力された音声データの通信方式に対応した符号化および復号を行なう。

コンテンツ処理部４０５は、メモリ４０３に格納されたＪａｖａ音声合成コンテンツを読み込んで音声出力処理を実行する。すなわち、Ｊａｖａ音声合成コンテンツ中のＪａｖａプログラムに従って、操作パネル４１０を介してユーザからの指示を受け、スピーカ４０７を介してユーザに聴覚情報を提供する。

音響処理部４０６は、マイク４１１からのアナログ音声信号を音声データに、逆に音声データをアナログ音声信号に変換しスピーカ４０７へ供給する。

スピーカ４０７は、受話音声あるいはＪａｖａ音声合成コンテンツの再生音声を出力する。

表示処理部４０８は、プロセッサ４０２の指示に従って、メモリ４０３に格納された電子メールデータから表示情報を生成し、これをディスプレイ４０９上に表示する。

ディスプレイ４０９は、ユーザに視覚的に情報を提供する。

操作パネル４１０は、ユーザからの指示を入力する。

マイク４１１は、ユーザの音声を取り込む。

なお、受信された電子メールデータの管理や表示は、プロセッサ４０２の制御により実行される。

また、コンテンツ処理部４０５は、プロセッサ４０２によって実行されるプログラムとして実現することも可能である。このとき、プロセッサ４０２によって実行されるプログラムは、メモリ４０３に格納されていてもよい。

なお、以下では、端末１０４を携帯電話としてＪａｖａ音声合成コンテンツの再生を説明するが、Ｊａｖａコンテンツが実行可能であり、音声を再生出力可能な端末であれば、携帯電話に限定することなく、如何なる端末であってもよいことは言うまでもない。

次に、端末１０4における音声付き電子メールデータの受信から音声再生までの処理について説明する。本処理のフローを図１１に示す。

プロセッサ４０２は、通信処理部４０１を介して、音声付き電子メールデータを受信し、メモリ４０３に格納する（Ｓ２０１）。

次に、プロセッサ４０２は、表示処理部４０８を制御しながら、通信文のテキストデータや画像データ等をディスプレイ４０９に表示する。このとき、Ｊａｖａ音声合成コンテンツが添付されていれば、その旨が表示される（Ｓ２０２）。

操作パネル４１０を介してＪａｖａ音声合成コンテンツの実行が指示されると（Ｓ２０３Ｙ）、プロセッサ４０２はコンテンツ処理部４０５にＪａｖａ音声合成コンテンツの実行を指示する。

コンテンツ処理部４０５は、メモリ４０３から音声付き電子メールデータに添付されているＪａｖａ音声合成コンテンツを取得し、これを実行する。これにより、Ｊａｖａ音声合成コンテンツに含まれる音響処理プログラムがテキストデータに対応する音素データを端末向け言語データに従って合成し、音声データが生成される（Ｓ２０４）。

生成された音声データは、音響処理部４０６を介して再生音声としてスピーカ４０７から出力され（Ｓ２０５）、本処理は終了する。このようにして、ユーザは電子メールの通信文が読み上げられた音声を聞くことができる。

一方、ステップＳ２０２の後、Ｊａｖａ音声合成コンテンツの実行が指示されない場合（Ｓ２０３Ｎ）、本処理は終了する。

なお、本実施例では、ユーザからの指示によってＪａｖａ音声合成コンテンツを実行するものであるが、これに代わり、受信したメールの通信文のテキストデータや画像データ等をディスプレイ４０９に表示する際、自動的にＪａｖａ音声合成コンテンツを実行するようにしてもよい。

上記実施例１では、Ｊａｖａ音声合成コンテンツは、音声付き電子メールデータとして電子メールデータに添付され、２次メールサーバ１０３からユーザ端末１０４に送信されていた。本実施例では、このＪａｖａ音声合成コンテンツは、コンテンツサーバからダウンロードされる形態によって、実施例１と同様のサービスを提供する。以下に詳細な説明を行う。

本実施例のシステムの構成図を図１２に示す。

本システムは、現在の携帯電話におけるインフラを用いて提供可能なサービス形態である。なお、本図において、実施例１における図１に示す構成要素と重複するものには同一の番号を付し、詳細な説明は省略する。

言語処理装置１２２は、言語処理装置１０２と同様、１次メールサーバ１０１から転送された電子メールデータを素データとして受信し、素データから音声合成の対象となる通信文に相当するテキストデータを抽出する。

さらに、ユーザの端末１０４の機能に対応して、このテキストデータに対する音声を提供するために必要な音素データ群、端末向け言語データ、さらに、これらのデータを用いて音声出力するための音響処理プログラムとから、Ｊａｖａ音声合成コンテンツを生成する。このとき、Ｊａｖａ音声合成コンテンツは、実施例１と異なり、素データを含む。

この生成されたＪａｖａ音声合成コンテンツは、コンテンツサーバ１２３に送信される。

さらに、言語処理装置１２２は、Ｊａｖａ音声合成コンテンツを端末１０４がコンテンツサーバ１２３からダウンロードするために、このＪａｖａ音声合成コンテンツのダウンロード用ＵＲＬ(Uniform Resource Locator）を含むように端末１０４のユーザ宛の電子メールデータ（以降、通知メールデータと呼ぶ）を生成し、２次メールサーバ１０３に送信する。２次メールサーバ１０３は、この通知メールデータを端末１０４に送信する。

一方、コンテンツサーバ１２３は、言語処理装置１２２から送信された端末１０４向けのＪａｖａ音声合成コンテンツを保持し、端末１０４からのＵＲＬへのアクセスが発生したとき、これに応答して、端末１０４向けのＪａｖａ音声合成コンテンツを送信する。

端末１０４は、２次メールサーバ１０３から受信した通知メールデータを表示し、ユーザに音声付き電子メールの受信を告示する。これに従い、ユーザが通知メールデータに含まれるＵＲＬにアクセスすると、コンテンツサーバ１２３からＪａｖａ音声合成コンテンツがダウンロードされる。

端末１０４では、ダウンロードされたＪａｖａ音声合成コンテンツが実行されると、テキストデータを音声合成して、音響信号としてスピーカあるいはイヤホーン（図示しない）から出力される。

図１３は、言語処理装置１２２の構成を示すブロック図である。実施例１における言語処理装置１０２と比較して、実施例１におけるコンテンツ生成部２０５を、コンテンツ生成部２０６の構成に変更し、さらに、通知メール生成部２６３を追加したものである。この他の構成は言語処理装置１０２と同一であるため、説明を省略する。

コンテンツ生成部２０６は、音響処理プログラムデータベース２３１、パッケージ化処理部２６２から構成される。

パッケージ化処理部２６２は、言語処理部２０３および中間言語処理部２０４によって得られた音素データ群、端末向け言語データ、これらのデータによって音声出力するための音響処理プログラムと、テキストデータである素データとを一体化してＪａｖａ音声合成コンテンツとして生成する。

なお、本実施例においては、音響処理プログラムは、素データを表示する機能も含み、この音響処理プログラムによって、素データが表示され、中間言語処理部２０４で生成された端末向け言語データが、音素データ群にしたがって音声再生される。

図１４に、Ｊａｖａ音声合成コンテンツの構成を示す。Ｊａｖａ音声合成コンテンツは、素データ、端末向け言語データ、音素データ群を含む。

実施例１における図９と比較して、素データを格納するフィールド９１０が追加されており、フィールド９０２に格納される音響処理プログラムには、素データを表示するためのプログラムが含まれる。

図１３に戻り、プロセッサ２０２は、生成されたＪａｖａ音声合成コンテンツの格納要求を、通信処理部２０１を介して、コンテンツサーバ１２３に送信する。コンテンツサーバ１２３は、Ｊａｖａ音声合成コンテンツが格納されるＵＲＬを通信処理部４０１に送信する。通信処理部４０１は、受信したＵＲＬを通知メール生成部２６３に転送する。

通知メール生成部２６３は、端末１０４がコンテンツサーバ１２３からＪａｖａ音声合成コンテンツをダウンロードするためのＵＲＬを含むよう、端末１０４のユーザ宛の通知メールデータを生成する。

プロセッサ２０２は、生成された通知メールデータを２次メールサーバ１０３へ通信処理部２０１を介して送信する。また、コンテンツサーバ１２３に対して、Ｊａｖａ音声合成コンテンツを通信処理部２０１を介して送信する。

コンテンツサーバ１２３は、受信したＪａｖａ音声合成コンテンツを上記ＵＲＬに格納するとともに、このＵＲＬへのアクセスによって、Ｊａｖａ音声合成コンテンツが端末１０４にダウンロードされるよう処理を行う。このコンテンツサーバ１２３は、コンピュータによって構成される汎用のサーバであるため、その詳細な構成についての説明は省略する。

次に、ユーザが使用する端末１０４における音声再生処理について説明する。

本実施例では、電子メールデータのテキストデータを音声によって再生するプログラムをサーバからダウンロードして取得する点が、実施例１と異なる。本処理の流れを図１５に示す。

プロセッサ４０２は、通信処理部４０１を介して、通知メールデータを受信し、メモリ４０３に格納する（Ｓ３０１）。

次に、プロセッサ４０２は、表示処理部４０８を制御しながら、通知メールデータを表示する（Ｓ３０２）。この通知メールデータに示されているＵＲＬに対して操作パネル４１０を介してアクセスが指示されると、端末１０４とコンテンツサーバ１２３間のデータ授受のための接続が確立される。接続が確立すると、コンテンツサーバ１２３は対象のデータを端末１０４に送信し、端末１０４は、Ｊａｖａ音声合成コンテンツであるデータを受信し、これをメモリ４０３にロードする（Ｓ３０３Ｙ）。

次に、操作パネル４１０を介してＪａｖａ音声合成コンテンツによる実行が指示されると（Ｓ３０４）、プロセッサ４０２はコンテンツ処理部４０５にＪａｖａ音声合成コンテンツに含まれる音響処理プログラムの実行を指示する（Ｓ３０５）。

コンテンツ処理部４０５は、メモリ４０３からＪａｖａ音声合成コンテンツを取得し、これを実行する。これにより、Ｊａｖａ音声合成コンテンツに含まれる音響処理プログラムがテキストデータを表示処理部４０８に表示させ、このテキストデータに対応する音素データを端末向け言語データに従って合成し、音声データを生成する。

生成された音声データは、音響処理部４０６を介して再生音声としてスピーカ４０７から出力され（Ｓ３０６）、本処理は終了する。このようにして、ユーザは電子メールの通信文が読み上げられた音声を聞くことができる。

一方、ステップＳ３０２の後、Ｊａｖａ音声合成コンテンツの実行が指示されない場合（Ｓ３０３Ｎ）、本処理は終了する。

図１６は、本発明をコンテンツ配信に利用した料理レシピ配信システムの構成を示す図である。

以下、料理レシピをコンテンツとして、Ｊａｖａ音声合成コンテンツを提供する一例を説明する。なお、本発明の配信されるコンテンツは本実施例の料理レシピに限らず、コンテンツに含まれるテキストデータを音声合成し、音声データによって出力するものであれば、如何なるコンテンツであってもよいことは言うまでもない。

本図において、第１実施例の図１と同一の構成要素は同一番号を付し、詳細な説明は省略する。

料理レジピデータベース１３０は、複数の料理レシピデータを格納したコンテンツのデータベースであり、料理レシピデータは、画像データ、表データ、テキストデータ等から構成される。

料理レシピ配信サーバ１３１は、ユーザの端末１０４からのアクセスによって、ユーザがリクエストした料理レシピのデータを、料理レシピデータベース１３０から取得して、言語処理装置１３２に提供する。さらに、言語処理装置１３２によって生成されたＪａｖａ音声コンテンツを受信し、端末１０４に送信する。

言語処理装置１３２は、実施例１における言語処理装置１０２と同一であり、料理レシピ配信サーバ１３１から料理レシピデータを受信し、受信した料理レシピデータを素データとして、端末１０４にて利用可能なＪａｖａ音声合成コンテンツを生成する。

なお、レシピ配信サーバ１３１は、料理レシピデータベース１３０より取得した料理レシピデータを、端末１０４からのリクエストに応じて加工することも可能である。例えば、１人前、２人前などの調理したい分量や、甘め、辛目といった嗜好情報を、ユーザ端末１０４から料理レシピ配信サーバ１３１に送信し、その情報に対応した料理レシピを配信することができる。

また、音素データベース２２１に、複数の音色に対する音素データ辞書を格納しておき、ユーザ端末１０４から料理レシピ配信サーバ１３１に対して再生音声の音色を指示すると、料理レシピ配信サーバ１３１は、言語処理装置１３２に対して音色を指示し、指定した音色の音素を採用して、音声合成用データを作成する。このようにして、再生音声を好みの音色、例えば、男性の声、女性の声、俳優の声など、で提供することも可能となる。

なお、料理レシピデータベース１３０、料理レシピサーバ１３１、言語処理装置１３２は、ハードウエア的に任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩなどで実現できる。また、ソフトウエア的にはメモリにロードされた記録制御機能のあるプログラムなどによって実現される。言うまでもなく、これらの機能は、ハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形態で実現することができる。

携帯電話などの処理性能、特にアプリケーションプログラムのデータ容量に制限が設けられている端末において、テキスト音声変換による音声再生を行うことができる。さらには、テキスト音声合成の機能を持たない端末に、電子メールや料理コンテンツなどに含まれるテキストデータを読み上げる機能を提供することができる。

本発明における実施例１のシステム構成図である。言語処理装置の構成を示すブロック図である。言語処理装置における処理フロチャートである。素データとなる通信文のテキストデータとその読みデータと発音データの一例である。テキストデータの例に対する言語処理部の処理結果を説明する図である。テキストデータの例に対する音素データ群を説明する図である。端末向け言語の制御記号を示す図である。テキストデータの例に対する端末向け言語データを示す図である。Ｊａｖａ音声合成コンテンツの構成を示す図である。端末の構成を示すブロック図である。端末における音声出力処理のフロチャートである。本発明における第２実施例を示すシステム構成図である。実施例２における言語処理装置の構成を示すブロック図である。実施例２におけるＪａｖａ音声合成コンテンツの構成を示す図である。は、実施例２における処理のフロチャートである。は、本発明における実施例３を示すシステム構成図である。

符号の説明

１０２言語処理装置
２０３言語処理部
２１２言語辞書
２１１中間言語生成部
２０４中間言語処理部
２２１音素辞書
２２２端末データベース
２２３音素抽出部
２２４端末向け言語生成部
２０５コンテンツ生成部
２３１音響処理プログラムデータベース
２３２パッケージ化処理部

Claims

テキストデータを音声として再生するためデータを生成する装置であって、
音素データのデータベースである音素辞書と、
テキストデータに対応する音素データを音素辞書から抽出して音素データ群を生成する音素データ生成手段と、
前記抽出された音素データをテキストデータに応じて連結する制御データを生成する制御データ生成手段と、
前記抽出された音素データと、それに応じて生成された制御データとを用いて音声出力を実行するプログラムを生成するプログラム生成手段と、
前記音素データ生成手段によって生成された音素データ群と、前記制御データ生成手段によって生成された制御データと、前記プログラム生成手段によって生成されたプログラムとを含むコンテンツを生成するコンテンツ生成手段と
を備えることを特徴とする音声再生用データ生成装置。
請求項１において、
前記制御データ生成手段によって生成される制御情報は、前記音素データの配列とこれら音素データのつながり具合とを規定する情報を含む、
ことを特徴とする音声再生用データ生成装置。
請求項１または２において、
前記音素データ生成手段は、言語辞書を用いてテキストデータを読みデータに変換し、当該読みデータから音素データを抽出する、
ことを特徴とする音声再生用データ生成装置。
請求項１ないし３の何れかにおいて、
さらに、データの送受信を行うデータ送受信手段と、
受信したデータからテキストデータを抽出するテキスト抽出手段とを備え、
前記音素データ生成手段は、前記抽出されたテキストデータに対応する音素データ群を生成し、
前記データ送受信手段は、前記生成されたコンテンツを送信する、
ことを特徴とする音声再生用データ生成装置。
請求項４において、
さらに、コンテンツの送信先である端末を識別し、当該端末のデータ受容量を特定する手段を備え、
前記音素データ生成手段は、前記送信先端末のデータ受容量に基づいて、前記テキストデータに対応する音素データ群を生成する、
ことを特徴とする音声再生用データ生成装置。
請求項４または５において、
前記データ送受信手段は、電子メールデータの送受信機能を備え、前記受信した電子メールデータから当該電子メールデータの送付先端末を抽出し、当該端末を前記音声再生端末として識別し、
前記テキスト抽出手段は、受信した電子メールデータからテキストデータを抽出し、
前記音素データ生成手段は、前記音声再生端末の仕様に対応して、前記抽出されたテキストデータに対応する音素データを生成し、
前記データ送受信手段は、前記生成されたコンテンツを当該電子メールデータに付加して、送付先端末として識別した音声再生端末に送信する、
ことを特徴とする音声再生用データ生成装置。