JP2007108450A

JP2007108450A - 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム

Info

Publication number: JP2007108450A
Application number: JP2005299529A
Authority: JP
Inventors: Yasushi Sato; 寧佐藤
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2005-10-14
Filing date: 2005-10-14
Publication date: 2007-04-26

Abstract

【課題】複数の受信端末毎に異なる情報を音声により迅速に配信するための音声配信システム等を提供することである。
【解決手段】メッセージ配信装置Ｔなどからメッセージデータ、地域ＩＤ等を供給されると、言語処理部１は、このメッセージデータが表すメッセージが音声合成の対象であるか否かを判断し、音声合成の対象であれば、音片編集部４が、メッセージ内の音片と読みが合致する音片の音片データを音片データベース６から索出させ、発声スピードの変換等を行わせる。一方で音片編集部４はメッセージの韻律予測を行い、索出された音片データのうちからメッセージ内の各音片に最もよく合致するものを１個ずつ、韻律予測結果に基づいて選択する。選択できなかった音片については音響処理部３１に単位音声毎の波形を表す波形データを供給させる。そして、選択した音片データや、音響処理部３１に供給させた波形データを互いに結合し、合成音声を再生する。
【選択図】図１

Description

この発明は、音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラムに関する。

音声等の情報を多数の端末に配信する技術は、防災放送などの分野で用いられている（例えば、特許文献１参照）。たとえば、防災放送の分野では、防災センタ等が音声信号を生成して、この防災センタ等が担当する各地域の街頭等に配置された端末へと送信する。この音声信号を受信した端末はこの音声信号を音声に変換し、この結果、この防災センタ等が担当する各地域で、同一の音声が放送される。
特開平９−２０５４０５号公報

しかし、放送すべき内容は必ずしも常に全端末に共通するものではなく、端末毎に異なった内容の放送をする必要が生じる場合もある。たとえば防災放送では、地域毎に異なった避難場所を告げるようにしなければ、避難誘導の目的を達することができない。

このような問題に対処するため、従来は、たとえば各端末の少なくともいずれかで放送されるべき内容を全端末に送信していた。このため、それぞれの端末の利用者は、自己に無関係な情報を多量に含んだ長時間の放送を聞いて、その中から必要な情報を選別する、という煩雑な作業を強いられていた。また、必要な情報を利用者が入手するまでに長時間を要していた。

この発明は、上記実状に鑑みてなされたものであり、複数の受信端末毎に異なる情報を迅速に配信するための音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラムを提供することを目的とする。

上記目的を達成するため、この発明の第１の観点にかかる音声再生装置は、
配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する再生手段と、を備える、
ことを特徴とする。

前記判別手段は、受信した前記配信先指定データが、配信先の如何を問わず強制的に音声を再生することを指示するものであるとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定するものであってもよい。

前記配信データには、当該配信データのエラーを訂正するための誤り訂正符号が付されていてもよく、
前記判別手段は、受信した配信データにエラーがある場合、当該配信データに付されている誤り訂正符号を用いて当該エラーを訂正する手段を備え、エラーが訂正された当該配信データを、受信した配信データとして扱うものであってもよい。

前記再生手段は、
音片を表す音片データを複数記憶する音片記憶手段と、
音声再生の対象と決定された配信データが示す文章を構成する音声と読みが共通している音片データを選択する処理を行う選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する手段と、を備えるものであってもよい。

前記欠落部分合成手段は、
音素を表し、又は、音素を構成する素片を表すデータを複数記憶する記憶手段と、
前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する合成手段と、を備えるものであってもよい。

前記欠落部分合成手段は、前記選択手段が音片データを選択できなかった前記音声の韻律を予測する欠落部分韻律予測手段を備えていてもよく、
前記合成手段は、前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得し、取得したデータを、当該データが表す音素又は素片が、前記欠落部分韻律予測手段による韻律の予測結果に合致するように変換して、変換されたデータを互いに結合することにより、当該音声の波形を表す音声データを合成するものであってもよい。

前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶していてもよく、
前記選択手段は、各前記音片データのうちから、前記文章を構成する音声と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択するものであってもよい。

前記再生手段は、前記合成音声を発声するスピードの条件を指定する発声スピードデータを取得し、前記合成音声を表すデータを構成する音片データ及び／又は音声データを、当該発声スピードデータが指定する条件を満たすスピードで発話される音声を表すように選択又は変換する発話スピード変換手段を備えるものであってもよい。

前記発話スピード変換手段は、前記合成音声を表すデータを構成する音片データ及び／又は音声データから素片を表す区間を除去し、又は、当該音片データ及び／又は音声データに素片を表す区間を追加することによって、当該音片データ及び／又は音声データを、前記発声スピードデータが指定する条件を満たすスピードで発話される音声を表すよう変換するものであってもよい。

前記音片記憶手段は、音片データの読みを表す表音データを、当該音片データに対応付けて記憶していてもよく、
前記選択手段は、前記文章を構成する音声の読みに合致する読みを表す表音データが対応付けられている音片データを、当該音声と読みが共通する音片データとして扱うものであってもよい。

また、この発明の第２の観点にかかる音声配信装置は、
配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信する手段を備え、
前記外部の装置は、当該配信データ及び当該配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるとき、当該配信先指定データに対応付けられている配信データが示す文章を読み上げる音声を再生する機能を有する、
ことを特徴とする。

また、この発明の第３の観点にかかる音声配信システムは、
送信手段と、受信手段とより構成された情報配信システムであって、
前記送信手段は、配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて送信する手段を備え、
前記受信手段は、
互いに対応付けられた配信データ及び配信先指定データを受信し、受信した当該配信先指定データが示す配信先に前記受信手段自身が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する再生手段と、を備える、
ことを特徴とする。

また、この発明の第４の観点にかかる音声再生方法は、
配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、
含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定し、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する、
ことを特徴とする。

また、この発明の第５の観点にかかる音声配信方法は、
配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信することを特徴とする音声配信方法であって、
前記外部の装置は、当該配信データ及び当該配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるとき、当該配信先指定データに対応付けられている配信データが示す文章を読み上げる音声を再生する機能を有する、
ことを特徴とする。

また、この発明の第６の観点にかかるプログラムは、
音声データが表す音声を再生する機能を有するコンピュータを、
配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を表す音声データを生成し、当該音声データが表す音声を再生する再生手段と、
して機能させるためのものであることを特徴とする。

また、この発明の第７の観点にかかるプログラムは、
コンピュータを、配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信する手段として機能させるためのものであることを特徴とする。

この発明によれば、複数の受信端末毎に異なる情報を迅速に配信するための音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラムが実現される。

以下、図面を参照して、この発明の実施の形態を説明する。
図１は、この発明の実施の形態に係る音声合成端末の構成を示す図である。図示するように、この音声合成端末は、言語処理部１と、単語辞書２と、規則合成処理部３と、音片編集部４と、検索部５と、音片データベース６と、伸長部７と、話速変換部８とにより構成されている。
このうち、規則合成処理部３は、音響処理部３１と、検索部３２と、伸長部３３と、波形データベース３４とより構成されている。
また、音片編集部４は、一致音片決定部４１と、韻律予測部４２と、出力合成部４３とより構成されている。

言語処理部１、音響処理部３１、検索部３２、伸長部３３、音片編集部４、検索部５、伸長部７及び話速変換部８は、いずれも、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、それぞれ後述する処理を行う。
出力合成部４３は更に、Ｄ／Ａ（Digital-to-Analog）コンバータ、ＡＦ（Audio Frequency）増幅器及びスピーカ等を備えている。

また、言語処理部１を構成するメモリは、この音声合成端末が設置されている地域を示す情報を、あらかじめ記憶している。

なお、言語処理部１、音響処理部３１、検索部３２、伸長部３３、音片編集部４、検索部５、伸長部７及び話速変換部８の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。従って、例えば、伸長部３３の機能を行うプロセッサが伸長部７の機能を行ってもよいし、１個のプロセッサが音響処理部３１、検索部３２及び伸長部３３の機能を兼ねて行ってもよい。また、例えば、出力合成部４３の機能を行うプロセッサが話速変換部８の機能を行うようにしてもよい。

単語辞書２は、ＰＲＯＭ（Programmable Read Only Memory）やハードディスク装置等の不揮発性メモリより構成されている。単語辞書２には、表意文字（例えば、漢字など）を含む単語等と、この単語等の読みを表す表音文字（例えば、カナや発音記号など）とが、この音声合成端末の製造者等によって、あらかじめ互いに対応付けて記憶されている。

波形データベース３４は、ＰＲＯＭやハードディスク装置等の不揮発性メモリより構成されている。波形データベース３４には、表音文字と、この表音文字が表す音素を構成する素片（すなわち、１個の音素を構成する音声の波形１サイクル分（又はその他所定数のサイクル分）の音声）を表す素片波形データをエントロピー符号化して得られる圧縮波形データとが、この音声合成端末の製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、エントロピー符号化される前の素片波形データは、例えば、ＰＣＭ（Pulse Code Modulation）化されたデジタル形式のデータからなっていればよい。

音片データベース６は、ＰＲＯＭやハードディスク装置等の不揮発性メモリより構成されている。
音片データベース６には、例えば、図２に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース６に格納されているデータは、ヘッダ部ＨＤＲ、インデックス部ＩＤＸ、ディレクトリ部ＤＩＲ及びデータ部ＤＡＴの４種に分かれている。

なお、音片データベース６へのデータの格納は、例えば、この音声合成端末の製造者によりあらかじめ行われる。

ヘッダ部ＨＤＲには、音片データベース６を識別するデータや、インデックス部ＩＤＸ、ディレクトリ部ＤＩＲ及びデータ部ＤＡＴのデータ量、データの形式、著作権等の帰属などを示すデータが格納される。

データ部ＤＡＴには、音片の波形を表す音片データをエントロピー符号化して得られる圧縮音片データが格納されている。
なお、音片とは、音声のうち音素１個以上を含む連続した１区間をいい、通常は単語１個分又は複数個分の区間からなる。音片は接続詞を含む場合もある。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ（例えば、ＰＣＭされたデジタル形式のデータ）からなっていればよい。

ディレクトリ部ＤＩＲには、個々の圧縮音声データについて、
（Ａ）この圧縮音片データが表す音片の読みを示す表音文字を表すデータ（音片読みデータ）、
（Ｂ）この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
（Ｃ）この圧縮音片データのデータ長を表すデータ、
（Ｄ）この圧縮音片データが表す音片の発声スピード（再生した場合の時間長）を表すデータ（スピード初期値データ）、
（Ｅ）この音片のピッチ成分の周波数の時間変化を表すデータ（ピッチ成分データ）、
が、互いに対応付けられた形で格納されている。（なお、音片データベース６の記憶領域にはアドレスが付されているものとする。）

なお、図２は、データ部ＤＡＴに含まれるデータとして、読みが「サイタマ」である音片の波形を表す、データ量１４１０ｈバイトの圧縮音片データが、アドレス００１Ａ３６Ａ６ｈを先頭とする論理的位置に格納されている場合を例示している。（なお、本明細書及び図面において、末尾に“ｈ”を付した数字は１６進数を表す。）

なお、上述の（Ａ）〜（Ｅ）のデータの集合のうち少なくとも（Ａ）のデータ（すなわち音片読みデータ）は、音片読みデータが表す表音文字に基づいて決められた順位に従ってソートされた状態で（例えば、表音文字がカナであれば、五十音順に従って、アドレス昇順に並んだ状態で）、音片データベース６の記憶領域に格納されている。
また、上述のピッチ成分データは、例えば、図示するように、音片のピッチ成分の周波数を音片の先頭からの経過時間の１次関数で近似した場合における、この１次関数の切片β及び勾配αの値を示すデータからなっていればよい。（勾配αの単位は例えば［ヘルツ／秒］であればよく、切片βの単位は例えば［ヘルツ］であればよい。）
また、ピッチ成分データには更に、圧縮音片データが表す音片が鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。

インデックス部ＩＤＸには、ディレクトリ部ＤＩＲのデータのおおよその論理的位置を音片読みデータに基づいて特定するためのデータが格納されている。具体的には、例えば、音片読みデータがカナを表すものであるとして、カナ文字と、先頭１字がこのカナ文字であるような音片読みデータがどのような範囲のアドレスにあるかを示すデータ（ディレクトリアドレス）とが、互いに対応付けて格納されている。

なお、単語辞書２、波形データベース３４及び音片データベース６の一部又は全部の機能を単一の不揮発性メモリが行うようにしてもよい。

次に、この音声合成端末の動作を説明する。以下では、言語処理部１がまず、メッセージデータ、地域ＩＤ（IDentifier）及び発声スピードデータの組を１個以上、外部から取得したとして説明する。
メッセージデータは、表音文字及び／又は表意文字を含む文章からなるメッセージを記述するデータである。
地域ＩＤは、当該地域ＩＤと同じ組に属するメッセージデータが表すメッセージが読み上げられるべき地域を指定するデータである。
発声スピードデータは、当該発声スピードデータと同じ組に属するメッセージデータが表すメッセージの発声スピードを指定するデータであり、具体的には、たとえば当該メッセージを発声する時間長の指定値を、当該メッセージの発声スピードの指定値として示すものである。

言語処理部１は、たとえば、図１に示す外部のメッセージ配信装置Ｔあるいはその他の装置から外部の通信回線を介し、互いに対応付けられた形で伝送されるメッセージデータ、地域ＩＤ及び発声スピードデータを、図示しないインターフェース回路を介して取得する。

メッセージ配信装置Ｔは、たとえばコンピュータより構成されていればよく、メッセージデータ、地域ＩＤ及び発声スピードデータを自ら生成し、あるいは外部から取得して、メッセージデータ、当該メッセージデータが表すメッセージが読み上げられるべき地域を指定する地域ＩＤ、及び当該メッセージデータが表すメッセージの発声スピードを指定する発声スピードデータを互いに対応付けて、図示しないインターフェース回路を介し、言語処理部１へと送信するものであればよい。なお、パーソナルコンピュータに上述のメッセージ配信装置Ｔの動作を実行させるためのプログラムを格納した記録媒体（例えば、フレキシブルディスクやＣＤ−ＲＯＭ等）から該プログラムをインストールすることにより、上述の処理を実行するメッセージ配信装置Ｔを構成することができる。
また、メッセージデータ、地域ＩＤ及び発声スピードデータの伝送に用いられる伝送路は任意であり、有線回線であっても無線回線でもよい。

メッセージデータ、地域ＩＤ及び発声スピードデータの組をメッセージ配信装置Ｔ等より取得すると、言語処理部１はまず、取得した組に含まれる地域ＩＤに基づいて、当該組内のメッセージデータを音声合成の対象とするか否かを判断する。
具体的には、たとえば、取得した組に含まれる地域ＩＤが示す地域が、言語処理部１自身が記憶する情報が示す地域に合致するか否かを判別する。そして、合致していれば、当該組内のメッセージデータを音声合成の対象とすると決定し、合致していなければ、当該組内のメッセージデータは音声合成の対象としないと決定して破棄する。

次に、言語処理部１は、音声合成の対象とすると決定したメッセージデータが表すメッセージに含まれるそれぞれの表意文字について、その読みを表す表音文字を、単語辞書２を検索することにより特定する。そして、この表意文字を、特定した表音文字へと置換する。そして、言語処理部１は、メッセージ内の表意文字がすべて表音文字へと置換された結果得られる表音文字列を、音片編集部４の一致音片決定部４１及び韻律予測部４２に供給する。

言語処理部１より表音文字列を供給された韻律予測部４２は、この表音文字列に、例えば「藤崎モデル」や「ＴｏＢＩ（Tone and Break Indices）」等の韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律（アクセント、イントネーション、強勢、音素の時間長など）を予測し、予測結果を表す韻律予測データを生成する。そしてこの韻律予測データを、一致音片決定部４１に供給する。

一方、一致音片決定部４１は、言語処理部１より表音文字列を供給されると、この表音文字列に含まれる音片の読みを表す表音文字に合致する表音文字が対応付けられている圧縮音片データをすべて索出するよう、検索部５に指示する。

検索部５は、一致音片決定部４１の指示に応答して音片データベース６を検索し、該当する圧縮音片データと、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データとを索出し、索出された圧縮波形データを伸長部３３へと供給する。複数の圧縮音片データが共通の表音文字ないし表音文字列に該当する場合も、該当する圧縮音片データすべてが、音声合成に用いられるデータの候補として索出される。一方、圧縮音片データを索出できなかった音片があった場合、検索部５は、該当する音片を識別するデータ（以下、欠落部分識別データと呼ぶ）を生成する。

伸長部３３は、検索部５より供給された圧縮音片データを、圧縮される前の音片データへと復元し、検索部５へと返送する。検索部５は、伸長部３３より返送された音片データと、索出された音片読みデータ、スピード初期値データ及びピッチ成分データとを、検索結果として話速変換部８へと供給する。また、欠落部分識別データを生成した場合は、この欠落部分識別データも話速変換部８へと供給する。

一方、一致音片決定部４１は、話速変換部８に対し、話速変換部８に供給された音片データを変換して、当該音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致するようにすることを指示する。

話速変換部８は、一致音片決定部４１の指示に応答し、検索部５より供給された音片データを指示に合致するように変換して、一致音片決定部４１に供給する。具体的には、例えば、検索部５より供給された音片データを個々の音素を表す区間へと区切り、得られたそれぞれの区間について、当該区間から、当該区間が表す音素を構成する素片を表す部分を特定して、特定された部分を（１個もしくは複数個）複製して当該区間内に挿入したり、又は、当該区間から当該部分を（１個もしくは複数個）除去することによって、当該区間の長さを調整することにより、この音片データ全体のサンプル数を、一致音片決定部４１の指示したスピードに合致する時間長にすればよい。なお、話速変換部８は、各区間について、素片を表す部分を挿入又は除去する個数を、各区間が表す音素相互間の時間長の比率が実質的に変化しないように決定すればよい。

また、話速変換部８は、検索部５より供給された音片読みデータ及びピッチ成分データも一致音片決定部４１に供給し、欠落部分識別データを検索部５より供給された場合は、更にこの欠落部分識別データも一致音片決定部４１に供給する。

なお、発声スピードデータが一致音片決定部４１に供給されていない場合、一致音片決定部４１は、話速変換部８に対し、話速変換部８に供給された音片データを変換せずに一致音片決定部４１に供給するよう指示すればよく、話速変換部８は、この指示に応答し、検索部５より供給された音片データをそのまま一致音片決定部４１に供給すればよい。また、話速変換部８に供給された音片データのサンプル数が、一致音片決定部４１の指示したスピードに合致する時間長に既に合致している場合も、話速変換部８は、この音片データを変換せずそのまま一致音片決定部４１に供給すればよい。

一致音片決定部４１は、話速変換部８より音片データ、音片読みデータ及びピッチ成分データを供給され、また、韻律予測部４２より韻律予測データを供給されると、供給された音片データのうちから、メッセージを構成する音片の波形に近似できる波形を表す音片データを、音片１個につき１個ずつ選択する。

一致音片決定部４１は、音片データを選択する具体的な手法としては、例えば以下（１）〜（４）として記す手法を用いる。
（１）まず、１個の音片について、話速変換部８より供給された音片データ（すなわち、定型メッセージ内の音片と読みが合致する音片データ）が１個であれば、当該音片データを、定型メッセージ内の音片の波形に近いものとして選択する。

（２）話速変換部８より供給された音片データが１個の音片について複数ある場合は、これらの音片データのうち、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容と定型メッセージに含まれる音片のアクセント（いわゆる韻律）の予測結果との間に所定量以上の強い相関がある場合（例えば、アクセントの位置の時間差が所定量以下である場合）に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。なお、定型メッセージ内の音片のアクセントの予測結果は、定型メッセージの韻律の予測結果より特定できるものであり、音片編集部４は、例えば、ピッチ成分の周波数が最も高いと予測されている位置をアクセントの予測位置であると解釈すればよい。一方、音片データが表す音片のアクセントの位置については、例えば、ピッチ成分の周波数が最も高い位置を上述のピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。また、韻律予測は、文章全体に対して行ってもよいし、文章を所定の単位に分割し、それぞれの単位に対して行ってもよい。

（３）上記（２）の条件（つまり、読みを表す表音文字及びアクセントの合致という条件）を満たすとして選択された音片データが１個の音片につきなお複数ある場合は、（２）の条件を満たし、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。音片編集部４は、音片データが表す音声の鼻濁音化や無声化の有無を、話速変換部８より供給されたピッチ成分データに基づいて判別すればよい。

（４）上記（３）の条件（つまり、読みを表す表音文字、アクセント、及び鼻濁音化や無声化の有無の合致という条件）を満たすとして選択された音片データが１個の音片につきなお複数あった場合は、これら複数の音片データを、（３）の条件より更に厳格な条件に従って１個に絞り込むものとする。

そして一致音片決定部４１は、選択した音片データを、出力合成部４３へと供給する。この場合、一致音片決定部４１は、話速変換部８より欠落部分識別データも供給されていれば、欠落部分識別データが示す音片の読みを表す表音文字列（以下、欠落部分表音文字列と呼ぶ）を、言語処理部１より供給された表音文字列より抽出して音響処理部３１に供給し、この音片の波形を合成するよう指示する。

また、欠落部分表音文字列を抽出した場合、一致音片決定部４１は、韻律予測データより、この欠落部分表音文字列が表す音声の韻律を表している部分（以下、欠落部分韻律予測データと呼ぶ）も抽出して、音響処理部３１に供給する。

指示を受けた音響処理部３１は、一致音片決定部４１より供給された欠落部分表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す音素を構成する素片の波形を検索するよう、検索部３２に指示する。

検索部３２は、この指示に応答して波形データベース３４を検索し、この指示の内容に合致する圧縮波形データを索出する。そして、索出された圧縮波形データを伸長部３３へと供給する。

伸長部３３は、検索部３２より供給された圧縮波形データを、圧縮される前の素片波形データへと復元し、検索部３２へと返送する。検索部３２は、伸長部３３より返送された素片波形データを、検索結果として音響処理部３１へと供給する。

音響処理部３１は、検索部３２より素片波形データを供給されると、供給された素片波形データを用いて、言語処理部１が供給した表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを生成する。

具体的には、音響処理部３１は、例えば、検索部３２より供給された各々の素片波形データが表す素片により構成されている音素の時間長を、一致音片決定部４１より供給された欠落部分韻律予測データに基づいて特定する。そして、特定した音素の時間長を、当該素片波形データが表す素片の時間長で除した値に最も近い整数を求め、当該素片波形データを、求めた整数に等しい個数分相互に結合することにより、音声波形データを生成すればよい。

なお、音響処理部３１は、音声波形データが表す音声の時間長を欠落部分韻律予測データに基づいて決定するのみならず、音声波形データを構成する素片波形データを加工して、音声波形データが表す音声が、当該欠落部分韻律予測データが示す韻律に合致する強度やイントネーション等を有するようにしてもよい。

そして、音響処理部３１は、生成された音声波形データを、言語処理部１より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部４の出力合成部４３へと供給する。

出力合成部４３は、素片波形データより生成された音声波形データを音響処理部３１より供給され、また、一致音片決定部４１より音片データを供給されると、供給されたそれぞれの音声波形データに含まれる素片波形データの個数を調整することにより、当該音声波形データが表す音声の時間長を、一致音片決定部４１より供給された音片データが表す音片の発声スピードと整合するようにする。

具体的には、出力合成部４３は、例えば、一致音片決定部４１より音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、音響処理部３１より供給された音声波形データが表す音素の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、出力合成部４３は、当該比率を特定するため、例えば、一致音片決定部４１が供給した音片データの生成に用いられた元の音片データを検索部５より取得し、これら２個の音片データ内で互いに同一の音素を表す区間を１個ずつ特定すればよい。そして、一致音片決定部４１が供給した音片データ内で特定した区間内に含まれる素片の個数が、検索部５より取得した音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音素の時間長の増減の比率として特定するようにすればよい。

なお、音声波形データが表す音素の時間長が、一致音片決定部４１より供給された音片データが表す音片のスピードに既に整合している場合、又は一致音片決定部４１から出力合成部４３へと供給された音片データがない場合（具体的には、例えば上述の比率が閾値に達していなかった場合や、音片データが１個も選択されなかった場合）は、出力合成部４３は、音声波形データ内の素片波形データの個数を調整する必要はない。

次いで、出力合成部４３は、素片波形データの個数の調整が完了した音声波形データと、一致音片決定部４１より供給された音片データとを、メッセージデータが示すメッセージ内での各音片ないし音素の並びに従った順序で互いに結合することにより、合成音声を表すデータを形成する。そして出力合成部４３は、合成音声を表すデータをＤ／Ａ変換して増幅し、得られたアナログ形式の信号によって自己のスピーカ等を駆動することにより、合成音声を再生する。

なお、話速変換部８より供給されたデータに欠落部分識別データが含まれていない場合は、音響処理部３１に波形の合成を指示することなく直ちに、音片編集部４が選択した音片データを、メッセージデータが示すメッセージ内での各音片の並びに従った順序で互いに結合することにより、合成音声を表すデータを形成すればよい。

以上説明した音声合成端末は、供給されたメッセージデータのうちから、自己が設置されている地域で再生されるべきメッセージを表すものを選択して、選択されたメッセージデータが表すメッセージを再生する。
このため、互いに異なる地域に向けられた複数のメッセージが一括して供給された場合でも、そのすべてが、必要性の有無を問わず長時間に渡って再生される、という問題も生じず、従って、利用者が多数のメッセージの中から自己にとって必要な情報を聞き分けることを強いられる、という問題も解消される。
また、メッセージデータを配信する装置も、メッセージデータ毎に配信先を選択する必要がなく、メッセージデータを当該装置が担当する音声合成端末すべてに一括して送信しても、音声合成端末毎に異なるメッセージが利用者へと迅速に配信される。

また、この音声合成端末は、再生すべきメッセージを読み上げる音声自体（波形等）を表すデータを外部から取得するものではなく、メッセージの読みを示すデータを取得して、この読みに相当する音声を再生するものである。メッセージの読みを示すデータは、メッセージを読み上げる音声自体を表すデータよりデータの量が大幅に少ないことが期待できるので、メッセージの送受信は迅速に行われる。

また、この音声合成端末では、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。音片データベース６の記憶容量は、音素毎に波形を記憶する場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成端末は小型軽量に構成することができ、また高速な処理にも追随できる。

一方、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。圧縮波形データが素片の波形を表すものであるため、波形データベース３４の記憶容量は、圧縮波形データが音素の波形を表すものである場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成端末は小型軽量に構成することができ、また高速な処理にも追随できる。

また、素片を用いて規則合成を行えば、音素を用いて規則合成を行う場合と異なり、音素の端の部分に現れる特殊な波形の影響を受けることなく音声合成を行うことができるため、少ない種類の素片で自然な音声を得ることができる。
すなわち、人が発声する音声では、先行する音素から後続の音素へと遷移する境界で、これらの音素双方の影響を受けた特殊な波形が現れることが知られており、一方、規則合成に用いられる音素は、採取した段階で既にその端部にこの特殊な波形を含んでいるため、音素を用いて規則合成を行う場合は、音素間の境界の波形の様々なパターンを再現可能とするために膨大な種類の音素を用意するか、あるいは、音素間の境界の波形が自然な音声とは異なった合成音声を合成することで満足する必要がある。しかし、素片を用いて規則合成を行う場合は、音素の端部以外の部分から素片を採取するようにすれば、音素間の境界の特殊な波形の影響をあらかじめ排除することができる。このため、膨大な種類の素片を用意することを要せず、自然な音声を得ることができる。

なお、この音声合成端末の構成は上述のものに限られない。
例えば、地域ＩＤは、必ずしも特定の地域を指定するものでなくてもよく、特定のメッセージを再生すべきか否かの判断基準をこの音声合成端末に与えるようなデータである限り任意である。
従って、地域ＩＤは、たとえば複数の地域を指定するものでもよいし、地域とは無関係に１個又は複数の音声合成端末を指定するものでもよい。また、すべての音声合成端末に強制的にメッセージの再生を行うことを指示するものでもよい。また、メッセージを再生する対象の音声合成端末が満たすべき任意の条件を指定するものでもよい。

また、メッセージデータ、地域ＩＤ及び発声スピードデータの組には、この組をなすデータの所定の一部又は全部のエラーを訂正するための誤り訂正符号が付されていてもよい。この場合、言語処理部１は、取得したメッセージデータ、地域ＩＤ及び発声スピードデータの組のうち、エラーの訂正の対象となり得る部分について、公知の手法によりエラーの有無を検証し、エラーが発見された場合は、この組に付されている誤り訂正符号を用いて、エラーの訂正を行うようにしてもよい。

また、素片波形データや音片データはＰＣＭ形式のデータである必要はなく、データ形式は任意である。
また、波形データベース３４や音片データベース６は素片波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース３４や音片データベース６が素片波形データや音片データをデータ圧縮されていない状態で記憶している場合、この音声合成端末は伸長部３３を備えていなくてもよい。

また、波形データベース３４は、必ずしも素片の波形を個々に分解された形で記憶している必要はなく、例えば、複数の素片からなる音声の波形と、この波形内で個々の素片が占める位置を識別するデータとを記憶するようにしてもよい。またこの場合、音片データベース６が波形データベース３４の機能を行ってもよい。つまり、波形データベース３４内には、音片データベース６と同様の形式で一連の音声データが連なって記憶されていてもよく、この場合は、波形データベースとして利用するために、音声データ内の音素を構成する素片毎に、表音文字やピッチ情報等が関連づけて記憶されているものとする。

また、ピッチ成分データは音片データが表す音片のピッチ長の時間変化を表すデータであってもよい。この場合、一致音片決定部４１は、ピッチ長が最も短い位置（つまり、周波数がもっとも高い位置）をピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。

また、韻律予測部４２は、特定の音片の韻律を表す韻律登録データをあらかじめ記憶し、定型メッセージにこの特定の音片が含まれている場合は、この韻律登録データが表す韻律を、韻律予測の結果として扱うようにしてもよい。
また、韻律予測部４２は、過去の韻律予測の結果を韻律登録データとして新たに記憶するようにしてもよい。

また、音片編集部４は、音響処理部３１より返送された波形データを話速変換部８に供給することにより、当該波形データが表す波形の時間長を、発声スピードデータが示すスピードに合致させるようにしてもよい。

波形データベース３４が記憶する圧縮波形データは、必ずしも素片を表すものである必要はなく、例えば、波形データベース３４が記憶する表音文字が表す単位音声（例えば、１個の音素全体など）の波形を表す波形データ、あるいは当該波形データをエントロピー符号化して得られるデータであってもよい。

また、波形データベース３４は、素片の波形を表すデータと、音素の波形を表すデータとを、両方記憶していてもよい。この場合、音響処理部３１は、配信文字列等に含まれる表音文字が表す音素のデータを検索部３２に索出させ、該当する音素が索出されたなかった表音文字について、当該表音文字が表す音素を構成する素片を表すデータを検索部３２に索出させ、索出された、素片を表すデータを用いて、音素を表すデータを生成するようにしてもよい。

また、話速変換部８が、音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる手法は任意である。従って、話速変換部８は、例えば検索部５より供給された音片データをリサンプリングして、この音片データのサンプル数を、一致音片決定部４１の指示した発声スピードに合致する時間長に相当する数へと増減させてもよい。

また、この音声合成端末は必ずしも話速変換部８を備えている必要はない。この音声合成端末が話速変換部８を備えない場合、韻律予測部４２が発話スピードを予測し、一致音片決定部４１は、検索部５が取得した音片データのうち、所定の判別条件下で発話スピードが韻律予測部４２による予測の結果に合致するものを選択し、一方、発話スピードが当該予測の結果に合致しないものを選択の対象から除外するものとしてもよい。なお、音片データベース６は、音片の読みが共通で発話スピードが互いに異なる複数の音片データを記憶していてもよい。

また、出力合成部４３が、音声波形データが表す音素の時間長を、音片データが表す音片の発声スピードと整合させる手法も任意である。従って、出力合成部４３は、例えば、一致音片決定部４１より音片データに含まれる各区間が表す音素の時間長が元の時間長に対して増減した比率を特定した上、音声波形データをリサンプリングして、音声波形データのサンプル数を、一致音片決定部４１の指示した発声スピードと整合する時間長に相当する数へと増減させてもよい。

また、発声スピードは音片毎に異なっていてもよい。（従って、発声スピードデータは、音片毎に異なる発声スピードを指定するものであってもよい。）そして、出力合成部４３は、互いに発声スピードが異なる２個の音片の間に位置する各音声の音声波形データについては、当該２個の音片の発声スピードを補間（例えば、直線補間）することにより、当該２個の音片の間にあるこれらの音声の発声スピードを決定し、決定した発声スピードに合致するように、これらの音声を表す音声波形データを変換するようにしてもよい。

また、上述のシステムでは、例えば韻律予測部４２が、文章全体に対して韻律予測（発話スピードの予測も含む）を行ってもよいし、所定の単位ごとに韻律予測を行ってもよい。また、文章全体に対して韻律予測を行った場合、読みが一致する音片があれば更に韻律が所定条件内で一致するか否かを判別し、一致していれば当該音片を採用するようにしてもよい。一致する音片が存在しなかった部分については、規則合成処理部３が素片を基に音声を生成するものとし、ただし、素片を基に合成する部分のピッチやスピードを、文章全体若しくは所定の単位ごとに行われた韻律予測の結果に基づいて調整するものとしてもよい。これによって、音片と、素片を基に生成する音声とを組み合わせて合成する場合でも、自然な発話が行われる。

また、言語処理部１に入力される文字列が表音文字列である場合、言語処理部１は、韻律予測とは別に公知の自然言語解析処理を行い、一致音片決定部４１が、自然言語解析処理の結果に基づいて音片の選択を行ってもよい。これによって、単語（名詞や動詞等の品詞）毎に文字列を解釈した結果を用いて音片選択を行うことが可能になり、単に表音文字列と一致する音片を選択する場合に比べて自然な発話を行うことができる。

以上、この発明の実施の形態を説明したが、この発明にかかる音声配信システム、音声配信装置、音声再生装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、Ｄ／Ａ変換器やＡＦ増幅器やスピーカ等を備えたパーソナルコンピュータに上述の言語処理部１、単語辞書２、規則合成処理部３、音片編集部４、検索部５、音片データベース６、伸長部７及び話速変換部８の動作を実行させるためのプログラムを格納した記録媒体（ＣＤ−ＲＯＭ、ＭＯ、フロッピー（登録商標）ディスク等）から該プログラムをインストールすることにより、上述の処理を実行する音声合成端末を構成することができる。

そして、このプログラムを実行し図１の音声合成端末として機能するパーソナルコンピュータが、図１の音声合成端末の動作に相当する処理として、図３及び図４に示す処理を行うものとする。図３及び図４は、このパーソナルコンピュータが実行する処理を示すフローチャートである。

すなわち、このパーソナルコンピュータが、外部より、上述のメッセージデータ、地域ＩＤ及び発声スピードデータの組を取得すると（図３、ステップＳ１０１）、まず、取得した組に含まれる地域ＩＤに基づいて、当該組内のメッセージデータを音声合成の対象とするか否かを判断する（ステップＳ１０２）。そして、音声合成の対象にならないと判断すれば、当該組内のメッセージデータを破棄し、処理を終了する。（なお、このパーソナルコンピュータがメッセージデータ、地域ＩＤ及び発声スピードデータを取得する手法は任意である。）

一方、このメッセージデータが音声合成の対象であるとステップＳ１０２で判断すると、このメッセージデータが表すメッセージに含まれるそれぞれの表意文字について、その読みを表す表音文字を、単語辞書２を検索することにより特定し、この表意文字を、特定した表音文字へと置換する（ステップＳ１０３）。ステップＳ１０３の処理の結果、メッセージ内の表意文字をすべて表音文字へと置換した結果を表す表音文字列が得られる。

そして、このパーソナルコンピュータは、ステップＳ１０３で得られた表音文字列に韻律予測の手法に基づいた解析を加えることにより、この表音文字列が表す音声の韻律を予測し、予測結果を表す韻律予測データを生成する（ステップＳ１０４）。

一方、このパーソナルコンピュータは、ステップＳ１０３で得られた表音文字列が表すメッセージに含まれる音片の読みを表す表音文字に合致する表音文字が対応付けられている圧縮音片データをすべて索出する（ステップ１０５）。また、ステップＳ１０５では、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データも索出する。なお、１個の音片につき複数の圧縮音片データが該当する場合は、該当する圧縮音片データすべてを索出する。一方、圧縮音片データを索出できなかった音片があった場合は、上述の欠落部分識別データを生成する。

次に、このパーソナルコンピュータは、索出された圧縮音片データを、圧縮される前の素片音片データへと復元する（ステップＳ１０６）。そして、復元された音片データを、上述の話速変換部８が行う処理と同様の処理により変換して、当該音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる（ステップＳ１０７）。なお、発声スピードデータが供給されていない場合は、復元された音片データを変換しなくてもよい。

次に、このパーソナルコンピュータは、音片の時間長が変換された音片データのうちから、メッセージを構成する音片の波形に最も近い波形を表す音片データを、上述の一致音片決定部４１が行う処理と同様の処理を行うことにより、音片１個につき１個ずつ選択する（ステップＳ１０８）。

具体的には、ステップＳ１０８でこのパーソナルコンピュータは、例えば、上述した（１）〜（４）の条件に従って音片データを特定する。
すなわち、定型メッセージ内の音片と読みが合致する音片データが１個であれば、当該音片データを、定型メッセージ内の音片の波形を表しているとみなす。複数ある場合は、読みを表す表音文字が合致し、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容が定型メッセージに含まれる音片のアクセントの予測結果に合致する場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。
音片の読みとアクセントが合致する音片データがなお複数ある場合は、読みを表す表音文字及びアクセントが合致し、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。読み、アクセント、及び鼻濁音化や無声化の有無が合致する音片データが１個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って１個に絞り込む。

そして、このパーソナルコンピュータは、ステップＳ１０５で欠落部分識別データを生成していれば、ステップＳ１０３で得られた表音文字列から欠落部分表音文字列を抽出し、この欠落部分表音文字列に含まれるそれぞれの表音文字について、波形データベース３４より検索し、当該表音文字が表す音素を構成する素片の波形を表す圧縮波形データを索出し（図４、ステップＳ１０９）、索出された圧縮波形データを、圧縮される前の素片波形データへと復元する（ステップＳ１１０）。

一方でこのパーソナルコンピュータは、ステップＳ１０４で生成した韻律予測データより欠落部分韻律予測データを抽出し（ステップＳ１１１）、ステップＳ１１０で復元された素片波形データと、この欠落部分韻律予測データとに基づいて音声波形データを生成する（ステップＳ１１２）。

次に、このパーソナルコンピュータは、上述の出力合成部４３が行う処理と同様の処理を行うことにより、ステップＳ１１２で生成された音声波形データに含まれる素片波形データの個数を調整し、当該音声波形データが表す音声の時間長を、ステップＳ１０８で選択された音片データが表す音片の発声スピードと整合するようにする（ステップＳ１１３）。

すなわち、ステップＳ１１３でこのパーソナルコンピュータは、例えば、ステップＳ１０８で選択された音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、ステップＳ１１２で生成された音声波形データが表す音声の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、当該比率を特定するため、例えば、ステップＳ１０８で選択された音片データ（発声スピード変換後の音片データ）と、当該音片データがステップＳ１０７で変換を受ける前の元の音片データとの内で互いに同一の音声を表す区間を１個ずつ特定し、発声スピード変換後の音片データ内で特定した区間内に含まれる素片の個数が、元の音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音声の時間長の増減の比率として特定するようにすればよい。

なお、音声波形データが表す音声の時間長が、発声スピード変換後の音片データが表す音片のスピードに既に整合している場合、又は、ステップＳ１０８で選択された音片データがない場合は、このパーソナルコンピュータは音声波形データ内の素片波形データの個数を調整する必要はない。

そして、このパーソナルコンピュータは、ステップＳ１１３の処理を経た音声波形データと、ステップＳ１０８で選択した音片データとを、メッセージデータが示すメッセージ内での各音片ないし音素の並びに従った順序で互いに結合することにより、合成音声を表すデータを生成する。そして、このデータが表す合成音声を再生する（ステップＳ１１４）。

なお、パーソナルコンピュータにこの音声合成端末やメッセージ配信装置Ｔの機能を行わせるプログラムは、例えば、通信回線の掲示板（ＢＢＳ）にアップロードし、これを通信回線を介して配信してもよく、また、これらのプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。
そして、これらのプログラムを起動し、ＯＳの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。

なお、ＯＳが処理の一部を分担する場合、あるいは、ＯＳが本願発明の１つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。

この発明の実施の形態に係る音声合成端末の構成を示すブロック図である。音片データベースのデータ構造を模式的に示す図である。この発明の実施の形態に係る音声合成端末の機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。図３のフローチャートの続きである。

符号の説明

１言語処理部
２単語辞書
３規則合成処理部
３１音響処理部
３２検索部
３３，７伸長部
３４波形データベース
４音片編集部
４１一致音片決定部
４２韻律予測部
４３出力合成部
５検索部
６音片データベース
８話速変換部
ＨＤＲヘッダ部
ＩＤＸインデックス部
ＤＩＲディレクトリ部
ＤＡＴデータ部
Ｔメッセージ配信装置

Claims

配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する再生手段と、を備える、
ことを特徴とする音声再生装置。
前記判別手段は、受信した前記配信先指定データが、配信先の如何を問わず強制的に音声を再生することを指示するものであるとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する、
ことを特徴とする請求項１に記載の音声再生装置。
前記配信データには、当該配信データのエラーを訂正するための誤り訂正符号が付されており、
前記判別手段は、受信した配信データにエラーがある場合、当該配信データに付されている誤り訂正符号を用いて当該エラーを訂正する手段を備え、エラーが訂正された当該配信データを、受信した配信データとして扱う、
ことを特徴とする請求項１又は２に記載の音声再生装置。
前記再生手段は、
音片を表す音片データを複数記憶する音片記憶手段と、
音声再生の対象と決定された配信データが示す文章を構成する音声と読みが共通している音片データを選択する処理を行う選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する手段と、を備える、
ことを特徴とする請求項１、２又は３に記載の音声再生装置。
前記欠落部分合成手段は、
音素を表し、又は、音素を構成する素片を表すデータを複数記憶する記憶手段と、
前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する合成手段と、を備える、
ことを特徴とする請求項４に記載の音声再生装置。
前記欠落部分合成手段は、前記選択手段が音片データを選択できなかった前記音声の韻律を予測する欠落部分韻律予測手段を備え、
前記合成手段は、前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得し、取得したデータを、当該データが表す音素又は素片が、前記欠落部分韻律予測手段による韻律の予測結果に合致するように変換して、変換されたデータを互いに結合することにより、当該音声の波形を表す音声データを合成する、
ことを特徴とする請求項５に記載の音声再生装置。
前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶しており、
前記選択手段は、各前記音片データのうちから、前記文章を構成する音声と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択する、
ことを特徴とする請求項３乃至６のいずれか１項に記載の音声再生装置。
前記再生手段は、前記合成音声を発声するスピードの条件を指定する発声スピードデータを取得し、前記合成音声を表すデータを構成する音片データ及び／又は音声データを、当該発声スピードデータが指定する条件を満たすスピードで発話される音声を表すように選択又は変換する発話スピード変換手段を備える、
ことを特徴とする請求項３乃至７のいずれか１項に記載の音声再生装置。
前記発話スピード変換手段は、前記合成音声を表すデータを構成する音片データ及び／又は音声データから素片を表す区間を除去し、又は、当該音片データ及び／又は音声データに素片を表す区間を追加することによって、当該音片データ及び／又は音声データを、前記発声スピードデータが指定する条件を満たすスピードで発話される音声を表すよう変換する、
ことを特徴とする請求項８に記載の音声再生装置。
前記音片記憶手段は、音片データの読みを表す表音データを、当該音片データに対応付けて記憶しており、
前記選択手段は、前記文章を構成する音声の読みに合致する読みを表す表音データが対応付けられている音片データを、当該音声と読みが共通する音片データとして扱う、
ことを特徴とする請求項３乃至９のいずれか１項に記載の音声再生装置。
配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信する手段を備え、
前記外部の装置は、当該配信データ及び当該配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるとき、当該配信先指定データに対応付けられている配信データが示す文章を読み上げる音声を再生する機能を有する、
ことを特徴とする音声配信装置。
送信手段と、受信手段とより構成された情報配信システムであって、
前記送信手段は、配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて送信する手段を備え、
前記受信手段は、
互いに対応付けられた配信データ及び配信先指定データを受信し、受信した当該配信先指定データが示す配信先に前記受信手段自身が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する再生手段と、を備える、
ことを特徴とする音声配信システム。
配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、
含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定し、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する、
ことを特徴とする音声再生方法。
配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信することを特徴とする音声配信方法であって、
前記外部の装置は、当該配信データ及び当該配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるとき、当該配信先指定データに対応付けられている配信データが示す文章を読み上げる音声を再生する機能を有する、
ことを特徴とする音声配信方法。
音声データが表す音声を再生する機能を有するコンピュータを、
配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を表す音声データを生成し、当該音声データが表す音声を再生する再生手段と、
して機能させるためのプログラム。
コンピュータを、配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信する手段として機能させるためのプログラム。