JP2007108450A - 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム - Google Patents

音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム Download PDF

Info

Publication number
JP2007108450A
JP2007108450A JP2005299529A JP2005299529A JP2007108450A JP 2007108450 A JP2007108450 A JP 2007108450A JP 2005299529 A JP2005299529 A JP 2005299529A JP 2005299529 A JP2005299529 A JP 2005299529A JP 2007108450 A JP2007108450 A JP 2007108450A
Authority
JP
Japan
Prior art keywords
data
speech
distribution
voice
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005299529A
Other languages
English (en)
Inventor
Yasushi Sato
寧 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2005299529A priority Critical patent/JP2007108450A/ja
Publication of JP2007108450A publication Critical patent/JP2007108450A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の受信端末毎に異なる情報を音声により迅速に配信するための音声配信システム等を提供することである。
【解決手段】メッセージ配信装置Tなどからメッセージデータ、地域ID等を供給されると、言語処理部1は、このメッセージデータが表すメッセージが音声合成の対象であるか否かを判断し、音声合成の対象であれば、音片編集部4が、メッセージ内の音片と読みが合致する音片の音片データを音片データベース6から索出させ、発声スピードの変換等を行わせる。一方で音片編集部4はメッセージの韻律予測を行い、索出された音片データのうちからメッセージ内の各音片に最もよく合致するものを1個ずつ、韻律予測結果に基づいて選択する。選択できなかった音片については音響処理部31に単位音声毎の波形を表す波形データを供給させる。そして、選択した音片データや、音響処理部31に供給させた波形データを互いに結合し、合成音声を再生する。
【選択図】図1

Description

この発明は、音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラムに関する。
音声等の情報を多数の端末に配信する技術は、防災放送などの分野で用いられている(例えば、特許文献1参照)。たとえば、防災放送の分野では、防災センタ等が音声信号を生成して、この防災センタ等が担当する各地域の街頭等に配置された端末へと送信する。この音声信号を受信した端末はこの音声信号を音声に変換し、この結果、この防災センタ等が担当する各地域で、同一の音声が放送される。
特開平9−205405号公報
しかし、放送すべき内容は必ずしも常に全端末に共通するものではなく、端末毎に異なった内容の放送をする必要が生じる場合もある。たとえば防災放送では、地域毎に異なった避難場所を告げるようにしなければ、避難誘導の目的を達することができない。
このような問題に対処するため、従来は、たとえば各端末の少なくともいずれかで放送されるべき内容を全端末に送信していた。このため、それぞれの端末の利用者は、自己に無関係な情報を多量に含んだ長時間の放送を聞いて、その中から必要な情報を選別する、という煩雑な作業を強いられていた。また、必要な情報を利用者が入手するまでに長時間を要していた。
この発明は、上記実状に鑑みてなされたものであり、複数の受信端末毎に異なる情報を迅速に配信するための音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラムを提供することを目的とする。
上記目的を達成するため、この発明の第1の観点にかかる音声再生装置は、
配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する再生手段と、を備える、
ことを特徴とする。
前記判別手段は、受信した前記配信先指定データが、配信先の如何を問わず強制的に音声を再生することを指示するものであるとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定するものであってもよい。
前記配信データには、当該配信データのエラーを訂正するための誤り訂正符号が付されていてもよく、
前記判別手段は、受信した配信データにエラーがある場合、当該配信データに付されている誤り訂正符号を用いて当該エラーを訂正する手段を備え、エラーが訂正された当該配信データを、受信した配信データとして扱うものであってもよい。
前記再生手段は、
音片を表す音片データを複数記憶する音片記憶手段と、
音声再生の対象と決定された配信データが示す文章を構成する音声と読みが共通している音片データを選択する処理を行う選択手段と、
前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する手段と、を備えるものであってもよい。
前記欠落部分合成手段は、
音素を表し、又は、音素を構成する素片を表すデータを複数記憶する記憶手段と、
前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する合成手段と、を備えるものであってもよい。
前記欠落部分合成手段は、前記選択手段が音片データを選択できなかった前記音声の韻律を予測する欠落部分韻律予測手段を備えていてもよく、
前記合成手段は、前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得し、取得したデータを、当該データが表す音素又は素片が、前記欠落部分韻律予測手段による韻律の予測結果に合致するように変換して、変換されたデータを互いに結合することにより、当該音声の波形を表す音声データを合成するものであってもよい。
前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶していてもよく、
前記選択手段は、各前記音片データのうちから、前記文章を構成する音声と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択するものであってもよい。
前記再生手段は、前記合成音声を発声するスピードの条件を指定する発声スピードデータを取得し、前記合成音声を表すデータを構成する音片データ及び/又は音声データを、当該発声スピードデータが指定する条件を満たすスピードで発話される音声を表すように選択又は変換する発話スピード変換手段を備えるものであってもよい。
前記発話スピード変換手段は、前記合成音声を表すデータを構成する音片データ及び/又は音声データから素片を表す区間を除去し、又は、当該音片データ及び/又は音声データに素片を表す区間を追加することによって、当該音片データ及び/又は音声データを、前記発声スピードデータが指定する条件を満たすスピードで発話される音声を表すよう変換するものであってもよい。
前記音片記憶手段は、音片データの読みを表す表音データを、当該音片データに対応付けて記憶していてもよく、
前記選択手段は、前記文章を構成する音声の読みに合致する読みを表す表音データが対応付けられている音片データを、当該音声と読みが共通する音片データとして扱うものであってもよい。
また、この発明の第2の観点にかかる音声配信装置は、
配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信する手段を備え、
前記外部の装置は、当該配信データ及び当該配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるとき、当該配信先指定データに対応付けられている配信データが示す文章を読み上げる音声を再生する機能を有する、
ことを特徴とする。
また、この発明の第3の観点にかかる音声配信システムは、
送信手段と、受信手段とより構成された情報配信システムであって、
前記送信手段は、配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて送信する手段を備え、
前記受信手段は、
互いに対応付けられた配信データ及び配信先指定データを受信し、受信した当該配信先指定データが示す配信先に前記受信手段自身が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する再生手段と、を備える、
ことを特徴とする。
また、この発明の第4の観点にかかる音声再生方法は、
配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、
含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定し、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する、
ことを特徴とする。
また、この発明の第5の観点にかかる音声配信方法は、
配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信することを特徴とする音声配信方法であって、
前記外部の装置は、当該配信データ及び当該配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるとき、当該配信先指定データに対応付けられている配信データが示す文章を読み上げる音声を再生する機能を有する、
ことを特徴とする。
また、この発明の第6の観点にかかるプログラムは、
音声データが表す音声を再生する機能を有するコンピュータを、
配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
音声再生の対象と決定された配信データが示す文章を読み上げる音声を表す音声データを生成し、当該音声データが表す音声を再生する再生手段と、
して機能させるためのものであることを特徴とする。
また、この発明の第7の観点にかかるプログラムは、
コンピュータを、配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信する手段として機能させるためのものであることを特徴とする。
この発明によれば、複数の受信端末毎に異なる情報を迅速に配信するための音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラムが実現される。
以下、図面を参照して、この発明の実施の形態を説明する。
図1は、この発明の実施の形態に係る音声合成端末の構成を示す図である。図示するように、この音声合成端末は、言語処理部1と、単語辞書2と、規則合成処理部3と、音片編集部4と、検索部5と、音片データベース6と、伸長部7と、話速変換部8とにより構成されている。
このうち、規則合成処理部3は、音響処理部31と、検索部32と、伸長部33と、波形データベース34とより構成されている。
また、音片編集部4は、一致音片決定部41と、韻律予測部42と、出力合成部43とより構成されている。
言語処理部1、音響処理部31、検索部32、伸長部33、音片編集部4、検索部5、伸長部7及び話速変換部8は、いずれも、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、それぞれ後述する処理を行う。
出力合成部43は更に、D/A(Digital-to-Analog)コンバータ、AF(Audio Frequency)増幅器及びスピーカ等を備えている。
また、言語処理部1を構成するメモリは、この音声合成端末が設置されている地域を示す情報を、あらかじめ記憶している。
なお、言語処理部1、音響処理部31、検索部32、伸長部33、音片編集部4、検索部5、伸長部7及び話速変換部8の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。従って、例えば、伸長部33の機能を行うプロセッサが伸長部7の機能を行ってもよいし、1個のプロセッサが音響処理部31、検索部32及び伸長部33の機能を兼ねて行ってもよい。また、例えば、出力合成部43の機能を行うプロセッサが話速変換部8の機能を行うようにしてもよい。
単語辞書2は、PROM(Programmable Read Only Memory)やハードディスク装置等の不揮発性メモリより構成されている。単語辞書2には、表意文字(例えば、漢字など)を含む単語等と、この単語等の読みを表す表音文字(例えば、カナや発音記号など)とが、この音声合成端末の製造者等によって、あらかじめ互いに対応付けて記憶されている。
波形データベース34は、PROMやハードディスク装置等の不揮発性メモリより構成されている。波形データベース34には、表音文字と、この表音文字が表す音素を構成する素片(すなわち、1個の音素を構成する音声の波形1サイクル分(又はその他所定数のサイクル分)の音声)を表す素片波形データをエントロピー符号化して得られる圧縮波形データとが、この音声合成端末の製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、エントロピー符号化される前の素片波形データは、例えば、PCM(Pulse Code Modulation)化されたデジタル形式のデータからなっていればよい。
音片データベース6は、PROMやハードディスク装置等の不揮発性メモリより構成されている。
音片データベース6には、例えば、図2に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース6に格納されているデータは、ヘッダ部HDR、インデックス部IDX、ディレクトリ部DIR及びデータ部DATの4種に分かれている。
なお、音片データベース6へのデータの格納は、例えば、この音声合成端末の製造者によりあらかじめ行われる。
ヘッダ部HDRには、音片データベース6を識別するデータや、インデックス部IDX、ディレクトリ部DIR及びデータ部DATのデータ量、データの形式、著作権等の帰属などを示すデータが格納される。
データ部DATには、音片の波形を表す音片データをエントロピー符号化して得られる圧縮音片データが格納されている。
なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は単語1個分又は複数個分の区間からなる。音片は接続詞を含む場合もある。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ(例えば、PCMされたデジタル形式のデータ)からなっていればよい。
ディレクトリ部DIRには、個々の圧縮音声データについて、
(A) この圧縮音片データが表す音片の読みを示す表音文字を表すデータ(音片読みデータ)、
(B) この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
(C) この圧縮音片データのデータ長を表すデータ、
(D) この圧縮音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片のピッチ成分の周波数の時間変化を表すデータ(ピッチ成分データ)、
が、互いに対応付けられた形で格納されている。(なお、音片データベース6の記憶領域にはアドレスが付されているものとする。)
なお、図2は、データ部DATに含まれるデータとして、読みが「サイタマ」である音片の波形を表す、データ量1410hバイトの圧縮音片データが、アドレス001A36A6hを先頭とする論理的位置に格納されている場合を例示している。(なお、本明細書及び図面において、末尾に“h”を付した数字は16進数を表す。)
なお、上述の(A)〜(E)のデータの集合のうち少なくとも(A)のデータ(すなわち音片読みデータ)は、音片読みデータが表す表音文字に基づいて決められた順位に従ってソートされた状態で(例えば、表音文字がカナであれば、五十音順に従って、アドレス昇順に並んだ状態で)、音片データベース6の記憶領域に格納されている。
また、上述のピッチ成分データは、例えば、図示するように、音片のピッチ成分の周波数を音片の先頭からの経過時間の1次関数で近似した場合における、この1次関数の切片β及び勾配αの値を示すデータからなっていればよい。(勾配αの単位は例えば[ヘルツ/秒]であればよく、切片βの単位は例えば[ヘルツ]であればよい。)
また、ピッチ成分データには更に、圧縮音片データが表す音片が鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。
インデックス部IDXには、ディレクトリ部DIRのデータのおおよその論理的位置を音片読みデータに基づいて特定するためのデータが格納されている。具体的には、例えば、音片読みデータがカナを表すものであるとして、カナ文字と、先頭1字がこのカナ文字であるような音片読みデータがどのような範囲のアドレスにあるかを示すデータ(ディレクトリアドレス)とが、互いに対応付けて格納されている。
なお、単語辞書2、波形データベース34及び音片データベース6の一部又は全部の機能を単一の不揮発性メモリが行うようにしてもよい。
次に、この音声合成端末の動作を説明する。以下では、言語処理部1がまず、メッセージデータ、地域ID(IDentifier)及び発声スピードデータの組を1個以上、外部から取得したとして説明する。
メッセージデータは、表音文字及び/又は表意文字を含む文章からなるメッセージを記述するデータである。
地域IDは、当該地域IDと同じ組に属するメッセージデータが表すメッセージが読み上げられるべき地域を指定するデータである。
発声スピードデータは、当該発声スピードデータと同じ組に属するメッセージデータが表すメッセージの発声スピードを指定するデータであり、具体的には、たとえば当該メッセージを発声する時間長の指定値を、当該メッセージの発声スピードの指定値として示すものである。
言語処理部1は、たとえば、図1に示す外部のメッセージ配信装置Tあるいはその他の装置から外部の通信回線を介し、互いに対応付けられた形で伝送されるメッセージデータ、地域ID及び発声スピードデータを、図示しないインターフェース回路を介して取得する。
メッセージ配信装置Tは、たとえばコンピュータより構成されていればよく、メッセージデータ、地域ID及び発声スピードデータを自ら生成し、あるいは外部から取得して、メッセージデータ、当該メッセージデータが表すメッセージが読み上げられるべき地域を指定する地域ID、及び当該メッセージデータが表すメッセージの発声スピードを指定する発声スピードデータを互いに対応付けて、図示しないインターフェース回路を介し、言語処理部1へと送信するものであればよい。なお、パーソナルコンピュータに上述のメッセージ配信装置Tの動作を実行させるためのプログラムを格納した記録媒体(例えば、フレキシブルディスクやCD−ROM等)から該プログラムをインストールすることにより、上述の処理を実行するメッセージ配信装置Tを構成することができる。
また、メッセージデータ、地域ID及び発声スピードデータの伝送に用いられる伝送路は任意であり、有線回線であっても無線回線でもよい。
メッセージデータ、地域ID及び発声スピードデータの組をメッセージ配信装置T等より取得すると、言語処理部1はまず、取得した組に含まれる地域IDに基づいて、当該組内のメッセージデータを音声合成の対象とするか否かを判断する。
具体的には、たとえば、取得した組に含まれる地域IDが示す地域が、言語処理部1自身が記憶する情報が示す地域に合致するか否かを判別する。そして、合致していれば、当該組内のメッセージデータを音声合成の対象とすると決定し、合致していなければ、当該組内のメッセージデータは音声合成の対象としないと決定して破棄する。
次に、言語処理部1は、音声合成の対象とすると決定したメッセージデータが表すメッセージに含まれるそれぞれの表意文字について、その読みを表す表音文字を、単語辞書2を検索することにより特定する。そして、この表意文字を、特定した表音文字へと置換する。そして、言語処理部1は、メッセージ内の表意文字がすべて表音文字へと置換された結果得られる表音文字列を、音片編集部4の一致音片決定部41及び韻律予測部42に供給する。
言語処理部1より表音文字列を供給された韻律予測部42は、この表音文字列に、例えば「藤崎モデル」や「ToBI(Tone and Break Indices)」等の韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律(アクセント、イントネーション、強勢、音素の時間長など)を予測し、予測結果を表す韻律予測データを生成する。そしてこの韻律予測データを、一致音片決定部41に供給する。
一方、一致音片決定部41は、言語処理部1より表音文字列を供給されると、この表音文字列に含まれる音片の読みを表す表音文字に合致する表音文字が対応付けられている圧縮音片データをすべて索出するよう、検索部5に指示する。
検索部5は、一致音片決定部41の指示に応答して音片データベース6を検索し、該当する圧縮音片データと、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データとを索出し、索出された圧縮波形データを伸長部33へと供給する。複数の圧縮音片データが共通の表音文字ないし表音文字列に該当する場合も、該当する圧縮音片データすべてが、音声合成に用いられるデータの候補として索出される。一方、圧縮音片データを索出できなかった音片があった場合、検索部5は、該当する音片を識別するデータ(以下、欠落部分識別データと呼ぶ)を生成する。
伸長部33は、検索部5より供給された圧縮音片データを、圧縮される前の音片データへと復元し、検索部5へと返送する。検索部5は、伸長部33より返送された音片データと、索出された音片読みデータ、スピード初期値データ及びピッチ成分データとを、検索結果として話速変換部8へと供給する。また、欠落部分識別データを生成した場合は、この欠落部分識別データも話速変換部8へと供給する。
一方、一致音片決定部41は、話速変換部8に対し、話速変換部8に供給された音片データを変換して、当該音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致するようにすることを指示する。
話速変換部8は、一致音片決定部41の指示に応答し、検索部5より供給された音片データを指示に合致するように変換して、一致音片決定部41に供給する。具体的には、例えば、検索部5より供給された音片データを個々の音素を表す区間へと区切り、得られたそれぞれの区間について、当該区間から、当該区間が表す音素を構成する素片を表す部分を特定して、特定された部分を(1個もしくは複数個)複製して当該区間内に挿入したり、又は、当該区間から当該部分を(1個もしくは複数個)除去することによって、当該区間の長さを調整することにより、この音片データ全体のサンプル数を、一致音片決定部41の指示したスピードに合致する時間長にすればよい。なお、話速変換部8は、各区間について、素片を表す部分を挿入又は除去する個数を、各区間が表す音素相互間の時間長の比率が実質的に変化しないように決定すればよい。
また、話速変換部8は、検索部5より供給された音片読みデータ及びピッチ成分データも一致音片決定部41に供給し、欠落部分識別データを検索部5より供給された場合は、更にこの欠落部分識別データも一致音片決定部41に供給する。
なお、発声スピードデータが一致音片決定部41に供給されていない場合、一致音片決定部41は、話速変換部8に対し、話速変換部8に供給された音片データを変換せずに一致音片決定部41に供給するよう指示すればよく、話速変換部8は、この指示に応答し、検索部5より供給された音片データをそのまま一致音片決定部41に供給すればよい。また、話速変換部8に供給された音片データのサンプル数が、一致音片決定部41の指示したスピードに合致する時間長に既に合致している場合も、話速変換部8は、この音片データを変換せずそのまま一致音片決定部41に供給すればよい。
一致音片決定部41は、話速変換部8より音片データ、音片読みデータ及びピッチ成分データを供給され、また、韻律予測部42より韻律予測データを供給されると、供給された音片データのうちから、メッセージを構成する音片の波形に近似できる波形を表す音片データを、音片1個につき1個ずつ選択する。
一致音片決定部41は、音片データを選択する具体的な手法としては、例えば以下(1)〜(4)として記す手法を用いる。
(1) まず、1個の音片について、話速変換部8より供給された音片データ(すなわち、定型メッセージ内の音片と読みが合致する音片データ)が1個であれば、当該音片データを、定型メッセージ内の音片の波形に近いものとして選択する。
(2) 話速変換部8より供給された音片データが1個の音片について複数ある場合は、これらの音片データのうち、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容と定型メッセージに含まれる音片のアクセント(いわゆる韻律)の予測結果との間に所定量以上の強い相関がある場合(例えば、アクセントの位置の時間差が所定量以下である場合)に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。なお、定型メッセージ内の音片のアクセントの予測結果は、定型メッセージの韻律の予測結果より特定できるものであり、音片編集部4は、例えば、ピッチ成分の周波数が最も高いと予測されている位置をアクセントの予測位置であると解釈すればよい。一方、音片データが表す音片のアクセントの位置については、例えば、ピッチ成分の周波数が最も高い位置を上述のピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。また、韻律予測は、文章全体に対して行ってもよいし、文章を所定の単位に分割し、それぞれの単位に対して行ってもよい。
(3) 上記(2)の条件(つまり、読みを表す表音文字及びアクセントの合致という条件)を満たすとして選択された音片データが1個の音片につきなお複数ある場合は、(2)の条件を満たし、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。音片編集部4は、音片データが表す音声の鼻濁音化や無声化の有無を、話速変換部8より供給されたピッチ成分データに基づいて判別すればよい。
(4) 上記(3)の条件(つまり、読みを表す表音文字、アクセント、及び鼻濁音化や無声化の有無の合致という条件)を満たすとして選択された音片データが1個の音片につきなお複数あった場合は、これら複数の音片データを、(3)の条件より更に厳格な条件に従って1個に絞り込むものとする。
そして一致音片決定部41は、選択した音片データを、出力合成部43へと供給する。この場合、一致音片決定部41は、話速変換部8より欠落部分識別データも供給されていれば、欠落部分識別データが示す音片の読みを表す表音文字列(以下、欠落部分表音文字列と呼ぶ)を、言語処理部1より供給された表音文字列より抽出して音響処理部31に供給し、この音片の波形を合成するよう指示する。
また、欠落部分表音文字列を抽出した場合、一致音片決定部41は、韻律予測データより、この欠落部分表音文字列が表す音声の韻律を表している部分(以下、欠落部分韻律予測データと呼ぶ)も抽出して、音響処理部31に供給する。
指示を受けた音響処理部31は、一致音片決定部41より供給された欠落部分表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す音素を構成する素片の波形を検索するよう、検索部32に指示する。
検索部32は、この指示に応答して波形データベース34を検索し、この指示の内容に合致する圧縮波形データを索出する。そして、索出された圧縮波形データを伸長部33へと供給する。
伸長部33は、検索部32より供給された圧縮波形データを、圧縮される前の素片波形データへと復元し、検索部32へと返送する。検索部32は、伸長部33より返送された素片波形データを、検索結果として音響処理部31へと供給する。
音響処理部31は、検索部32より素片波形データを供給されると、供給された素片波形データを用いて、言語処理部1が供給した表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを生成する。
具体的には、音響処理部31は、例えば、検索部32より供給された各々の素片波形データが表す素片により構成されている音素の時間長を、一致音片決定部41より供給された欠落部分韻律予測データに基づいて特定する。そして、特定した音素の時間長を、当該素片波形データが表す素片の時間長で除した値に最も近い整数を求め、当該素片波形データを、求めた整数に等しい個数分相互に結合することにより、音声波形データを生成すればよい。
なお、音響処理部31は、音声波形データが表す音声の時間長を欠落部分韻律予測データに基づいて決定するのみならず、音声波形データを構成する素片波形データを加工して、音声波形データが表す音声が、当該欠落部分韻律予測データが示す韻律に合致する強度やイントネーション等を有するようにしてもよい。
そして、音響処理部31は、生成された音声波形データを、言語処理部1より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部4の出力合成部43へと供給する。
出力合成部43は、素片波形データより生成された音声波形データを音響処理部31より供給され、また、一致音片決定部41より音片データを供給されると、供給されたそれぞれの音声波形データに含まれる素片波形データの個数を調整することにより、当該音声波形データが表す音声の時間長を、一致音片決定部41より供給された音片データが表す音片の発声スピードと整合するようにする。
具体的には、出力合成部43は、例えば、一致音片決定部41より音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、音響処理部31より供給された音声波形データが表す音素の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、出力合成部43は、当該比率を特定するため、例えば、一致音片決定部41が供給した音片データの生成に用いられた元の音片データを検索部5より取得し、これら2個の音片データ内で互いに同一の音素を表す区間を1個ずつ特定すればよい。そして、一致音片決定部41が供給した音片データ内で特定した区間内に含まれる素片の個数が、検索部5より取得した音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音素の時間長の増減の比率として特定するようにすればよい。
なお、音声波形データが表す音素の時間長が、一致音片決定部41より供給された音片データが表す音片のスピードに既に整合している場合、又は一致音片決定部41から出力合成部43へと供給された音片データがない場合(具体的には、例えば上述の比率が閾値に達していなかった場合や、音片データが1個も選択されなかった場合)は、出力合成部43は、音声波形データ内の素片波形データの個数を調整する必要はない。
次いで、出力合成部43は、素片波形データの個数の調整が完了した音声波形データと、一致音片決定部41より供給された音片データとを、メッセージデータが示すメッセージ内での各音片ないし音素の並びに従った順序で互いに結合することにより、合成音声を表すデータを形成する。そして出力合成部43は、合成音声を表すデータをD/A変換して増幅し、得られたアナログ形式の信号によって自己のスピーカ等を駆動することにより、合成音声を再生する。
なお、話速変換部8より供給されたデータに欠落部分識別データが含まれていない場合は、音響処理部31に波形の合成を指示することなく直ちに、音片編集部4が選択した音片データを、メッセージデータが示すメッセージ内での各音片の並びに従った順序で互いに結合することにより、合成音声を表すデータを形成すればよい。
以上説明した音声合成端末は、供給されたメッセージデータのうちから、自己が設置されている地域で再生されるべきメッセージを表すものを選択して、選択されたメッセージデータが表すメッセージを再生する。
このため、互いに異なる地域に向けられた複数のメッセージが一括して供給された場合でも、そのすべてが、必要性の有無を問わず長時間に渡って再生される、という問題も生じず、従って、利用者が多数のメッセージの中から自己にとって必要な情報を聞き分けることを強いられる、という問題も解消される。
また、メッセージデータを配信する装置も、メッセージデータ毎に配信先を選択する必要がなく、メッセージデータを当該装置が担当する音声合成端末すべてに一括して送信しても、音声合成端末毎に異なるメッセージが利用者へと迅速に配信される。
また、この音声合成端末は、再生すべきメッセージを読み上げる音声自体(波形等)を表すデータを外部から取得するものではなく、メッセージの読みを示すデータを取得して、この読みに相当する音声を再生するものである。メッセージの読みを示すデータは、メッセージを読み上げる音声自体を表すデータよりデータの量が大幅に少ないことが期待できるので、メッセージの送受信は迅速に行われる。
また、この音声合成端末では、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。音片データベース6の記憶容量は、音素毎に波形を記憶する場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成端末は小型軽量に構成することができ、また高速な処理にも追随できる。
一方、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。圧縮波形データが素片の波形を表すものであるため、波形データベース34の記憶容量は、圧縮波形データが音素の波形を表すものである場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成端末は小型軽量に構成することができ、また高速な処理にも追随できる。
また、素片を用いて規則合成を行えば、音素を用いて規則合成を行う場合と異なり、音素の端の部分に現れる特殊な波形の影響を受けることなく音声合成を行うことができるため、少ない種類の素片で自然な音声を得ることができる。
すなわち、人が発声する音声では、先行する音素から後続の音素へと遷移する境界で、これらの音素双方の影響を受けた特殊な波形が現れることが知られており、一方、規則合成に用いられる音素は、採取した段階で既にその端部にこの特殊な波形を含んでいるため、音素を用いて規則合成を行う場合は、音素間の境界の波形の様々なパターンを再現可能とするために膨大な種類の音素を用意するか、あるいは、音素間の境界の波形が自然な音声とは異なった合成音声を合成することで満足する必要がある。しかし、素片を用いて規則合成を行う場合は、音素の端部以外の部分から素片を採取するようにすれば、音素間の境界の特殊な波形の影響をあらかじめ排除することができる。このため、膨大な種類の素片を用意することを要せず、自然な音声を得ることができる。
なお、この音声合成端末の構成は上述のものに限られない。
例えば、地域IDは、必ずしも特定の地域を指定するものでなくてもよく、特定のメッセージを再生すべきか否かの判断基準をこの音声合成端末に与えるようなデータである限り任意である。
従って、地域IDは、たとえば複数の地域を指定するものでもよいし、地域とは無関係に1個又は複数の音声合成端末を指定するものでもよい。また、すべての音声合成端末に強制的にメッセージの再生を行うことを指示するものでもよい。また、メッセージを再生する対象の音声合成端末が満たすべき任意の条件を指定するものでもよい。
また、メッセージデータ、地域ID及び発声スピードデータの組には、この組をなすデータの所定の一部又は全部のエラーを訂正するための誤り訂正符号が付されていてもよい。この場合、言語処理部1は、取得したメッセージデータ、地域ID及び発声スピードデータの組のうち、エラーの訂正の対象となり得る部分について、公知の手法によりエラーの有無を検証し、エラーが発見された場合は、この組に付されている誤り訂正符号を用いて、エラーの訂正を行うようにしてもよい。
また、素片波形データや音片データはPCM形式のデータである必要はなく、データ形式は任意である。
また、波形データベース34や音片データベース6は素片波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース34や音片データベース6が素片波形データや音片データをデータ圧縮されていない状態で記憶している場合、この音声合成端末は伸長部33を備えていなくてもよい。
また、波形データベース34は、必ずしも素片の波形を個々に分解された形で記憶している必要はなく、例えば、複数の素片からなる音声の波形と、この波形内で個々の素片が占める位置を識別するデータとを記憶するようにしてもよい。またこの場合、音片データベース6が波形データベース34の機能を行ってもよい。つまり、波形データベース34内には、音片データベース6と同様の形式で一連の音声データが連なって記憶されていてもよく、この場合は、波形データベースとして利用するために、音声データ内の音素を構成する素片毎に、表音文字やピッチ情報等が関連づけて記憶されているものとする。
また、ピッチ成分データは音片データが表す音片のピッチ長の時間変化を表すデータであってもよい。この場合、一致音片決定部41は、ピッチ長が最も短い位置(つまり、周波数がもっとも高い位置)をピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。
また、韻律予測部42は、特定の音片の韻律を表す韻律登録データをあらかじめ記憶し、定型メッセージにこの特定の音片が含まれている場合は、この韻律登録データが表す韻律を、韻律予測の結果として扱うようにしてもよい。
また、韻律予測部42は、過去の韻律予測の結果を韻律登録データとして新たに記憶するようにしてもよい。
また、音片編集部4は、音響処理部31より返送された波形データを話速変換部8に供給することにより、当該波形データが表す波形の時間長を、発声スピードデータが示すスピードに合致させるようにしてもよい。
波形データベース34が記憶する圧縮波形データは、必ずしも素片を表すものである必要はなく、例えば、波形データベース34が記憶する表音文字が表す単位音声(例えば、1個の音素全体など)の波形を表す波形データ、あるいは当該波形データをエントロピー符号化して得られるデータであってもよい。
また、波形データベース34は、素片の波形を表すデータと、音素の波形を表すデータとを、両方記憶していてもよい。この場合、音響処理部31は、配信文字列等に含まれる表音文字が表す音素のデータを検索部32に索出させ、該当する音素が索出されたなかった表音文字について、当該表音文字が表す音素を構成する素片を表すデータを検索部32に索出させ、索出された、素片を表すデータを用いて、音素を表すデータを生成するようにしてもよい。
また、話速変換部8が、音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる手法は任意である。従って、話速変換部8は、例えば検索部5より供給された音片データをリサンプリングして、この音片データのサンプル数を、一致音片決定部41の指示した発声スピードに合致する時間長に相当する数へと増減させてもよい。
また、この音声合成端末は必ずしも話速変換部8を備えている必要はない。この音声合成端末が話速変換部8を備えない場合、韻律予測部42が発話スピードを予測し、一致音片決定部41は、検索部5が取得した音片データのうち、所定の判別条件下で発話スピードが韻律予測部42による予測の結果に合致するものを選択し、一方、発話スピードが当該予測の結果に合致しないものを選択の対象から除外するものとしてもよい。なお、音片データベース6は、音片の読みが共通で発話スピードが互いに異なる複数の音片データを記憶していてもよい。
また、出力合成部43が、音声波形データが表す音素の時間長を、音片データが表す音片の発声スピードと整合させる手法も任意である。従って、出力合成部43は、例えば、一致音片決定部41より音片データに含まれる各区間が表す音素の時間長が元の時間長に対して増減した比率を特定した上、音声波形データをリサンプリングして、音声波形データのサンプル数を、一致音片決定部41の指示した発声スピードと整合する時間長に相当する数へと増減させてもよい。
また、発声スピードは音片毎に異なっていてもよい。(従って、発声スピードデータは、音片毎に異なる発声スピードを指定するものであってもよい。)そして、出力合成部43は、互いに発声スピードが異なる2個の音片の間に位置する各音声の音声波形データについては、当該2個の音片の発声スピードを補間(例えば、直線補間)することにより、当該2個の音片の間にあるこれらの音声の発声スピードを決定し、決定した発声スピードに合致するように、これらの音声を表す音声波形データを変換するようにしてもよい。
また、上述のシステムでは、例えば韻律予測部42が、文章全体に対して韻律予測(発話スピードの予測も含む)を行ってもよいし、所定の単位ごとに韻律予測を行ってもよい。また、文章全体に対して韻律予測を行った場合、読みが一致する音片があれば更に韻律が所定条件内で一致するか否かを判別し、一致していれば当該音片を採用するようにしてもよい。一致する音片が存在しなかった部分については、規則合成処理部3が素片を基に音声を生成するものとし、ただし、素片を基に合成する部分のピッチやスピードを、文章全体若しくは所定の単位ごとに行われた韻律予測の結果に基づいて調整するものとしてもよい。これによって、音片と、素片を基に生成する音声とを組み合わせて合成する場合でも、自然な発話が行われる。
また、言語処理部1に入力される文字列が表音文字列である場合、言語処理部1は、韻律予測とは別に公知の自然言語解析処理を行い、一致音片決定部41が、自然言語解析処理の結果に基づいて音片の選択を行ってもよい。これによって、単語(名詞や動詞等の品詞)毎に文字列を解釈した結果を用いて音片選択を行うことが可能になり、単に表音文字列と一致する音片を選択する場合に比べて自然な発話を行うことができる。
以上、この発明の実施の形態を説明したが、この発明にかかる音声配信システム、音声配信装置、音声再生装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、D/A変換器やAF増幅器やスピーカ等を備えたパーソナルコンピュータに上述の言語処理部1、単語辞書2、規則合成処理部3、音片編集部4、検索部5、音片データベース6、伸長部7及び話速変換部8の動作を実行させるためのプログラムを格納した記録媒体(CD−ROM、MO、フロッピー(登録商標)ディスク等)から該プログラムをインストールすることにより、上述の処理を実行する音声合成端末を構成することができる。
そして、このプログラムを実行し図1の音声合成端末として機能するパーソナルコンピュータが、図1の音声合成端末の動作に相当する処理として、図3及び図4に示す処理を行うものとする。図3及び図4は、このパーソナルコンピュータが実行する処理を示すフローチャートである。
すなわち、このパーソナルコンピュータが、外部より、上述のメッセージデータ、地域ID及び発声スピードデータの組を取得すると(図3、ステップS101)、まず、取得した組に含まれる地域IDに基づいて、当該組内のメッセージデータを音声合成の対象とするか否かを判断する(ステップS102)。そして、音声合成の対象にならないと判断すれば、当該組内のメッセージデータを破棄し、処理を終了する。(なお、このパーソナルコンピュータがメッセージデータ、地域ID及び発声スピードデータを取得する手法は任意である。)
一方、このメッセージデータが音声合成の対象であるとステップS102で判断すると、このメッセージデータが表すメッセージに含まれるそれぞれの表意文字について、その読みを表す表音文字を、単語辞書2を検索することにより特定し、この表意文字を、特定した表音文字へと置換する(ステップS103)。ステップS103の処理の結果、メッセージ内の表意文字をすべて表音文字へと置換した結果を表す表音文字列が得られる。
そして、このパーソナルコンピュータは、ステップS103で得られた表音文字列に韻律予測の手法に基づいた解析を加えることにより、この表音文字列が表す音声の韻律を予測し、予測結果を表す韻律予測データを生成する(ステップS104)。
一方、このパーソナルコンピュータは、ステップS103で得られた表音文字列が表すメッセージに含まれる音片の読みを表す表音文字に合致する表音文字が対応付けられている圧縮音片データをすべて索出する(ステップ105)。また、ステップS105では、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データも索出する。なお、1個の音片につき複数の圧縮音片データが該当する場合は、該当する圧縮音片データすべてを索出する。一方、圧縮音片データを索出できなかった音片があった場合は、上述の欠落部分識別データを生成する。
次に、このパーソナルコンピュータは、索出された圧縮音片データを、圧縮される前の素片音片データへと復元する(ステップS106)。そして、復元された音片データを、上述の話速変換部8が行う処理と同様の処理により変換して、当該音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる(ステップS107)。なお、発声スピードデータが供給されていない場合は、復元された音片データを変換しなくてもよい。
次に、このパーソナルコンピュータは、音片の時間長が変換された音片データのうちから、メッセージを構成する音片の波形に最も近い波形を表す音片データを、上述の一致音片決定部41が行う処理と同様の処理を行うことにより、音片1個につき1個ずつ選択する(ステップS108)。
具体的には、ステップS108でこのパーソナルコンピュータは、例えば、上述した(1)〜(4)の条件に従って音片データを特定する。
すなわち、定型メッセージ内の音片と読みが合致する音片データが1個であれば、当該音片データを、定型メッセージ内の音片の波形を表しているとみなす。複数ある場合は、読みを表す表音文字が合致し、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容が定型メッセージに含まれる音片のアクセントの予測結果に合致する場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。
音片の読みとアクセントが合致する音片データがなお複数ある場合は、読みを表す表音文字及びアクセントが合致し、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。読み、アクセント、及び鼻濁音化や無声化の有無が合致する音片データが1個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って1個に絞り込む。
そして、このパーソナルコンピュータは、ステップS105で欠落部分識別データを生成していれば、ステップS103で得られた表音文字列から欠落部分表音文字列を抽出し、この欠落部分表音文字列に含まれるそれぞれの表音文字について、波形データベース34より検索し、当該表音文字が表す音素を構成する素片の波形を表す圧縮波形データを索出し(図4、ステップS109)、索出された圧縮波形データを、圧縮される前の素片波形データへと復元する(ステップS110)。
一方でこのパーソナルコンピュータは、ステップS104で生成した韻律予測データより欠落部分韻律予測データを抽出し(ステップS111)、ステップS110で復元された素片波形データと、この欠落部分韻律予測データとに基づいて音声波形データを生成する(ステップS112)。
次に、このパーソナルコンピュータは、上述の出力合成部43が行う処理と同様の処理を行うことにより、ステップS112で生成された音声波形データに含まれる素片波形データの個数を調整し、当該音声波形データが表す音声の時間長を、ステップS108で選択された音片データが表す音片の発声スピードと整合するようにする(ステップS113)。
すなわち、ステップS113でこのパーソナルコンピュータは、例えば、ステップS108で選択された音片データに含まれる上述の各区間が表す音素の時間長が元の時間長に対して増減した比率を特定し、ステップS112で生成された音声波形データが表す音声の時間長が当該比率で変化するように、各音声波形データ内の素片波形データの個数を増加あるいは減少させればよい。なお、当該比率を特定するため、例えば、ステップS108で選択された音片データ(発声スピード変換後の音片データ)と、当該音片データがステップS107で変換を受ける前の元の音片データとの内で互いに同一の音声を表す区間を1個ずつ特定し、発声スピード変換後の音片データ内で特定した区間内に含まれる素片の個数が、元の音片データ内で特定した区間内に含まれる素片の個数に対して増減した比率を、音声の時間長の増減の比率として特定するようにすればよい。
なお、音声波形データが表す音声の時間長が、発声スピード変換後の音片データが表す音片のスピードに既に整合している場合、又は、ステップS108で選択された音片データがない場合は、このパーソナルコンピュータは音声波形データ内の素片波形データの個数を調整する必要はない。
そして、このパーソナルコンピュータは、ステップS113の処理を経た音声波形データと、ステップS108で選択した音片データとを、メッセージデータが示すメッセージ内での各音片ないし音素の並びに従った順序で互いに結合することにより、合成音声を表すデータを生成する。そして、このデータが表す合成音声を再生する(ステップS114)。
なお、パーソナルコンピュータにこの音声合成端末やメッセージ配信装置Tの機能を行わせるプログラムは、例えば、通信回線の掲示板(BBS)にアップロードし、これを通信回線を介して配信してもよく、また、これらのプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
この発明の実施の形態に係る音声合成端末の構成を示すブロック図である。 音片データベースのデータ構造を模式的に示す図である。 この発明の実施の形態に係る音声合成端末の機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。 図3のフローチャートの続きである。
符号の説明
1 言語処理部
2 単語辞書
3 規則合成処理部
31 音響処理部
32 検索部
33,7 伸長部
34 波形データベース
4 音片編集部
41 一致音片決定部
42 韻律予測部
43 出力合成部
5 検索部
6 音片データベース
8 話速変換部
HDR ヘッダ部
IDX インデックス部
DIR ディレクトリ部
DAT データ部
T メッセージ配信装置

Claims (16)

  1. 配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
    音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する再生手段と、を備える、
    ことを特徴とする音声再生装置。
  2. 前記判別手段は、受信した前記配信先指定データが、配信先の如何を問わず強制的に音声を再生することを指示するものであるとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する、
    ことを特徴とする請求項1に記載の音声再生装置。
  3. 前記配信データには、当該配信データのエラーを訂正するための誤り訂正符号が付されており、
    前記判別手段は、受信した配信データにエラーがある場合、当該配信データに付されている誤り訂正符号を用いて当該エラーを訂正する手段を備え、エラーが訂正された当該配信データを、受信した配信データとして扱う、
    ことを特徴とする請求項1又は2に記載の音声再生装置。
  4. 前記再生手段は、
    音片を表す音片データを複数記憶する音片記憶手段と、
    音声再生の対象と決定された配信データが示す文章を構成する音声と読みが共通している音片データを選択する処理を行う選択手段と、
    前記文章を構成する音声のうち、前記選択手段が音片データを選択できなかった音声について、当該音声の波形を表す音声データを合成する欠落部分合成手段と、
    前記選択手段が選択した音片データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデータを生成する手段と、を備える、
    ことを特徴とする請求項1、2又は3に記載の音声再生装置。
  5. 前記欠落部分合成手段は、
    音素を表し、又は、音素を構成する素片を表すデータを複数記憶する記憶手段と、
    前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得して互いに結合することにより、当該音声の波形を表す音声データを合成する合成手段と、を備える、
    ことを特徴とする請求項4に記載の音声再生装置。
  6. 前記欠落部分合成手段は、前記選択手段が音片データを選択できなかった前記音声の韻律を予測する欠落部分韻律予測手段を備え、
    前記合成手段は、前記選択手段が音片データを選択できなかった前記音声に含まれる音素を特定し、特定した音素又は当該音素を構成する素片を表すデータを前記記憶手段より取得し、取得したデータを、当該データが表す音素又は素片が、前記欠落部分韻律予測手段による韻律の予測結果に合致するように変換して、変換されたデータを互いに結合することにより、当該音声の波形を表す音声データを合成する、
    ことを特徴とする請求項5に記載の音声再生装置。
  7. 前記音片記憶手段は、音片データが表す音片のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶しており、
    前記選択手段は、各前記音片データのうちから、前記文章を構成する音声と読みが共通しており、且つ、対応付けられている韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音片データを選択する、
    ことを特徴とする請求項3乃至6のいずれか1項に記載の音声再生装置。
  8. 前記再生手段は、前記合成音声を発声するスピードの条件を指定する発声スピードデータを取得し、前記合成音声を表すデータを構成する音片データ及び/又は音声データを、当該発声スピードデータが指定する条件を満たすスピードで発話される音声を表すように選択又は変換する発話スピード変換手段を備える、
    ことを特徴とする請求項3乃至7のいずれか1項に記載の音声再生装置。
  9. 前記発話スピード変換手段は、前記合成音声を表すデータを構成する音片データ及び/又は音声データから素片を表す区間を除去し、又は、当該音片データ及び/又は音声データに素片を表す区間を追加することによって、当該音片データ及び/又は音声データを、前記発声スピードデータが指定する条件を満たすスピードで発話される音声を表すよう変換する、
    ことを特徴とする請求項8に記載の音声再生装置。
  10. 前記音片記憶手段は、音片データの読みを表す表音データを、当該音片データに対応付けて記憶しており、
    前記選択手段は、前記文章を構成する音声の読みに合致する読みを表す表音データが対応付けられている音片データを、当該音声と読みが共通する音片データとして扱う、
    ことを特徴とする請求項3乃至9のいずれか1項に記載の音声再生装置。
  11. 配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信する手段を備え、
    前記外部の装置は、当該配信データ及び当該配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるとき、当該配信先指定データに対応付けられている配信データが示す文章を読み上げる音声を再生する機能を有する、
    ことを特徴とする音声配信装置。
  12. 送信手段と、受信手段とより構成された情報配信システムであって、
    前記送信手段は、配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて送信する手段を備え、
    前記受信手段は、
    互いに対応付けられた配信データ及び配信先指定データを受信し、受信した当該配信先指定データが示す配信先に前記受信手段自身が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
    音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する再生手段と、を備える、
    ことを特徴とする音声配信システム。
  13. 配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、
    含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定し、
    音声再生の対象と決定された配信データが示す文章を読み上げる音声を再生する、
    ことを特徴とする音声再生方法。
  14. 配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信することを特徴とする音声配信方法であって、
    前記外部の装置は、当該配信データ及び当該配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるとき、当該配信先指定データに対応付けられている配信データが示す文章を読み上げる音声を再生する機能を有する、
    ことを特徴とする音声配信方法。
  15. 音声データが表す音声を再生する機能を有するコンピュータを、
    配信対象の文章を示す配信データ、及び、当該文章の配信先を指定する配信先指定データを受信し、受信した当該配信先指定データが示す配信先に自己が含まれるか否かを判別し、含まれると判別したとき、当該配信先指定データに対応付けられている配信データを音声再生の対象とすると決定する判別手段と、
    音声再生の対象と決定された配信データが示す文章を読み上げる音声を表す音声データを生成し、当該音声データが表す音声を再生する再生手段と、
    して機能させるためのプログラム。
  16. コンピュータを、配信対象の文章を示す配信データ、及び当該文章の配信先を指定する配信先指定データを、互いに対応付けて、外部の装置へと送信する手段として機能させるためのプログラム。
JP2005299529A 2005-10-14 2005-10-14 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム Pending JP2007108450A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005299529A JP2007108450A (ja) 2005-10-14 2005-10-14 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005299529A JP2007108450A (ja) 2005-10-14 2005-10-14 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2007108450A true JP2007108450A (ja) 2007-04-26

Family

ID=38034353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005299529A Pending JP2007108450A (ja) 2005-10-14 2005-10-14 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2007108450A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018004977A (ja) * 2016-07-04 2018-01-11 日本電信電話株式会社 音声合成方法、システム及びプログラム
JP2018166270A (ja) * 2017-03-28 2018-10-25 株式会社日立国際電気 同報放送システム及び子局装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09191482A (ja) * 1995-11-11 1997-07-22 Akihiko Tsunoda 放送型マルチキャストコール受信ページャー
JPH1132123A (ja) * 1997-07-09 1999-02-02 Sanyo Electric Co Ltd 音声合成端末装置
JP2000175250A (ja) * 1998-12-04 2000-06-23 Nec Corp 情報配信制御システム及び方法
JP2002157670A (ja) * 2000-11-20 2002-05-31 Fujitsu General Ltd 緊急指令システム
JP2002354521A (ja) * 2001-05-29 2002-12-06 Kobe Steel Ltd 情報配信システム,そのサーバ
JP2003234731A (ja) * 2003-01-24 2003-08-22 Hitachi Ltd 情報転送方式
JP2005018037A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09191482A (ja) * 1995-11-11 1997-07-22 Akihiko Tsunoda 放送型マルチキャストコール受信ページャー
JPH1132123A (ja) * 1997-07-09 1999-02-02 Sanyo Electric Co Ltd 音声合成端末装置
JP2000175250A (ja) * 1998-12-04 2000-06-23 Nec Corp 情報配信制御システム及び方法
JP2002157670A (ja) * 2000-11-20 2002-05-31 Fujitsu General Ltd 緊急指令システム
JP2002354521A (ja) * 2001-05-29 2002-12-06 Kobe Steel Ltd 情報配信システム,そのサーバ
JP2003234731A (ja) * 2003-01-24 2003-08-22 Hitachi Ltd 情報転送方式
JP2005018037A (ja) * 2003-06-05 2005-01-20 Kenwood Corp 音声合成装置、音声合成方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018004977A (ja) * 2016-07-04 2018-01-11 日本電信電話株式会社 音声合成方法、システム及びプログラム
JP2018166270A (ja) * 2017-03-28 2018-10-25 株式会社日立国際電気 同報放送システム及び子局装置

Similar Documents

Publication Publication Date Title
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
KR101076202B1 (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체
JP4246790B2 (ja) 音声合成装置
JP4620518B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP5343293B2 (ja) 音声編集合成装置及び音声編集合成方法
JP2007108450A (ja) 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP4411017B2 (ja) 話速変換装置、話速変換方法及びプログラム
JP2005025173A (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP4574333B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JP4184157B2 (ja) 音声データ管理装置、音声データ管理方法及びプログラム
JP4209811B2 (ja) 音声選択装置、音声選択方法及びプログラム
JP2006145690A (ja) 音声合成装置、音声合成方法及びプログラム
JP4620517B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
KR100612780B1 (ko) 음성 및 악곡 재생 장치
JP2004361944A (ja) 音声データ選択装置、音声データ選択方法及びプログラム
JP4816067B2 (ja) 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP2006145848A (ja) 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム
JP2006195207A (ja) 音声合成装置、音声合成方法及びプログラム
JP2007240987A (ja) 音声合成装置、音声合成方法及びプログラム
JP2007240988A (ja) 音声合成装置、データベース、音声合成方法及びプログラム
JP2007240989A (ja) 音声合成装置、音声合成方法及びプログラム
JP2007240990A (ja) 音声合成装置、音声合成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426