JP4039620B2 - Speech synthesis apparatus and speech synthesis program - Google Patents
Speech synthesis apparatus and speech synthesis program Download PDFInfo
- Publication number
- JP4039620B2 JP4039620B2 JP2002280430A JP2002280430A JP4039620B2 JP 4039620 B2 JP4039620 B2 JP 4039620B2 JP 2002280430 A JP2002280430 A JP 2002280430A JP 2002280430 A JP2002280430 A JP 2002280430A JP 4039620 B2 JP4039620 B2 JP 4039620B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- text data
- speech
- synthesized
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、テキストデータ、特にデータ放送、文字放送によって送信されるテキストデータから音声合成する音声合成装置および音声合成プログラムに関する。
【0002】
【従来の技術】
従来、データ放送、文字放送によって送信側から送信されるテキストデータを、受信側で受信して高品質な音声合成データを生成する方法として、例えば、音声合成方式(特許文献1)が利用できる。この方式(方法、この方法による装置)は、送信側の装置において、当該装置に入力されたテキストデータから音声合成用データベース(送信側装置に包有)を参照して、テキストデータに含まれている音素の継続時間やピッチ等の付加情報を生成し、この付加情報をテキストデータと共に受信側に送信することにより、受信側の装置において、受信した付加情報に基づいて、音声合成用データベース(受信側装置に包有)を参照して、テキストデータの音声合成を行って、高品質な合成音声データを生成するものである。
【0003】
この方法を使用することにより、受信側の装置(音声合成装置)で、音声合成する際に負荷の高い計算(高負荷計算)が必要とされても、送信側(放送局側)で生成した付加情報によって当該高負荷計算の負荷が軽減され、受信側の装置(音声合成装置)で素早く(処理速度の速い)高品質な音声合成を実現することができる。
【0004】
【特許文献1】
特開平5−210395号公報
【0005】
【発明が解決しようとする課題】
しかしながら、従来の方法「音声合成方式」では、送信側から受信側に同じテキストデータが繰り返し送信される場合が多く(例えば、データ放送におけるデータカルーセル方式による送信)、受信側の受信装置でテキストデータを受信する度にその都度、音声合成する必要が生じ処理効率が悪く、ひいては高品質な音声合成を維持することが困難になるという問題がある。また、従来の「音声合成方式」では、送信側の装置と受信側の装置間で、同じ音声合成用データベースを備える必要があった。このため、送信側と受信側間で同じデータベースを保持できるように絶えずメンテナンスする必要があるという問題がある。
【0006】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、送信側と受信側で同じ音声合成用データベースを保持する必要がなく、高品質な合成音声データの生成をする(維持する)ことができる音声合成装置および音声合成プログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項1に記載の音声合成装置は、テキストデータを音声合成する音声合成装置であって、前記テキストデータを入力するテキストデータ入力手段と、前記テキストデータを記憶テキストデータとして記憶するテキストデータ記憶手段と、前記テキストデータ入力手段で単位毎に入力されたテキストデータを入力テキストデータとして、前記記憶テキストデータと比較し、前記入力テキストデータが前記記憶テキストデータと一致しない場合に、前記入力テキストデータを新たに入力された新規テキストデータとして判別し、記憶テキストデータとして前記テキストデータ記憶手段に記憶する新規テキストデータ判別手段と、前記新規テキストデータを音声合成する際に供され、音声合成単位ごとに語句と特徴量のデータが少なくとも含まれる音声合成用データを記憶する音声合成用データ記憶手段と、この音声合成用データ記憶手段に記憶された音声合成用データを使用して、前記新規テキストデータを音声合成し、合成音声データとする音声合成手段と、前記テキストデータ入力手段で入力された単位毎の入力テキストデータを選択するテキストデータ選択手段と、前記音声合成手段で音声合成した合成音声データを記憶する合成音声データ記憶手段と、前記テキストデータ選択手段で選択された入力テキストデータに対応する合成音声データを出力する合成音声データ出力手段と、前記音声合成手段で音声合成する際に使用した音声合成用データの語句と、それぞれの語句に対応する特徴量の前記音声合成用データ記憶手段における当該音声合成用データの記憶媒体上の記憶位置とを関連付けた参照情報を生成し、前記音声合成手段で音声合成する際に、前記合成音声データ記憶手段に出力する参照情報生成出力手段と、を備え、前記合成音声データ出力手段が、前記テキストデータ選択手段で選択された入力テキストデータに含まれる語句に対応する特徴量を、前記参照情報を使用して前記音声合成用データ記憶手段から読み出して、この読み出された特徴量を用いて生成された合成音声データをスピーカに出力することを特徴とする。
【0008】
かかる構成によれば、テキストデータ入力手段で、テキストデータが入力される。新規テキストデータ判別手段で、テキストデータを記憶した記憶テキストデータと、新たに入力された入力テキストデータとが比較され、入力テキストデータが記憶テキストデータと一致しない場合に、入力テキストデータが新たに入力された新規テキストデータとして判別され、記憶テキストデータとしてテキストデータ記憶手段に記憶される。音声合成用データ記憶手段で、新規テキストデータを音声合成する際に供され、音声合成単位ごとに語句と特徴量のデータが少なくとも含まれる音声合成用データが記憶される。新規テキストデータ判別手段で新規テキストデータと判別された場合には、音声合成手段で、音声合成用データ記憶手段に記憶された音声合成用データが使用されて、新規テキストデータが音声合成され、音声合成データとされる。そして、テキストデータ選択手段で入力テキストデータが選択されるまで、音声合成データが合成音声データ記憶手段で保持されて、入力テキストデータが選択されると、この入力テキストデータに対応する合成音声データが合成音声データ出力手段で出力される。なお、入力テキストデータが記憶テキストデータと一致しない場合とは、句読点の間の一部でも一致していなければ一致していないとみなす場合を指すものであり、つまり、新規テキストデータ判別手段では、句読点の間の入力テキストデータが記憶テキストデータに完全一致していない限り、新規テキストデータとみなされる。また、参照情報生成出力手段で、音声合成手段で音声合成する際に使用された音声合成用データの語句と、それぞれの語句に対応する特徴量の音声合成用データ記憶手段における記憶媒体上の記憶位置とが関連付けられた参照情報が生成され、合成音声データ記憶手段に出力される。そして、この参照情報が使用され、合成音声データ出力手段により、テキストデータ選択手段で選択された入力テキストデータに含まれる語句に対応する特徴量が音声合成用データ記憶手段から読み出され、読み出された特徴量を用いて生成された合成音声データがスピーカに出力される。記憶媒体上の記憶位置は、例えば、記憶媒体上に付されている時間情報に対応しているものである。参照情報は、音声合成用データの単語または音素と、記憶媒体上の記憶位置とが関連付けられたものである。
【0009】
請求項2に記載の音声合成装置は、請求項1に記載の音声合成装置において、前記テキストデータを、データ放送、文字放送の少なくとも一方の放送により受信するテキストデータ受信手段を備えたことを特徴とする。
【0010】
かかる構成によれば、テキストデータ受信手段で、データ放送、文字放送の少なくとも一方によって、テキストデータが入力される。つまり、このテキストデータ受信手段が備えられることで、音声合成装置は、音声合成機能が付属したデータ受信機であるといえ、通常のデータ放送によって放送されており、受信側の表示装置に表示されるテロップ等の文字情報や、文字ニュース等のテキストデータが合成音声データに変換されて(合成されて)、出力される。
【0011】
請求項3に記載の音声合成装置は、請求項1または請求項2に記載の音声合成装置において、前記合成音声データ記憶手段で前記合成音声データを記憶する際に、当該合成音声データのデータ量を圧縮した圧縮合成音声データとする合成音声データ圧縮手段と、前記テキストデータ選択手段で選択された入力テキストデータが前記圧縮合成音声データに対応する際に、当該圧縮合成音声データを解凍する圧縮合成音声データ解凍手段とを備えたことを特徴とする。
【0012】
かかる構成によれば、合成音声データ圧縮手段で、合成音声データが合成音声データ記憶手段に記憶される場合に、テータ量が少なくなるように圧縮される。なお、この合成音声データ圧縮手段における合成音声データの圧縮方式は、MPEG−2方式の他、任意の圧縮方式でよい。この合成音声データ圧縮手段で圧縮された圧縮合成音声データは、テキストデータ選択手段で対応する入力テキストデータが選択された場合に、圧縮合成音声データ解凍手段で解凍される。
【0013】
請求項4に記載の音声合成プログラムは、テキストデータを音声合成するために、コンピュータを、前記テキストデータを入力するテキストデータ入力手段、前記テキストデータを記憶テキストデータとして記憶するテキストデータ記憶手段、前記テキストデータ入力手段で単位毎に入力されたテキストデータを入力テキストデータとして、前記記憶テキストデータと比較し、前記入力テキストデータが前記記憶テキストデータと一致しない場合に、前記入力テキストデータを新たに入力された新規テキストデータとして判別し、記憶テキストデータとして前記テキストデータ記憶手段に記憶する新規テキストデータ判別手段、前記新規テキストデータを音声合成する際に供され、音声合成単位ごとに語句と特徴量のデータが少なくとも含まれる音声合成用データを記憶する音声合成用データ記憶手段、この音声合成用データ記憶手段に記憶された音声合成用データを使用して、前記新規テキストデータを音声合成し、合成音声データとする音声合成手段、前記テキストデータ入力手段で入力された単位毎の入力テキストデータを選択するテキストデータ選択手段、前記音声合成手段で音声合成した合成音声データを記憶する合成音声データ記憶手段、前記テキストデータ選択手段で選択された入力テキストデータに対応する合成音声データを出力する合成音声データ出力手段、前記音声合成手段で音声合成する際に使用した音声合成用データの語句と、それぞれの語句に対応する特徴量の前記音声合成用データ記憶手段における当該音声合成用データの記憶媒体上の記憶位置とを関連付けた参照情報を生成し、前記音声合成手段で音声合成する際に、前記合成音声データ記憶手段に出力する参照情報生成出力手段、として機能させ、前記合成音声データ出力手段が、前記テキストデータ選択手段で選択された入力テキストデータに含まれる語句に対応する特徴量を、前記参照情報を使用して前記音声合成用データ記憶手段から読み出して、この読み出された特徴量を用いて生成された合成音声データをスピーカに出力することを特徴とする。
【0014】
かかる構成によれば、テキストデータ入力手段で、テキストデータが入力される。新規テキストデータ判別手段で、テキストデータを記憶した記憶テキストデータと、新たに入力された入力テキストデータとが比較され、入力テキストデータが記憶テキストデータと一致しない場合に、入力テキストデータが新たに入力された新規テキストデータとして判別され、記憶テキストデータとしてテキストデータ記憶手段に記憶される。音声合成用データ記憶手段で、新規テキストデータを音声合成する際に供され、音声合成単位ごとに語句と特徴量のデータが少なくとも含まれる音声合成用データが記憶される。新規テキストデータ判別手段で新規テキストデータと判別された場合には、音声合成手段で、音声合成用データ記憶手段に記憶された音声合成用データが使用されて、新規テキストデータが音声合成され、音声合成データとされる。そして、テキストデータ選択手段で入力テキストデータが選択されるまで、音声合成データが合成音声データ記憶手段で保持されて、入力テキストデータが選択されると、この入力テキストデータに対応する合成音声データが合成音声データ出力手段で出力される。参照情報生成出力手段で、音声合成手段で音声合成する際に使用された音声合成用データの語句と、それぞれの語句に対応する特徴量の音声合成用データ記憶手段における記憶媒体上の記憶位置とが関連付けられた参照情報が生成され、合成音声データ記憶手段に出力される。そして、この参照情報が使用され、合成音声データ出力手段により、テキストデータ選択手段で選択された入力テキストデータに含まれる語句に対応する特徴量が音声合成用データ記憶手段から読み出され、読み出された特徴量を用いて生成された合成音声データがスピーカに出力される。
【0021】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
(音声合成装置の構成)
図1は音声合成装置のブロック図である。この図1に示すように、音声合成装置1は、テキストデータ入力部3と、テキストデータ受信部5と、新規テキストデータ判別部7と、テキストデータ記憶部9と、音声合成部11と、音声合成用データベース13と、合成音声データ記憶出力部15と、テキストデータ選択部17とを備えている。また、この音声合成装置1は、音声合成した合成音声データを出力するスピーカ19に接続されており、当該音声合成装置1を操作するリモコン21が備えられている。
【0022】
この音声合成装置1は、データ放送、文字放送等によって送信されるテキストデータや、キーボード(図示せず)等を介して入力されたテキストデータ(単位毎に入力されたテキストデータ)を、音声合成して出力するものである。また、この音声合成装置1では、従来の音声合成装置(音声合成機能付属データ受信機)のように、送信側からテキストデータと付加情報とが送信されなくても、音声合成用データベース13中の音声合成用データを使用して、テキストデータを音声合成する際に、参照情報(詳しくは後記する)を生成することで処理速度を向上させることができる共に、一度、音声合成した合成音声データを貯えておいて、再利用することで、当該装置1の処理能力が低下せず、高品質の合成音声を出力できる(維持できる)ものである。また、単位毎に入力されたテキストデータとは、当該装置1に一度に入力された入力単位や、一纏まりにまとめることができる単位、例えば、語句単位毎、文章単位毎のことを指すものである。
【0023】
テキストデータ入力部3は、キーボードやマウス等によって構成され、テキストデータを入力するものである。なお、このテキストデータ入力部3は、既存の手書き文章からテキストデータを取得することができるOCRで構成してもいいし、テキストデータが記憶されているディスクを取り扱うディスクドライブで構成してもいいし、外部から通信回線網等を介して入力される入力端子で構成してもいい。このテキストデータ入力部3が特許請求の範囲の請求項に記載したテキストデータ入力手段に相当するものである。
【0024】
テキストデータ受信部5は、データ放送、文字放送等を受信可能なアンテナ(パラボラアンテナ)、検波回路等によって構成されるもので、放送局から送出される現行のアナログテレビ放送やハイビジョン衛星放送のデータチャンネル(データ放送、文字放送等)で伝送される各種のデジタルデータに含まれるテキストデータを検出するものである。このテキストデータ受信部5が特許請求の範囲の請求項に記載したテキストデータ受信手段に相当するものである。
【0025】
なお、この実施の形態では、テキストデータ入力部3およびテキストデータ受信部5には、予め、入力単位を設定する機能(入力単位設定機能)が備えられており、当該装置1に一度に入力された入力単位(受信時刻に隔てのある文章単位)や、一纏まりにまとめることができる単位、例えば、語句単位毎、文章単位を設定することができる。
【0026】
新規テキストデータ判別部7は、テキストデータ入力部3とテキストデータ受信部5とから入力されたテキストデータをテキストデータ記憶部9に記憶テキストデータとして記憶すると共に、このテキストデータ記憶部9に記憶した記憶テキストデータと続いて入力されたテキストデータ(入力テキストデータ)とを比較し、入力テキストデータが記憶テキストデータと一致しない場合に、新規テキストデータと判別して音声合成部11に出力するものである。なお、新規テキストデータと判別された場合には、記憶テキストデータ(新たな記憶テキストデータ)としてテキストデータ記憶部9に記憶される。
【0027】
また、入力テキストデータが記憶テキストデータとが一致しない場合とは入力テキストデータを句読点で分割して、これら句読点間の文章の中で異なる部分が少しでもあれば、一致しないとみなすことであり、この場合、一致していない部分のみが音声合成部11に出力される。
【0028】
例えば、記憶テキストデータが「今日はいい天気で、過ごしやすい日になるでしょう。」であり、入力テキストデータが「今日はいい天気で、気温は28度になる見込みです。」であり、記憶テキストデータは「今日はいい天気で、」、「過ごしやすい日になるでしょう。」と分解されてテキストデータ記憶部9に記憶されており、入力テキストデータ「今日はいい天気で、」、「気温は28度になる見込みです。」と分解され、これらを比較した場合、記憶テキストデータと入力テキストデータとで、異なる部分(新しい部分)、すなわち、「気温は28度になる見込みです。」が新規テキストデータとして判別され、音声合成部11に出力され、共通する「今日はいい天気で」という単語は音声合成部11に出力されない。
【0029】
テキストデータ記憶部9は、半導体メモリやハードディスク等によって構成されるもので、テキストデータ入力部3とテキストデータ受信部5とで得られたテキストデータを、新規テキストデータ判別部7で判別された結果に基づいて記憶するものである。なお、新規テキストデータ判別部7およびテキストデータ記憶部9が特許請求の範囲の請求項に記載した新規テキストデータ判別手段に相当するものである。
【0030】
音声合成部11は、新規テキストデータ判別部7で判別された新規テキストデータを、音声合成用データベース13を探索して音声合成し、合成音声データを生成するものである。なお、音声合成部11における音声合成の方法(手段)は、どのようなタイプのものであってもよく、例えば、特開平10−49193号公報に開示されている手段を利用してもよい。
【0031】
この音声合成部11には、新規テキストデータを音声合成する際に使用した音声合成用データと、音声合成用データベース13の記憶媒体上の記憶位置と関連付けて、合成音声データと共に、合成音声データ記憶出力部15に出力する参照情報生成出力手段(図示せず)が備えられている。
【0032】
参照情報は、例えば、「米倉」という単語に対し、「米倉_名詞_ファイル23_30ms〜70ms_XXX」といったように記述されるもので、“名詞”は、単語または音素の品詞等に関する情報の一種であり、“ファイル23”は音声合成用データベース13中において、「米倉」という名詞が含まれている文章の番号を示すものであり、“30ms〜70ms”がファイル23(文章)中で発声されている時間を示すものであり、“XXX”が「米倉」という単語の特徴量を示すものである。
【0033】
音声合成部11において、前記した特開平10−49193号公報に開示されている手段を使用した場合、音声合成に時間がかかるのは、音声合成用データベース13の探索時間であるので、この参照情報生成出力手段(図示せず)によって生成した参照情報を使用すれば、合成音声データ記憶出力部15には、必ずしも、合成音声データを記憶しておく必要がなくなり、記憶容量を小さくすることができる。また、この音声合成部11が特許請求の範囲の請求項に記載した音声合成手段に相当するものである。
【0034】
音声合成用データベース13は、大容量のハードディスク等によって構成され、音声合成部11で新規テキストデータを音声合成する際に使用されるもので、単語または音素によって構成される音声合成単位(単語分割候補)毎に、発声時間、特徴量等がまとめられた音声合成用データが記憶されたものである。なお、この音声合成用データベース13が特許請求の範囲の請求項に記載した音声合成用データ記憶手段に相当するものである。
【0035】
合成音声データ記憶出力部15は、いわゆるデータバッファに該当するものであり、音声合成部11で音声合成された合成音声データを記憶して、テキストデータ選択部17から出力された選択データに基づいて、記憶した合成音声データを出力するものであり、合成音声データ出力手段15aと、合成音声データ記憶手段15bとを備えている。
【0036】
合成音声データ出力手段15aは、合成音声データおよび参照情報の記憶および出力の制御を司るもので、音声合成部11で音声合成された合成音声データを合成音声データ記憶手段15bに記憶させると共に、テキストデータ選択部17から出力された選択データに基づいて、この選択データに対応する合成音声データをスピーカ19に出力するものである。
【0037】
合成音声データ記憶手段15bは、音声合成部11で音声合成された合成音声データと、参照情報とを合成音声データ出力手段15aの制御に従って、記憶するものである。
また、この合成音声データ記憶出力部15には、図示を省略した合成音声データ圧縮手段および圧縮合成音声データ解凍手段が備えられている。
【0038】
合成音声データ圧縮手段(図示せず)は、音声合成部11で音声合成された合成音声データを合成音声データ記憶手段15bに記憶する際に、当該合成音声データのデータ量を圧縮し、圧縮合成音声データを生成するものである。圧縮合成音声データ解凍手段(図示せず)は、合成音声データ記憶手段15bに記憶した圧縮合成音声データを、テキストデータ選択部17から出力される選択データに基づいて、出力する(読み出す)際に解凍するものである。
【0039】
これら合成音声データ圧縮手段(図示せず)および圧縮合成音声データ解凍手段(図示せず)によって、合成音声データ記憶手段15bの記憶容量を少量に抑えることができる。
【0040】
テキストデータ選択部17は、音声合成装置1の使用者が操作したリモコン21から出力された赤外線信号(制御信号)に基づいて、当該音声合成装置1から出力させる音声(合成音声データ)に対応するテキストデータを選択するものである。
【0041】
この音声合成装置1によれば、テキストデータ入力部3で、テキストデータが入力される。新規テキストデータ判別部7で、テキストデータをテキストデータ記憶部9に記憶した記憶テキストデータと、新たに入力された入力テキストデータとが比較され、入力テキストデータが記憶テキストデータと一致しない場合に、入力テキストデータが新たに入力された新規テキストデータとして判別される。この新規テキストデータ判別部7で新規テキストデータと判別された場合には、音声合成部11で、音声合成用データベース13に記憶される音声合成用データが使用されて、新規テキストデータが音声合成され、音声合成データとされる。そして、テキストデータ選択部17でテキストデータが選択されるまで、音声合成データが合成音声データ記憶出力部15で保持されて、テキストデータが選択されると、このテキストデータに対応する音声合成データが合成音声データ記憶出力部15で出力される。このため、一旦、音声合成部11で音声合成された合成音声データが合成音声データ記憶出力部15に記憶されており、新規テキストデータ判別部7で判別された新規テキストデータのみが音声合成部11で音声合成されるので、音声合成する際の無駄な処理(余分な音声合成)が低減され、当該装置1の音声合成処理能力を高水準に維持することができ、高品質な合成音声データを生成することができる。
【0042】
また、音声合成装置1のテキストデータ受信部5によって、データ放送、文字放送の少なくとも一方によるテキストデータが入力される。つまり、このテキストデータ受信部5が備えられることで、音声合成装置1は、音声合成機能が付属したデータ受信機であるといえ、通常のデータ放送によって放送されており、受信側の表示装置に表示されるテロップ等の文字情報や、文字ニュース等のテキストデータが合成音声データに変換されて(合成されて)、出力される。
【0043】
すなわち、通常のデータ放送や文字放送等によるテキストデータは、音声合成装置(音声合成機能付属データ受信機)1を使用者(視聴者)が使用している最中に頻繁に入れ替わる可能性が少ない。このため、この音声合成装置1の音声合成部11で合成済みでない新規テキストデータをテキストデータ受信部5で受信するとすぐに音声合成した合成音声データを生成し、合成音声データ記憶出力部15の合成音声データ記憶手段15bに記憶しておき(貯えておき)、テキストデータ選択部17でテキストデータが選択されると、このテキストデータに対応する音声合成済みの合成音声データを合成音声データ記憶出力部15から出力し、スピーカ19で読み上げることができる(発声させることができる)。
【0044】
(音声合成装置の動作)
次に、図2に示すフローチャートを参照して、音声合成装置1の動作を説明する。
まず、この音声合成装置1が起動すると、テキストデータ入力部3、テキストデータ受信部5の少なくとも一方でテキストデータが入力されたかどうかが判断され(S1)、入力されるまで待機され(S1、No)、入力された場合、テキストデータ記憶部9に記憶テキストデータとして記憶される(S2)。
【0045】
そして、このテキストデータ記憶部9に記憶した記憶テキストデータと、新たに入力された入力テキストデータとが新規テキストデータ判別部7で比較判別され、この比較判別結果に基づいて、新規テキストデータかどうかが判断される(S3)。新規テキストデータ判別部7で入力テキストデータが新規テキストデータであると判断された場合(S3、Yes)、音声合成部11に新規テキストデータが出力される。
【0046】
すると、音声合成部11で、音声合成用データベース13を探索して、新規テキストデータが音声合成され、合成音声データとされる(S4)。この合成音声データおよび音声合成する際に生成した参照情報が合成音声データ記憶出力部15に出力される。この合成音声データ記憶出力部15では、合成音声データおよび参照情報が入力されると、合成音声データ記憶手段15bに当該合成音声データおよび参照情報を記憶する(S5)。
【0047】
その後、テキストデータ選択部17にリモコン21から(音声合成装置1の使用者から)の音声(合成音声データ)の出力要求(制御信号)があるかどうかが判断される(S6)。リモコン21からの音声(合成音声データ)の出力要求(制御信号)があると判断されるまで待機され(S6、No)、リモコン21からの音声(合成音声データ)の出力要求(制御信号)があると判断された場合には、合成音声データ記憶出力部15の合成音声データ出力手段15aによって、出力要求(制御信号)に従ったテキストデータに対応する音声(合成音声データ)がスピーカ19に出力される(S7)。
【0048】
(データ放送によるテキストデータを音声合成する具体例について)
音声合成装置1のテキストデータ受信部5でデータ放送によるテキストデータを受信して、音声合成する具体例について説明する(適宜、図1を参照)。テキストデータ受信部5で受信したテキストデータに「ニュース」、「気象情報」、「スポーツ」、「円と株」、「道路交通情報」、「福祉」、「おすすめ情報」が含まれており、このテキストデータが図示を省略した表示装置の表示画面に“メニュー画面”として表示されている。
【0049】
予め、「ニュース」、「気象情報」、「スポーツ」、「円と株」、「道路交通情報」、「福祉」、「おすすめ情報」が送信側の放送局から送信されてきていたとすると、これら「ニュース」、「気象情報」、「スポーツ」、「円と株」、「道路交通情報」、「福祉」、「おすすめ情報」が記憶テキストデータとして、テキストデータ記憶部9に記憶されている。続いて送信された「ニュース」、「気象情報」、「台風情報」、「スポーツ」、「円と株」、「道路交通情報」、「福祉」、「おすすめ情報」とすると、「台風情報」が新規テキストデータとして新規テキストデータ判別部7で判別され、音声合成部11で音声合成される。音声合成部11で音声合成が終了した合成音声データから順に合成音声データ記憶出力部15に出力され、合成音声データ記憶手段15bに記憶される。
【0050】
そして、音声合成装置1の使用者がリモコン21で「円と株」を選択したとすると、この「円と株」を選択した選択データがテキストデータ選択部17から合成音声データ記憶出力部15の合成音声データ出力手段15aに出力され、この合成音声データ出力手段15aで、合成音声データ記憶手段15bに記憶されている「円と株」の合成音声データが読み出され、スピーカ19から出力される。
【0051】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音声合成装置1の各構成の処理を一つずつの工程ととらえた音声合成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した音声合成プログラムとみなすことは可能である。これらの場合、音声合成装置1と同様な効果を得ることができる。
【0052】
【発明の効果】
請求項1、4に記載の発明によれば、テキストデータが入力され、このテキストデータが新たに入力されたものであれば、音声合成され、合成音声データとして記憶される。そして、テキストデータが選択されると、このテキストデータに対応する合成音声データが出力される。新規のテキストデータのみが音声合成されるので、音声合成処理能力が低下することなく、テキストデータを送信した送信側とテキストデータを受信した受信側とで同じ音声合成用データベースを保持する必要がなく、高品質な合成音声データを生成することができる。また、音声合成する際に使用された音声合成用データと、音声合成用データが記憶される記憶媒体上の記憶位置とが関連付けられた参照情報が生成されるので、この参照情報に基づいて、合成音声データを生成することができ、合成音声データを記憶しておく記憶媒体の記憶容量を少量に抑えることができると共に、音声合成する際の処理を軽減することができる。
【0053】
請求項2に記載の発明によれば、データ放送、文字放送の少なくとも一方によるテキストデータが入力される。つまり、通常のデータ放送によって放送されており、受信側の表示装置に表示されるテロップ等の文字情報や、文字ニュース等のテキストデータを合成音声データして出力することができる。
【0054】
請求項3に記載の発明によれば、合成音声データが記憶される場合に、テータ量が少なくなるように圧縮され、圧縮された圧縮合成音声データが、読み出される際に解凍されるので、合成音声データを記憶しておく記憶媒体の記憶容量を少量に抑えることができる。
【0055】
請求項5記載の発明によれば、音声合成する際に使用された音声合成用データと、音声合成用データが記憶される記憶媒体上の記憶位置とが関連付けられた参照情報が生成されるので、この参照情報に基づいて、音声合成用データを生成することができ、合成音声データを記憶しておく記憶媒体の記憶容量を少量に抑えることができると共に、音声合成する際の処理を軽減することができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態である音声合成装置のブロック図である。
【図2】図1に示した音声合成装置の動作を説明したフローチャートである。
【符号の説明】
1 音声合成装置
3 テキストデータ入力部
5 テキストデータ受信部
7 新規テキストデータ判別部
9 テキストデータ記憶部
11 音声合成部
13 音声合成用データベース
15 合成音声データ記憶出力部
15a 合成音声データ出力手段
15b 合成音声データ記憶手段
17 テキストデータ選択部
19 スピーカ
21 リモコン[0001]
BACKGROUND OF THE INVENTION
The present invention synthesizes speech from text data, particularly text data transmitted by data broadcasting and text broadcasting.SoundThe present invention relates to a voice synthesizer and a voice synthesis program.
[0002]
[Prior art]
Conventionally, for example, a speech synthesis method (Patent Document 1) can be used as a method of receiving text data transmitted from a transmission side by data broadcasting or text broadcasting on the reception side and generating high-quality speech synthesis data. This method (method, device according to this method) is included in the text data by referring to the speech synthesis database (included in the transmitting device) from the text data input to the transmitting device. By generating additional information such as the duration and pitch of the phoneme that is being transmitted, and transmitting this additional information to the receiving side together with the text data. The high-quality synthesized voice data is generated by synthesizing the text data with reference to (included in the side device).
[0003]
By using this method, even if a high load calculation (high load calculation) is required when synthesizing the speech on the receiving device (speech synthesizer), it was generated on the transmitting side (broadcasting station side) The load of the high load calculation is reduced by the additional information, and high-quality speech synthesis can be realized quickly (fast processing speed) by the receiving device (speech synthesizer).
[0004]
[Patent Document 1]
Japanese Patent Application Laid-Open No. 5-210395
[0005]
[Problems to be solved by the invention]
However, in the conventional method “speech synthesis method”, the same text data is often repeatedly transmitted from the transmission side to the reception side (for example, transmission by the data carousel method in data broadcasting), and the text data is received by the reception device on the reception side. Each time a message is received, it is necessary to synthesize speech, resulting in poor processing efficiency, and it becomes difficult to maintain high-quality speech synthesis. Further, in the conventional “speech synthesis method”, it is necessary to provide the same speech synthesis database between the transmission side device and the reception side device. For this reason, there is a problem that it is necessary to maintain constantly so that the same database can be maintained between the transmission side and the reception side.
[0006]
Therefore, the object of the present invention is to solve the problems of the conventional technique described above, and to generate (maintain) high-quality synthesized speech data without having to maintain the same speech synthesis database on the transmission side and the reception side. )It is possibleSoundTo provide a voice synthesizer and a voice synthesis program.
[0007]
[Means for Solving the Problems]
In order to achieve the above-described object, the present invention has the following configuration.
The speech synthesizer according to claim 1, which is a speech synthesizer for synthesizing text data, a text data input means for inputting the text data, and a text data storage means for storing the text data as stored text data. And the text data input for each unit by the text data input means as input text data, compared with the stored text data, if the input text data does not match the stored text data, the input text data New text data discriminating means for discriminating as newly input new text data and storing it as stored text data in the text data storing means, and provided for voice synthesis of the new text dataInclude at least word and feature data for each speech synthesis unitUsing the voice synthesis data storage means for storing the voice synthesis data and the voice synthesis data stored in the voice synthesis data storage means, the new text data is voice-synthesized into synthesized voice data. Speech synthesis means; text data selection means for selecting input text data for each unit input by the text data input means; synthesized speech data storage means for storing synthesized speech data synthesized by the speech synthesis means; Synthetic speech data output means for outputting synthesized speech data corresponding to the input text data selected by the text data selection means, and speech synthesis data used for speech synthesis by the speech synthesizerWordsWhen,Of features corresponding to each wordReference information in association with the storage position of the speech synthesis data in the speech synthesis data storage means on the storage medium is generated and output to the synthesized speech data storage means when speech synthesis is performed by the speech synthesis means. Reference information generation and output means, and the synthesized speech data output means,in frontSelected by the text data selection meansA feature amount corresponding to a phrase included in the input text data is read from the speech synthesis data storage unit using the reference information, and is generated using the read feature amount.The synthesized voice data is output to a speaker.
[0008]
According to this configuration, text data is input by the text data input means. The new text data discriminating means compares the stored text data storing the text data with the newly input text data, and if the input text data does not match the stored text data, the input text data is newly input. The new text data is determined and stored as stored text data in the text data storage means.The speech synthesis data storage means is used when speech synthesis of new text data, and stores speech synthesis data including at least words and feature data for each speech synthesis unit.When the new text data discriminating means discriminates it as new text data, the voice synthesizing means uses the voice synthesizing data stored in the voice synthesizing data storage means, and the new text data is synthesized by voice. Synthetic data. The synthesized speech data is recorded until the input text data is selected by the text data selecting means.SpeculatorIf the input text data is selected, the synthesized speech data corresponding to the input text data is synthesized speech data.OutOutput by force means. Note that the case where the input text data does not match the stored text data refers to a case where the input text data is considered not to match unless even part of the punctuation marks match, that is, in the new text data determination means, As long as the input text data between the punctuation marks does not completely match the stored text data, it is regarded as new text data. In addition, the data for speech synthesis used when the speech synthesis unit performs speech synthesis by the reference information generation / output unit.WordsWhen,Of features corresponding to each wordReference information associated with the storage position on the storage medium in the voice synthesis data storage means is generated and output to the synthesized voice data storage means. This reference information is then used,The synthesized speech data output means reads out the feature quantity corresponding to the phrase included in the input text data selected by the text data selection means from the speech synthesis data storage means and generates it using the read feature quantity. Synthesized voice dataOutput to the speaker. The storage position on the storage medium corresponds to, for example, time information attached on the storage medium. The reference information is obtained by associating a word or phoneme of speech synthesis data with a storage position on a storage medium.
[0009]
The speech synthesizer according to claim 2 is the speech synthesizer according to claim 1, further comprising text data receiving means for receiving the text data by at least one of data broadcasting and text broadcasting. And
[0010]
According to such a configuration, text data is input by the text data receiving means by at least one of data broadcasting and text broadcasting. In other words, by providing this text data receiving means, the speech synthesizer can be said to be a data receiver with a speech synthesizer function, and is broadcast by normal data broadcasting and displayed on the receiving display device. Text information such as telop and text data such as text news are converted (synthesized) into synthesized voice data and output.
[0011]
The speech synthesizer according to
[0012]
According to such a configuration, the synthesized voice data is compressed by the synthesized voice data compression means.SpeculatorWhen it is stored in the stage, it is compressed so that the amount of data is reduced. Note that the synthetic audio data compression method in the synthetic audio data compression means may be any compression method other than the MPEG-2 method. The compressed synthesized voice data compressed by the synthesized voice data compressing means corresponds to the text data selecting means.inputWhen text data is selected, it is decompressed by the compressed synthesized speech data decompressing means.
[0013]
The speech synthesis program according to claim 4, in order to synthesize text data, the computer synthesizes text data input means for inputting the text data, text data storage means for storing the text data as stored text data, The text data input for each unit by the text data input means is compared as the input text data with the stored text data. When the input text data does not match the stored text data, the input text data is newly input. New text data discriminating means for discriminating as new text data and storing it in the text data storage means as stored text data; provided for speech synthesis of the new text dataInclude at least word and feature data for each speech synthesis unitVoice synthesis data storage means for storing voice synthesis data, and voice synthesis data synthesized using the voice synthesis data stored in the voice synthesis data storage means to produce synthesized voice data Synthesis means, text data selection means for selecting input text data for each unit input by the text data input means, synthesized speech data storage means for storing synthesized speech data synthesized by the speech synthesis means, and the text data selection Synthesized speech data output means for outputting synthesized speech data corresponding to the input text data selected by the means, speech synthesis data used for speech synthesis by the speech synthesis meansWordsWhen,Of features corresponding to each wordReference information in association with the storage position of the speech synthesis data in the speech synthesis data storage means on the storage medium is generated and output to the synthesized speech data storage means when speech synthesis is performed by the speech synthesis means. Functioning as reference information generation / output means, and the synthesized voice data output means,in frontSelected by the text data selection meansA feature amount corresponding to a phrase included in the input text data is read from the speech synthesis data storage unit using the reference information, and is generated using the read feature amount.The synthesized voice data is output to a speaker.
[0014]
According to this configuration, text data is input by the text data input means. The new text data discriminating means compares the stored text data storing the text data with the newly input text data, and if the input text data does not match the stored text data, the input text data is newly input. The new text data is determined and stored as stored text data in the text data storage means.The speech synthesis data storage means is used when speech synthesis of new text data, and stores speech synthesis data including at least words and feature data for each speech synthesis unit.When the new text data discriminating means discriminates it as new text data, the voice synthesizing means uses the voice synthesizing data stored in the voice synthesizing data storage means, and the new text data is synthesized by voice. Synthetic data. The synthesized speech data is recorded until the input text data is selected by the text data selecting means.SpeculatorIf the input text data is selected, the synthesized speech data corresponding to the input text data is synthesized speech data.OutOutput by force means. Speech synthesis data used for speech synthesis by the speech synthesis means in the reference information generation / output meansWordsWhen,Of features corresponding to each wordReference information associated with the storage position on the storage medium in the voice synthesis data storage means is generated and output to the synthesized voice data storage means. This reference information is then used,The synthesized speech data output means reads out the feature quantity corresponding to the phrase included in the input text data selected by the text data selection means from the speech synthesis data storage means and generates it using the read feature quantity. Synthesized voice dataOutput to the speaker.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
(Configuration of speech synthesizer)
FIG. 1 is a block diagram of a speech synthesizer. As shown in FIG. 1, the speech synthesizer 1 includes a text
[0022]
This speech synthesizer 1 synthesizes text data transmitted by data broadcasting, text broadcasting, etc., or text data (text data input for each unit) input via a keyboard (not shown) or the like. Output. Further, in this speech synthesizer 1, unlike the conventional speech synthesizer (data receiver with a speech synthesizer function), even if text data and additional information are not transmitted from the transmission side, When synthesizing text data using speech synthesis data, the processing speed can be improved by generating reference information (details will be described later), and once synthesized speech data is synthesized. By storing and reusing, high-quality synthesized speech can be output (maintained) without reducing the processing capability of the apparatus 1. The text data input for each unit refers to the input unit input to the device 1 at a time, or a unit that can be grouped together, for example, each phrase unit or each sentence unit. is there.
[0023]
The text
[0024]
The text
[0025]
In this embodiment, the text
[0026]
The new text data discriminating unit 7 stores the text data input from the text
[0027]
In addition, the case where the input text data does not match the stored text data is to divide the input text data by punctuation marks, and if there are any different parts in the sentence between these punctuation marks, it is considered that they do not match. In this case, only the unmatched part is output to the
[0028]
For example, the stored text data is “Today is a good weather, it will be a comfortable day”, and the input text data is “Today is a good weather and the temperature is expected to be 28 degrees C.” The text data is decomposed and stored in the text
[0029]
The text
[0030]
The
[0031]
The
[0032]
The reference information is, for example, “Yonekura_noun_file 2” for the word “Yonekura”.3_30 ms to 70 ms_XXX ”,“ noun ”is a kind of information related to the part of speech or the like of a word or phoneme, and“ file 23"Indicates the number of a sentence containing the noun" Yonekura "in the
[0033]
In the
[0034]
The
[0035]
The synthesized speech data storage output unit 15 corresponds to a so-called data buffer, stores the synthesized speech data synthesized by the
[0036]
The synthesized voice data output means 15a is responsible for storage and output control of synthesized voice data and reference information. The synthesized voice data synthesized by the
[0037]
The synthesized speech
The synthesized voice data storage / output unit 15 includes synthesized voice data compression means and compressed synthesized voice data decompression means (not shown).
[0038]
When the synthesized voice data compression means (not shown) stores the synthesized voice data synthesized by the
[0039]
By these synthesized voice data compression means (not shown) and compressed synthesized voice data decompression means (not shown), the storage capacity of the synthesized voice data storage means 15b can be suppressed to a small amount.
[0040]
The text
[0041]
According to the speech synthesizer 1, text data is input by the text
[0042]
The text
[0043]
That is, text data by normal data broadcasting, text broadcasting, or the like is less likely to be frequently replaced while the user (viewer) is using the speech synthesizer (data receiver with speech synthesis function) 1. . Therefore, as soon as new text data that has not been synthesized by the
[0044]
(Operation of speech synthesizer)
Next, the operation of the speech synthesizer 1 will be described with reference to the flowchart shown in FIG.
First, when the speech synthesizer 1 is activated, it is determined whether or not text data has been input by at least one of the text
[0045]
Then, the stored text data stored in the text
[0046]
Then, the
[0047]
Thereafter, it is determined whether or not there is an output request (control signal) of speech (synthesized speech data) from the remote controller 21 (from the user of the speech synthesizer 1) in the text data selection unit 17 (S6). It is waited until it is determined that there is an output request (control signal) of the sound (synthesized sound data) from the remote controller 21 (S6, No), and an output request (control signal) of the sound (synthesized sound data) from the
[0048]
(Specific examples of speech synthesis of text data by data broadcasting)
A specific example in which the text
[0049]
Assuming that "news", "weather information", "sports", "yen and stock", "road traffic information", "welfare", and "recommended information" have been transmitted from the broadcasting station on the sender side, “News”, “weather information”, “sports”, “yen and stock”, “road traffic information”, “welfare”, “recommended information” are stored in the text
[0050]
If the user of the speech synthesizer 1 selects “yen and stock” with the
[0051]
As mentioned above, although this invention was demonstrated based on one Embodiment, this invention is not limited to this.
For example, it is possible to regard the processing of each component of the speech synthesizer 1 as a speech synthesis method that considers each process as one step, or to regard the processing of each component as a speech synthesis program described in a general-purpose computer language. . In these cases, the same effect as the speech synthesizer 1 can be obtained.
[0052]
【The invention's effect】
Claim 1,4According to the described invention, text data is input, and if this text data is newly input, it is synthesized and stored as synthesized speech data. When text data is selected, synthesized speech data corresponding to the text data is output. Since only new text data is synthesized with speech, there is no need to maintain the same database for speech synthesis between the sender that sent the text data and the receiver that received the text data, without reducing the speech synthesis processing capability. High-quality synthesized speech data can be generated.In addition, since reference information in which the voice synthesis data used for voice synthesis and the storage position on the storage medium in which the voice synthesis data is stored is associated is generated, based on this reference information, Synthetic speech data can be generated, the storage capacity of the storage medium for storing the synthetic speech data can be reduced to a small amount, and the processing for speech synthesis can be reduced.
[0053]
Claim2According to the described invention, text data by at least one of data broadcasting and text broadcasting is input. That is, it is broadcast by normal data broadcasting, and text information such as telop displayed on the display device on the receiving side and text data such as text news can be output as synthesized voice data.
[0054]
ClaimTo 3According to the described invention, when the synthesized voice data is stored, the compressed voice data is compressed so as to reduce the amount of data, and the compressed compressed voice data is decompressed when read out, so that the synthesized voice data is stored. The storage capacity of the storage medium to be kept can be reduced to a small amount.
[0055]
According to the fifth aspect of the present invention, the reference information in which the speech synthesis data used for speech synthesis is associated with the storage position on the storage medium in which the speech synthesis data is stored is generated. Based on this reference information, data for speech synthesis can be generated, the storage capacity of the storage medium for storing the synthesized speech data can be reduced to a small amount, and the processing at the time of speech synthesis is reduced. be able to.
[Brief description of the drawings]
FIG. 1 is a block diagram of a speech synthesizer according to an embodiment of the present invention.
FIG. 2 is a flowchart for explaining the operation of the speech synthesizer shown in FIG. 1;
[Explanation of symbols]
1 Speech synthesizer
3 Text data input section
5 Text data receiver
7 New text data discriminator
9 Text data storage
11 Speech synthesis unit
13 Database for speech synthesis
15 Synthetic voice data storage / output unit
15a Synthetic voice data output means
15b Synthetic voice data storage means
17 Text data selection part
19 Speaker
21 Remote control
Claims (4)
前記テキストデータを入力するテキストデータ入力手段と、
前記テキストデータを記憶テキストデータとして記憶するテキストデータ記憶手段と、
前記テキストデータ入力手段で単位毎に入力されたテキストデータを入力テキストデータとして、前記記憶テキストデータと比較し、前記入力テキストデータが前記記憶テキストデータと一致しない場合に、前記入力テキストデータを新たに入力された新規テキストデータとして判別し、記憶テキストデータとして前記テキストデータ記憶手段に記憶する新規テキストデータ判別手段と、
前記新規テキストデータを音声合成する際に供され、音声合成単位ごとに語句と特徴量のデータが少なくとも含まれる音声合成用データを記憶する音声合成用データ記憶手段と、
この音声合成用データ記憶手段に記憶された音声合成用データを使用して、前記新規テキストデータを音声合成し、合成音声データとする音声合成手段と、
前記テキストデータ入力手段で入力された単位毎の入力テキストデータを選択するテキストデータ選択手段と、
前記音声合成手段で音声合成した合成音声データを記憶する合成音声データ記憶手段と、
前記テキストデータ選択手段で選択された入力テキストデータに対応する合成音声データを出力する合成音声データ出力手段と、
前記音声合成手段で音声合成する際に使用した音声合成用データの語句と、それぞれの語句に対応する特徴量の前記音声合成用データ記憶手段における当該音声合成用データの記憶媒体上の記憶位置とを関連付けた参照情報を生成し、前記音声合成手段で音声合成する際に、前記合成音声データ記憶手段に出力する参照情報生成出力手段と、を備え、
前記合成音声データ出力手段が、前記テキストデータ選択手段で選択された入力テキストデータに含まれる語句に対応する特徴量を、前記参照情報を使用して前記音声合成用データ記憶手段から読み出して、この読み出された特徴量を用いて生成された合成音声データをスピーカに出力することを特徴とする音声合成装置。A speech synthesizer for speech synthesis of text data,
Text data input means for inputting the text data;
Text data storage means for storing the text data as stored text data;
The text data input for each unit by the text data input means is compared with the stored text data as input text data. When the input text data does not match the stored text data, the input text data is newly New text data determining means for determining as input new text data and storing the stored text data in the text data storing means,
The subjected the new text data in speech synthesis, and speech synthesis data storage means for data words and the feature amount storing data for speech synthesis that is part of at least every speech synthesis unit,
Using the voice synthesis data stored in the voice synthesis data storage means, voice synthesis means for synthesizing the new text data into synthesized voice data; and
Text data selection means for selecting input text data for each unit input by the text data input means;
Synthesized voice data storage means for storing synthesized voice data synthesized by the voice synthesis means;
Synthesized speech data output means for outputting synthesized speech data corresponding to the input text data selected by the text data selection means;
The words and phrases of the speech synthesis data used when speech synthesis is performed by the speech synthesis means, and the storage locations of the speech synthesis data in the speech synthesis data storage means of the feature values corresponding to the respective phrases on the storage medium A reference information generating / outputting unit that outputs the reference information to the synthesized voice data storage unit when the voice synthesizing unit synthesizes the reference information.
The synthesized speech data output means, a feature amount corresponding to words contained before Symbol input text data selected by the text data selection means, reads from the speech synthesis data storage means using said reference information, A speech synthesizer characterized by outputting synthesized speech data generated using the read feature amount to a speaker.
前記テキストデータ選択手段で選択された入力テキストデータが前記圧縮合成音声データに対応する際に、当該圧縮合成音声データを解凍する圧縮合成音声データ解凍手段とを備えたことを特徴とする請求項1または請求項2に記載の音声合成装置。In storing the synthesized speech data in the synthesized speech data SL 憶手 stage, the synthesized speech data compression unit to compress the synthetic speech data obtained by compressing the data amount of the synthesized speech data,
Claim the input text data is selected by said text data selection means in corresponding to the compressed synthesized speech data, characterized by comprising a compressed synthesized speech data decompression means for decompressing the compressed synthesized speech data The speech synthesizer according to claim 1 or 2.
前記テキストデータを入力するテキストデータ入力手段、
前記テキストデータを記憶テキストデータとして記憶するテキストデータ記憶手段、
前記テキストデータ入力手段で単位毎に入力されたテキストデータを入力テキストデータとして、前記記憶テキストデータと比較し、前記入力テキストデータが前記記憶テキストデータと一致しない場合に、前記入力テキストデータを新たに入力された新規テキストデータとして判別し、記憶テキストデータとして前記テキストデータ記憶手段に記憶する新規テキストデータ判別手段、
前記新規テキストデータを音声合成する際に供され、音声合成単位ごとに語句と特徴量のデータが少なくとも含まれる音声合成用データを記憶する音声合成用データ記憶手段、
この音声合成用データ記憶手段に記憶された音声合成用データを使用して、前記新規テキストデータを音声合成し、合成音声データとする音声合成手段、
前記テキストデータ入力手段で入力された単位毎の入力テキストデータを選択するテキストデータ選択手段、
前記音声合成手段で音声合成した合成音声データを記憶する合成音声データ記憶手段、
前記テキストデータ選択手段で選択された入力テキストデータに対応する合成音声データを出力する合成音声データ出力手段、
前記音声合成手段で音声合成する際に使用した音声合成用データの語句と、それぞれの語句に対応する特徴量の前記音声合成用データ記憶手段における当該音声合成用データの記憶媒体上の記憶位置とを関連付けた参照情報を生成し、前記音声合成手段で音声合成する際に、前記合成音声データ記憶手段に出力する参照情報生成出力手段、として機能させ、
前記合成音声データ出力手段が、前記テキストデータ選択手段で選択された入力テキストデータに含まれる語句に対応する特徴量を、前記参照情報を使用して前記音声合成用データ記憶手段から読み出して、この読み出された特徴量を用いて生成された合成音声データをスピーカに出力することを特徴とする音声合成プログラム。In order to synthesize text data,
Text data input means for inputting the text data;
Text data storage means for storing the text data as stored text data;
The text data input for each unit by the text data input means is compared with the stored text data as input text data. When the input text data does not match the stored text data, the input text data is newly New text data discrimination means for discriminating as input new text data and storing it as stored text data in the text data storage means,
The new text data is subjected during the speech synthesizing speech synthesis data storage means for data words and the feature amount storing data for speech synthesis that is part of at least every speech synthesis unit,
Using the voice synthesis data stored in the voice synthesis data storage unit, the new text data is voice-synthesized into synthesized voice data;
Text data selection means for selecting input text data for each unit input by the text data input means;
Synthesized voice data storage means for storing synthesized voice data synthesized by the voice synthesis means;
Synthesized voice data output means for outputting synthesized voice data corresponding to the input text data selected by the text data selection means;
The words and phrases of the speech synthesis data used when speech synthesis is performed by the speech synthesis means, and the storage locations of the speech synthesis data in the speech synthesis data storage means of the feature values corresponding to the respective phrases on the storage medium Is generated as reference information generation and output means for outputting to the synthesized voice data storage means when voice synthesis is performed by the voice synthesis means.
The synthesized speech data output means, a feature amount corresponding to words contained before Symbol input text data selected by the text data selection means, reads from the speech synthesis data storage means using said reference information, A speech synthesis program characterized by outputting synthesized speech data generated using the read feature amount to a speaker.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002280430A JP4039620B2 (en) | 2002-09-26 | 2002-09-26 | Speech synthesis apparatus and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002280430A JP4039620B2 (en) | 2002-09-26 | 2002-09-26 | Speech synthesis apparatus and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004117778A JP2004117778A (en) | 2004-04-15 |
JP4039620B2 true JP4039620B2 (en) | 2008-01-30 |
Family
ID=32275139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002280430A Expired - Fee Related JP4039620B2 (en) | 2002-09-26 | 2002-09-26 | Speech synthesis apparatus and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4039620B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204487A (en) * | 2009-03-04 | 2010-09-16 | Toyota Motor Corp | Robot, interaction apparatus and operation method of interaction apparatus |
JP6117040B2 (en) * | 2013-07-19 | 2017-04-19 | 株式会社東芝 | Speech synthesis system and speech conversion support device |
JP6246626B2 (en) * | 2014-03-12 | 2017-12-13 | 株式会社東芝 | Speech synthesis system, speech conversion support device, and speech conversion support method |
-
2002
- 2002-09-26 JP JP2002280430A patent/JP4039620B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004117778A (en) | 2004-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3037947B2 (en) | Wireless system, information signal transmission system, user terminal and client / server system | |
US6119086A (en) | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens | |
US7027568B1 (en) | Personal message service with enhanced text to speech synthesis | |
JP3844431B2 (en) | Caption system based on speech recognition | |
US7418393B2 (en) | Data reproduction device, method thereof and storage medium | |
JP4869268B2 (en) | Acoustic model learning apparatus and program | |
US20060224385A1 (en) | Text-to-speech conversion in electronic device field | |
US7768578B2 (en) | Apparatus and method of receiving digital multimedia broadcasting | |
JP4039620B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP6599368B2 (en) | Signal classification method and apparatus, and audio encoding method and apparatus using the same | |
JPH11282857A (en) | Voice retrieving device and recording medium | |
JP4536621B2 (en) | Decoding device and decoding method | |
US20050131562A1 (en) | Apparatus and method for reproducing three dimensional stereo sound for communication terminal | |
JP2005512134A (en) | Digital audio with parameters for real-time time scaling | |
US20010043750A1 (en) | Embedded coding unit and embedded coding method, decoding unit and decoding method, and storage medium | |
JP3803302B2 (en) | Video summarization device | |
KR101877430B1 (en) | Image processing apparatus and control method thereof, image processing system | |
JPH0561637A (en) | Voice synthesizing mail system | |
JP3073293B2 (en) | Audio information output system | |
CN111046839A (en) | Video segmentation method and device | |
JP2000112488A (en) | Voice converting device | |
JP2006317548A (en) | Educational content generating device | |
JP3825589B2 (en) | Multimedia terminal equipment | |
KR100304137B1 (en) | Sound compression/decompression method and system | |
JP2000358202A (en) | Video audio recording and reproducing device and method for generating and recording sub audio data for the device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071102 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121116 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131116 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |