JP2004037605A - Method, apparatus, and program for deleting data for speech synthesis - Google Patents
Method, apparatus, and program for deleting data for speech synthesis Download PDFInfo
- Publication number
- JP2004037605A JP2004037605A JP2002191819A JP2002191819A JP2004037605A JP 2004037605 A JP2004037605 A JP 2004037605A JP 2002191819 A JP2002191819 A JP 2002191819A JP 2002191819 A JP2002191819 A JP 2002191819A JP 2004037605 A JP2004037605 A JP 2004037605A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- data
- synthesis
- speech synthesis
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声合成に使用される音声合成用データの削減に関する。
【0002】
【従来の技術】
従来、音声合成の方法(装置)には、例えば、次に示すものがある。
(1)音声合成方法(特開平2−47700号公報)
この公報で公開されている音声合成装置には、単位音声(音素または単語)の発話時間が記録された音声データからなる音声データベースが備えられており、この音声合成装置は、当該装置に入力された文章を単位音声に分解した後、分解した単位音声毎に音声データベースの探索を実行し、得られた音声合成用データに対し、音韻および音律の補正を実行して音声合成を行うものである。
【0003】
(2)自然発話音声波形信号接続型音声合成装置(特開平10−49193号公報)
この公報で公開されている音声合成装置には、音素の発話時間が記録された音声データベースが備えられており、この音声合成装置は、当該装置に入力された文章を音素列に分解した後、分解した音素列の音素単位で音声データベースの探索を実行し音声合成を行うものである。
【0004】
【発明が解決しようとする課題】
しかしながら、従来の音声合成装置では、どのような単位音声(音素または単語)を保持している音声データベースなのかが明示されていなかった。また、いずれの音声合成装置も音声データベースのデータ量が多くなると、音声合成の候補となる音声合成用データ数が増大し、探索時間が膨大となり、処理速度が低下してしまうという問題がある。
【0005】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、音声データベースが保持している単位音声を明確にすると共に、音声合成する際の処理速度を向上させるために音声データベースを小容量に保持することができる音声合成用データ削減方法、音声合成用データ削減装置および音声合成用データ削減プログラムを提供することにある。
【0006】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項1記載の音声合成用データ削減方法は、音声合成を行う際に使用される、音素および単語の発話時間が記録された音声データベース中における使用頻度の低い、音素および単語からなる音声合成用データを削減する音声合成用データ削減方法であって、音声合成を行う際に使用した音声合成用データの使用頻度を記録する使用頻度記録ステップと、予め設定した使用頻度閾値よりも使用頻度が低い音声合成用データを削減する音声合成用データ削減ステップと、を含むことを特徴とする。
【0007】
この方法によれば、使用頻度記録ステップにおいて、音声合成装置等で音声合成が行われる度に、当該装置等に内在している音声データベース中の音声合成用データの使用頻度が記録される。そして、音声合成用データ削減ステップにおいて、予め設定した使用頻度閾値よりも使用頻度の低い音声合成用データが削減される。なお、合成音声用データは、音素および単語からなるもので、音声合成する際の最小単位である。また、予め設定した使用頻度閾値は、任意に設定可能な数値であり、例えば、この使用頻度閾値を音声合成装置の使用回数に基づいて想定すると、「使用回数50回 使用頻度閾値1」、つまり、50回音声合成を実行しても一度も使用しない音声合成用データを削減の対象に設定することができる。また、この音声合成用データ削減方法は、音声合成装置における音声合成する方法を問わず、当該装置等に少なくとも音声データベースが存在していれば適用可能なものである。
【0008】
請求項2記載の音声合成用データ削減方法は、請求項1に記載の音声合成用データ削減方法において、前記音声データベースが、当該音声データベース中に含まれる音声合成用データからなる文章の集合として構成されており、前記使用頻度記録ステップにおいて、前記音声データベース中の文章をそれ以外の全ての文章に含まれる音声合成用データに基づいて音声合成を実行した際に、使用した音声合成用データの使用頻度を記録することを特徴とする。
【0009】
この方法によれば、音声データベースには音声合成用データからなる複数の文章が記憶されており、これらの文章それぞれについて、使用頻度記録ステップにて、音声データベース中に記憶されているそれ以外の文章に含まれる音声合成用データを使用して音声合成した場合の音声合成用データの使用頻度が記録され、音声合成用データ削減ステップにて、予め設定した使用頻度閾値より使用頻度が低い音声合成用データが削減される。
【0010】
請求項3記載の音声合成用データ削減装置は、音声合成を行う際に使用される、音素および単語の発話時間が記録された音声データベース中における使用頻度の低い、音素および単語からなる音声合成用データを削減する音声合成用データ削減装置であって、音声合成を行う際に使用した音声合成用データの使用頻度を記録する使用頻度記録手段と、予め設定した使用頻度閾値よりも使用頻度が低い音声合成用データを削減する音声合成用データ削減手段と、を備えることを特徴とする。
【0011】
かかる構成によれば、使用頻度記録手段で、音声合成装置等で音声合成が行われる度に、当該装置等に内在している音声データベース中の音声合成用データの使用頻度が記録される。そして、音声合成用データ削減手段で、予め設定した使用頻度閾値よりも使用頻度の低い音声合成用データが削減される。
【0012】
請求項4記載の音声合成用データ削減装置は、請求項3に記載の音声合成用データ削減装置において、前記音声データベースが、当該音声データベース中に含まれる音声合成用データからなる文章の集合として構成されており、前記使用頻度記録手段で、前記音声データベース中の文章をそれ以外の全ての文章に含まれる音声合成用データに基づいて音声合成を実行した際に、使用した音声合成用データの使用頻度を記録することを特徴とする。
【0013】
かかる構成によれば、音声データベースには音声合成用データからなる複数の文章が記憶されており、これらの文章それぞれについて、使用頻度記録手段で、音声データベース中に記憶されているそれ以外の文章に含まれる音声合成用データを使用して音声合成した場合の音声合成用データの使用頻度が記録され、音声合成用データ削減手段で、予め設定した使用頻度閾値より使用頻度が低い音声合成用データが削減される。
【0014】
請求項5記載の音声合成用データ削減プログラムは、音声合成を行う際に使用される、音素および単語の発話時間が記録された音声データベース中における使用頻度の低い、音素および単語からなる音声合成用データを削減する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、音声合成を行う際に使用した音声合成用データの使用頻度を記録する使用頻度記録手段、予め設定した使用頻度閾値よりも使用頻度が低い音声合成用データを削減する音声合成用データ削減手段、である。
【0015】
かかる構成によれば、使用頻度記録手段で、音声合成装置等で音声合成が行われる度に、当該装置等に内在している音声データベース中の音声合成用データの使用頻度が記録される。そして、音声合成用データ削減手段で、予め設定した使用頻度閾値よりも使用頻度の低い音声合成用データが削減される。
【0016】
請求項6記載の音声合成用データ削減プログラムは、請求項5に記載の音声合成用データ削減プログラムにおいて、前記音声データベースが、当該音声データベース中に含まれる音声合成用データからなる文章の集合として構成されており、前記使用頻度記録手段で、前記音声データベース中の文章をそれ以外の全ての文章に含まれる音声合成用データに基づいて音声合成を実行した際に、使用した音声合成用データの使用頻度を記録することを特徴とする。
【0017】
かかる構成によれば、音声データベースには音声合成用データからなる複数の文章が記憶されており、これらの文章それぞれについて、使用頻度記録手段で、音声データベース中に記憶されているそれ以外の文章に含まれる音声合成用データを使用して音声合成した場合の音声合成用データの使用頻度が記録され、音声合成用データ削減手段で、予め設定した使用頻度閾値より使用頻度が低い音声合成用データが削減される。
【0018】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
(音声合成用データ削減装置の構成)
図1は、音声合成用データ削減システムのブロック図である。この図1に示すように、音声合成用データ削減システムは、音声合成用データ削減装置1と音声合成装置2とからなり、音声合成用データ削減装置1は、入出力部3と、合成用データ使用頻度記録部5と、合成用データ削減部7と、記録部9とを備えている。
【0019】
音声合成装置2は、音声データベース4を備えており、入力されたテキストデータから音声データ列(音声合成結果)を出力するものである。この音声合成装置2の音声データベース4で保持されている単位音声(音声合成用データ)は、「単語」を基盤としており、この実施の形態では、複数の単語からなる「文章」がデータベースの構成単位となっている。そして、各文章には「文番号」が付されており、各単語の発話時間が記憶されている。なお、当該音声合成装置2の他の構成について、例えば、音声合成の仕方については、本発明と直接関係がないので、図示及び説明を省略する。
【0020】
音声合成用データ削減装置1は、音声合成装置2において音声合成される度に利用される音声データベース4のデータ量、すなわち、音声合成用データ(単語)を削減するためのもので、この音声合成用データ削減装置1によって音声データベース4のデータ量を減少させることで、音声合成する際の音声合成候補(単語の候補)の探索時間を大幅に短縮させることができるものである。
【0021】
入出力部3は、音声合成装置2と情報(後記する合成用データ使用頻度情報、合成用データ削減情報)を送受信するためのものである。なお、この入出力部3は、インターネット等の通信回線網(図示を省略)を介して情報の送受信が行えるように構成されている。
【0022】
合成用データ使用頻度記録部5は、音声合成装置2の音声データベース4で音声合成する度に使用された単位音声(音声合成用データ)の使用頻度に関する情報である合成用データ使用頻度情報を記録部9に記録するものである。つまり、この合成用データ使用頻度記録部5は、音声合成装置2で音声合成された場合に、合成用データ使用頻度情報を音声合成装置2から取得するものであるといえる。
【0023】
この合成用データ使用頻度記録部5では、例えば、音声合成装置2において音声データベース削減用のテストセット(頻繁に音声合成されるテキストデータ)を用意しておき、このテストセットの文章(テキストデータ)が入力された際の音声合成した結果(合成用データ使用頻度情報)が記録される。この実施の形態では、音声合成装置2の音声データベース4の構成単位が文章であるので、この合成用データ使用頻度情報は、どの文章のどの単語が使用されたかが記録されている。
【0024】
また、この合成用データ使用頻度記録部5は、音声合成装置2の音声データベース4中の音声合成用データが文章単位で記録されている場合には、一つの文章をその文章以外の他の文章で音声合成した場合の音声合成用データの使用頻度に関する情報である合成用データ使用頻度情報が記録部9に記録される。この合成用データ使用頻度記録部5が請求項に記載した音声合成用データ使用頻度記録手段に相当するものである。
【0025】
合成用データ削減部7は、合成用データ使用頻度記録部5で記録部9に記録された合成用データ使用頻度情報を使用頻度閾値(合計使用頻度閾値)と比較して、この使用頻度閾値(合計使用頻度閾値)よりも小さい場合に、この合成用データ使用頻度情報に含まれている音声合成用データを削減するための情報である合成用データ削減情報を、入出力部3を介して音声合成装置2に出力するものである。この合成用データ削減情報を受信した音声合成装置2では、音声データベース4中の該当する音声合成用データが削減される。この合成用データ削減部7が請求項に記載した音声合成用データ削減手段に相当するものである。
【0026】
なお、使用頻度閾値は、予め任意に設定可能な数値であり、例えば、この使用頻度閾値を音声合成装置の使用回数に基づいて想定すると、「使用回数50 使用頻度閾値1」、つまり、50回音声合成を実行しても一度も使用しない音声合成用データを削減の対象に設定することができる。
【0027】
また、合計使用頻度閾値は、音声合成装置2の音声データベース4中の合成用データが文章単位で記録されている場合に、一つの文章をその文章以外の他の文章に含まれる音声合成用データで音声合成した場合の音声合成用データの使用頻度に関する情報である合成用データ使用頻度情報と比較するためのものである。
【0028】
記録部9は、一般的なハードディスク等によって構成されており、合成用データ使用頻度情報と、使用頻度閾値(合計使用頻度閾値)とを記録するものである。なお、合成用データ使用頻度情報は、この記録部9において、各音声合成用データに設定されているデータ使用頻度に数値を加算していく形式(1回使用されれば+1)で更新される。
【0029】
この音声合成用データ削減装置1によれば、合成用データ使用頻度記録部5で、音声合成装置2で音声合成が行われる度に、当該装置2に内在している音声データベース4中の音声合成用データの使用頻度が記録される。そして、合成用データ削減部7で、予め設定した使用頻度閾値よりも使用頻度の低い音声合成用データが削減される。このため、音声合成装置2の音声データベース4で保持されている単位音声(音声合成用データ)が単語である場合に、音声合成する際に利用される音声データベース4中で、使用頻度の低い音声合成用データ(単語)を適宜削除することで、音声データベース4をコンパクトに(小容量に)維持することができ、音声合成装置2で音声合成する際の処理速度を向上させることができる。
【0030】
音声合成装置2の音声データベース4には音声合成用データ(単語)からなる複数の文章が記憶されており、これらの文章それぞれについて、合成用データ使用頻度記録部5で、音声データベース4中に記憶されているそれ以外の文章を使用して音声合成した場合の音声合成用データの使用頻度が記録され、合成用データ削減部7で、予め設定した合計使用頻度閾値より使用頻度が低い音声合成用データが削減される。このため、音声データベース4の一つの文章中の音声合成用データ(単語)が他の文章を使用して音声合成することで使用頻度が記録され、使用頻度が低い場合には削除されるので、自動的に(自己学習的に)音声データベース4のデータ量を小容量に維持することができ、音声合成装置2で音声合成する際の処理速度を向上させることができる。
【0031】
(音声合成用データ削減装置の動作)
次に、図2に示すフローチャートを参照して音声合成用データ削減装置1の動作を説明する(適宜図1参照)。
まず、入出力部3で合成用データ使用頻度情報が入力される(S1)。この音声合成用データ削減装置1の動作の説明では、一定期間、音声合成装置2において音声合成が実行されて、音声合成装置2で保持され合成用データ使用頻度情報が定期的に音声合成用データ削減装置1に入力されるものとしている。そして、入出力部3から合成用データ使用頻度記録部5に合成用データ使用頻度情報が出力されると、合成用データ使用頻度記録部5で、合成用データ使用頻度情報が記録部9に記録される(S2)。
【0032】
そして、合成用データ削減部7で、合成用データ使用頻度情報と使用頻度閾値とが比較され、合成用データ使用頻度情報(図2中、使用頻度)が使用頻度閾値未満であるかどうかが判断される(S3)。合成用データ使用頻度情報が使用頻度閾値未満であると判断された場合(S3、Yes)には、入出力部3に合成用データ削減情報が出力され、入出力部3から音声合成装置2に出力される(S4)。その後、音声合成用データ削減装置1の動作が終了される。合成用データ使用頻度情報が使用頻度閾値未満であると判断されない場合(S3、No)は、そのまま音声合成用データ削減装置1の動作が終了される。
【0033】
(音声合成用データ削減装置の具体的な音声合成用データ削減例)
次に、具体的に、音声合成用データ削減システムで、音声合成用データの削減を実行(運用)した場合について説明する。
実際の運用例では、音声合成装置2に、テキストデータの文章として「音声データベース削減用テストセット」を入力し、音声合成を行う。この「音声データベース削減用テストセット」は、報道番組等で頻繁に音声合成されるテキストデータの中から無作為抽出した数十種類の文章(テキストデータ)である。つまり、この「音声データベース削減用テストセット」が入力された際に使用される音声データベース4中の音声合成用データ(単語)は、通常の日本語を音声合成する際にも、頻繁に使用される可能性が高いものである。
【0034】
まず、音声合成装置2で「音声データベース削減用テストセット」が入力されると、音声合成が実行され、音声合成用データ削減装置1の合成用データ使用頻度記録部5で、音声合成装置2の音声データベース4中のどの文章のどの単語が使用されたかが、合成用データ使用頻度情報によって得られ、記録部9に記録される。
【0035】
例えば、「音声データベース削減用テストセット」として、「〈文頭〉次のニュースです〈文末〉」が入力されたときに、
「〈文頭〉次の」・・・文番号50の0ms〜1000ms
「ニュース」・・・文番号8の2125ms〜2840ms
「です〈文末〉」・・・文番号32の1500ms〜2000ms
が使用されたとする(合成用データ使用頻度情報に含まれたデータとする)。
【0036】
この時に、合成用データ使用頻度記録部5では、“文番号50の「〈文頭〉」、「次」”、“文番号8の「ニュース」”、“文番号32の「です〈文末〉」”のデータ使用頻度(記録部9)にそれぞれ1をプラスする。以降、次のテストセット(文章)が入力される毎に、合成用データ使用頻度記録部5では、使用された単語のデータ使用頻度に+1していく。全てのテストセットが終了したらデータ使用頻度が低いもの、すなわち、使用頻度閾値に満たないものが合成用データ削減部7によって削減される。
【0037】
この具体的な例によれば、「音声データベース削減用テストセット」によって生成される合成用データ使用頻度情報に基づいて、音声合成用データ削減装置1で音声合成用データが削減された音声データベース4は、音声データベースのバリエーション、すなわち、合成される日本語のバリエーションの幅が狭まるが、データ量がコンパクト(小容量)に抑えられると共に、音声合成する際の処理速度を向上させることができる。
【0038】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音声合成用データ削減装置1の各構成の処理を一つずつの工程と捉えた音声合成用データ削減方法とみなすことや、各構成の処理を汎用的なコンピュータ言語で記述した音声合成用データ削減プログラムとみなすことができる。これらの場合、音声合成用データ削減装置1と同様の効果を得ることができる。
【0039】
【発明の効果】
請求項1、3、5記載の発明によれば、音声合成装置等で音声合成が行われる度に、当該装置等に内在している音声データベース中の音声合成用データの使用頻度が記録され、予め設定した使用頻度閾値よりも使用頻度の低い音声合成用データが削減される。このため、音声合成装置等の音声データベースで保持されている単位音声が単語である場合に、音声合成する際に利用される音声データベース中で、使用頻度の低い音声合成用データを適宜削除することで、音声データベースを小容量に維持することができ、音声合成装置で音声合成する際の処理速度を向上させることができる。
【0040】
請求項2、4、6記載の発明によれば、音声データベースには音声合成用データ(単語)からなる複数の文章が記憶されている場合、これらの文章それぞれについて、音声データベース中に記憶されているそれ以外の文章を使用して音声合成した場合の音声合成用データの使用頻度が記録され、予め設定した合計使用頻度閾値より使用頻度が低い音声合成用データが削減される。このため、音声データベースの一つの文章中の音声合成用データが他の文章を使用して音声合成することで使用頻度が記録され、使用頻度が低い場合には削除されるので、自動的に(自己学習的に)音声データベースのデータ量を小容量に維持することができ、音声合成装置で音声合成する際の処理速度を向上させることができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態である音声合成用データ削減システムを図示したブロック図である。
【図2】図1に示した音声合成用データ削減装置の動作を説明したフローチャートである。
【符号の説明】
1 音声合成用データ削減装置
2 音声合成装置
3 入出力部
4 音声データベース
5 合成用データ使用頻度記録部
7 合成用データ削減部
9 記録部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to reduction of data for speech synthesis used for speech synthesis.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, there are the following methods (devices) for speech synthesis, for example.
(1) Speech synthesis method (JP-A-2-47700)
The speech synthesizer disclosed in this publication is provided with a speech database comprising speech data in which the speech times of unit speech (phonemes or words) are recorded, and the speech synthesizer is input to the speech synthesizer. After decomposing the sentence into unit voices, a search of a voice database is performed for each of the decomposed unit voices, and phonetic synthesis and tone correction are performed on the obtained voice synthesis data to perform voice synthesis. .
[0003]
(2) Spontaneous speech waveform signal connection type speech synthesizer (JP-A-10-49193)
The speech synthesizer disclosed in this publication is provided with a speech database in which speech times of phonemes are recorded, and the speech synthesizer decomposes a sentence input into the device into a phoneme sequence, The speech database is searched for each phoneme of the decomposed phoneme sequence to perform speech synthesis.
[0004]
[Problems to be solved by the invention]
However, the conventional speech synthesizer does not specify what unit speech (phoneme or word) the speech database holds. In addition, in any of the speech synthesizers, when the data amount of the speech database is large, the number of speech synthesis data that is candidates for speech synthesis increases, the search time becomes enormous, and the processing speed decreases.
[0005]
Therefore, an object of the present invention is to solve the above-mentioned problems of the conventional technology, to clarify the unit speech held by the speech database, and to reduce the speech database in order to improve the processing speed in speech synthesis. It is an object of the present invention to provide a voice synthesis data reduction method, a voice synthesis data reduction device, and a voice synthesis data reduction program that can be held in a capacity.
[0006]
[Means for Solving the Problems]
The present invention has the following configuration to achieve the above object.
The method for reducing data for speech synthesis according to
[0007]
According to this method, in the use frequency recording step, each time the speech synthesis is performed by the speech synthesis device or the like, the usage frequency of the speech synthesis data in the speech database inherent in the device or the like is recorded. Then, in the voice synthesizing data reduction step, voice synthesizing data whose use frequency is lower than a preset use frequency threshold is reduced. The synthesized speech data is composed of phonemes and words, and is the minimum unit for speech synthesis. The preset use frequency threshold is a numerical value that can be set arbitrarily. For example, assuming this use frequency threshold based on the number of times the speech synthesizer has been used, "use count 50 times
[0008]
According to a second aspect of the present invention, in the method for reducing data for speech synthesis according to the first aspect, the speech database is configured as a set of sentences composed of the data for speech synthesis included in the speech database. In the use frequency recording step, when a sentence in the speech database is subjected to speech synthesis based on speech synthesis data included in all other sentences, use of the used speech synthesis data The frequency is recorded.
[0009]
According to this method, a plurality of sentences composed of speech synthesis data are stored in the speech database, and for each of these sentences, in the use frequency recording step, other sentences stored in the speech database are stored. The usage frequency of the voice synthesis data when voice synthesis is performed using the voice synthesis data included in the voice synthesis data is recorded. In the voice synthesis data reduction step, the voice synthesis use frequency lower than a predetermined usage frequency threshold is used. Data is reduced.
[0010]
A speech synthesis data reduction device according to claim 3, which is used for speech synthesis, is used for speech synthesis of phonemes and words that are used infrequently in a speech database in which speech times of phonemes and words are recorded. A data reduction device for voice synthesis for reducing data, wherein a usage frequency recording means for recording the frequency of use of voice synthesis data used when performing voice synthesis, and a usage frequency lower than a preset usage frequency threshold And voice synthesis data reduction means for reducing voice synthesis data.
[0011]
According to this configuration, the use frequency recording unit records the use frequency of the data for voice synthesis in the voice database included in the voice synthesizer or the like each time the voice synthesis is performed by the voice synthesizer or the like. Then, the voice synthesizing data reducing unit reduces voice synthesizing data whose use frequency is lower than the preset use frequency threshold.
[0012]
According to a fourth aspect of the present invention, in the data reduction apparatus for speech synthesis according to the third aspect, the speech database is configured as a set of sentences composed of speech synthesis data included in the speech database. When the use frequency recording unit executes speech synthesis based on the speech synthesis data included in all the other sentences in the sentences in the speech database, the use of the speech synthesis data used is The frequency is recorded.
[0013]
According to such a configuration, a plurality of sentences composed of speech synthesis data are stored in the speech database, and each of these sentences is stored in the other sentences stored in the speech database by the use frequency recording unit. The frequency of use of the voice synthesis data when voice synthesis is performed using the included voice synthesis data is recorded, and the voice synthesis data reduction unit detects voice synthesis data having a frequency of use lower than a preset use frequency threshold. Be reduced.
[0014]
A speech synthesis data reduction program according to
[0015]
According to this configuration, the use frequency recording unit records the use frequency of the data for voice synthesis in the voice database included in the voice synthesizer or the like each time the voice synthesis is performed by the voice synthesizer or the like. Then, the voice synthesizing data reducing unit reduces voice synthesizing data whose use frequency is lower than the preset use frequency threshold.
[0016]
The data reduction program for speech synthesis according to claim 6 is the data reduction program for speech synthesis according to
[0017]
According to such a configuration, a plurality of sentences composed of speech synthesis data are stored in the speech database, and each of these sentences is stored in the other sentences stored in the speech database by the use frequency recording unit. The frequency of use of the voice synthesis data when voice synthesis is performed using the included voice synthesis data is recorded, and the voice synthesis data reduction unit detects voice synthesis data having a frequency of use lower than a preset use frequency threshold. Be reduced.
[0018]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
(Configuration of data reduction device for speech synthesis)
FIG. 1 is a block diagram of a speech synthesis data reduction system. As shown in FIG. 1, the voice synthesis data reduction system includes a voice synthesis
[0019]
The
[0020]
The speech synthesis
[0021]
The input / output unit 3 is for transmitting and receiving information (synthesis data use frequency information and synthesis data reduction information described later) to and from the
[0022]
The synthesis data use
[0023]
In the synthesis data use
[0024]
When the speech synthesis data in the
[0025]
The combining data reducing unit 7 compares the combining data use frequency information recorded in the recording unit 9 by the combining data use
[0026]
The use frequency threshold is a numerical value that can be arbitrarily set in advance. For example, assuming that the use frequency threshold is based on the number of uses of the speech synthesizer, “use number 50
[0027]
In addition, the total use frequency threshold is set such that, when the synthesis data in the
[0028]
The recording unit 9 is composed of a general hard disk or the like, and records synthesis data use frequency information and a use frequency threshold (total use frequency threshold). Note that the synthesis data use frequency information is updated in the recording unit 9 in a format in which a numerical value is added to the data use frequency set for each voice synthesis data (+1 when used once). .
[0029]
According to the speech synthesis
[0030]
The
[0031]
(Operation of the data reduction device for speech synthesis)
Next, the operation of the
First, data use frequency information for synthesis is input to the input / output unit 3 (S1). In the description of the operation of the speech synthesis
[0032]
Then, the data-for-synthesis reduction unit 7 compares the frequency-of-use data for use with the frequency of use with the frequency-of-use threshold, and determines whether or not the frequency-of-use data for use for synthesis (use frequency in FIG. 2) is less than the frequency-of-use threshold. Is performed (S3). If it is determined that the synthesis data use frequency information is less than the use frequency threshold (S3, Yes), the synthesis data reduction information is output to the input / output unit 3, and the input / output unit 3 sends the information to the
[0033]
(Specific example of speech synthesis data reduction by speech synthesis data reduction device)
Next, a case in which the data for speech synthesis is reduced (operated) by the data reduction system for speech synthesis will be specifically described.
In an actual operation example, a “speech database reduction test set” is input to the
[0034]
First, when the “speech database reduction test set” is input by the
[0035]
For example, if "<Sentence> Next news <End of sentence>" is input as "Test set for voice database reduction",
"<First sentence>next" ... 0ms to 1000ms of sentence number 50
"News": Sentence number 8, 2125ms-2840ms
"Is <End of sentence>" ... Sentence number 32: 1500ms to 2000ms
Is used (assuming that the data is included in the synthesis data use frequency information).
[0036]
At this time, the data-for-synthesis use
[0037]
According to this specific example, the
[0038]
As described above, the present invention has been described based on one embodiment, but the present invention is not limited to this.
For example, the processing of each component of the voice synthesis
[0039]
【The invention's effect】
According to the first, third, and fifth aspects of the present invention, each time speech synthesis is performed by a voice synthesis device or the like, the frequency of use of voice synthesis data in a voice database that is inherent in the voice synthesis device or the like is recorded. Speech synthesis data that is used less frequently than the preset use frequency threshold is reduced. For this reason, when the unit speech held in the speech database of the speech synthesizer or the like is a word, in the speech database used for speech synthesis, it is necessary to appropriately delete the infrequently used speech synthesis data. Thus, the voice database can be maintained in a small capacity, and the processing speed when performing voice synthesis by the voice synthesizer can be improved.
[0040]
According to the second, fourth and sixth aspects of the present invention, when a plurality of sentences composed of speech synthesis data (words) are stored in the speech database, each of these sentences is stored in the speech database. The usage frequency of the voice synthesis data when voice synthesis is performed using other sentences is recorded, and voice synthesis data having a usage frequency lower than a preset total usage frequency threshold is reduced. For this reason, the speech synthesis data in one sentence of the speech database is speech-synthesized using another sentence, and the use frequency is recorded. If the use frequency is low, the data is deleted. The data amount of the speech database can be kept small (self-learning), and the processing speed when speech is synthesized by the speech synthesizer can be improved.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a data reduction system for speech synthesis according to an embodiment of the present invention.
FIG. 2 is a flowchart for explaining the operation of the speech synthesis data reducing device shown in FIG. 1;
[Explanation of symbols]
REFERENCE SIGNS
Claims (6)
音声合成を行う際に使用した音声合成用データの使用頻度を記録する使用頻度記録ステップと、
予め設定した使用頻度閾値よりも使用頻度が低い音声合成用データを削減する音声合成用データ削減ステップと、
を含むことを特徴とする音声合成用データ削減方法。A speech synthesis data reduction method for reducing speech synthesis data composed of phonemes and words, which is used less frequently in a speech database in which speech times of phonemes and words used for speech synthesis are recorded. ,
A use frequency recording step of recording the use frequency of the speech synthesis data used when performing speech synthesis;
A voice synthesis data reduction step of reducing voice synthesis data whose use frequency is lower than a use frequency threshold set in advance;
A method for reducing data for speech synthesis, comprising:
前記使用頻度記録ステップにおいて、前記音声データベース中の文章をそれ以外の全ての文章に含まれる音声合成用データに基づいて音声合成を実行した際に、使用した音声合成用データの使用頻度を記録することを特徴とする請求項1に記載の音声合成用データ削減方法。The speech database is configured as a set of sentences composed of speech synthesis data included in the speech database,
In the use frequency recording step, when a sentence in the speech database is subjected to speech synthesis based on speech synthesis data included in all other sentences, a use frequency of the used speech synthesis data is recorded. 2. The method for reducing data for speech synthesis according to claim 1, wherein:
音声合成を行う際に使用した音声合成用データの使用頻度を記録する使用頻度記録手段と、
予め設定した使用頻度閾値よりも使用頻度が低い音声合成用データを削減する音声合成用データ削減手段と、
を備えることを特徴とする音声合成用データ削減装置。A speech synthesis data reduction device for reducing speech synthesis data consisting of phonemes and words, which is used in a speech database in which the speech times of phonemes and words used for speech synthesis are recorded. ,
Usage frequency recording means for recording the frequency of use of voice synthesis data used when performing voice synthesis,
Voice synthesis data reducing means for reducing voice synthesis data having a frequency of use lower than a preset use frequency threshold,
An apparatus for reducing data for speech synthesis, comprising:
前記使用頻度記録手段で、前記音声データベース中の文章をそれ以外の全ての文章に含まれる音声合成用データに基づいて音声合成を実行した際に、使用した音声合成用データの使用頻度を記録することを特徴とする請求項3に記載の音声合成用データ削減装置。The speech database is configured as a set of sentences composed of speech synthesis data included in the speech database,
The use frequency recording unit records the use frequency of the used voice synthesis data when the text in the voice database is subjected to voice synthesis based on the voice synthesis data included in all other texts. 4. The apparatus for reducing data for speech synthesis according to claim 3, wherein:
音声合成を行う際に使用した音声合成用データの使用頻度を記録する使用頻度記録手段、
予め設定した使用頻度閾値よりも使用頻度が低い音声合成用データを削減する音声合成用データ削減手段、
として機能させることを特徴とする音声合成用データ削減プログラム。A device for reducing speech synthesis data consisting of phonemes and words, which is used less frequently in a speech database in which speech times of phonemes and words are used when performing speech synthesis,
Usage frequency recording means for recording the frequency of use of voice synthesis data used when performing voice synthesis,
Voice synthesis data reduction means for reducing voice synthesis data having a frequency of use lower than a preset use frequency threshold,
A data reduction program for speech synthesis characterized by functioning as a computer.
前記使用頻度記録手段で、前記音声データベース中の一つの文章をそれ以外の全ての文章に含まれる音声合成用データに基づいて音声合成を実行した際に、使用した音声合成用データの使用頻度を記録することを特徴とする請求項5に記載の音声合成用データ削減プログラム。The speech database is configured as a set of sentences composed of speech synthesis data included in the speech database,
The use frequency recording means, when one sentence in the speech database is subjected to speech synthesis based on the speech synthesis data included in all other sentences, the use frequency of the used speech synthesis data The data reduction program for speech synthesis according to claim 5, wherein the program is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002191819A JP4206230B2 (en) | 2002-07-01 | 2002-07-01 | Speech synthesis data reduction method, speech synthesis data reduction device, and speech synthesis data reduction program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002191819A JP4206230B2 (en) | 2002-07-01 | 2002-07-01 | Speech synthesis data reduction method, speech synthesis data reduction device, and speech synthesis data reduction program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004037605A true JP2004037605A (en) | 2004-02-05 |
JP4206230B2 JP4206230B2 (en) | 2009-01-07 |
Family
ID=31701277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002191819A Expired - Fee Related JP4206230B2 (en) | 2002-07-01 | 2002-07-01 | Speech synthesis data reduction method, speech synthesis data reduction device, and speech synthesis data reduction program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4206230B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012088555A (en) * | 2010-10-20 | 2012-05-10 | Mitsubishi Electric Corp | Speech synthesis system, method for creating synthesis unit dictionary, program for creating synthesis unit dictionary, and recording medium of program for creating synthesis unit dictionary |
-
2002
- 2002-07-01 JP JP2002191819A patent/JP4206230B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012088555A (en) * | 2010-10-20 | 2012-05-10 | Mitsubishi Electric Corp | Speech synthesis system, method for creating synthesis unit dictionary, program for creating synthesis unit dictionary, and recording medium of program for creating synthesis unit dictionary |
Also Published As
Publication number | Publication date |
---|---|
JP4206230B2 (en) | 2009-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9196241B2 (en) | Asynchronous communications using messages recorded on handheld devices | |
US7487093B2 (en) | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof | |
US9318100B2 (en) | Supplementing audio recorded in a media file | |
US6172675B1 (en) | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data | |
US8594995B2 (en) | Multilingual asynchronous communications of speech messages recorded in digital media files | |
US7257534B2 (en) | Speech synthesis system for naturally reading incomplete sentences | |
US20020103646A1 (en) | Method and apparatus for performing text-to-speech conversion in a client/server environment | |
US20110184721A1 (en) | Communicating Across Voice and Text Channels with Emotion Preservation | |
JP2000081892A (en) | Device and method of adding sound effect | |
US20090106027A1 (en) | Voice edition device, voice edition method, and voice edition program | |
CN1813285B (en) | Device and method for speech synthesis | |
JP2012181358A (en) | Text display time determination device, text display system, method, and program | |
CN112669815A (en) | Song customization generation method and corresponding device, equipment and medium | |
JP2006507530A (en) | Speech recognition apparatus and method | |
KR20190048371A (en) | Speech synthesis apparatus and method thereof | |
US7003740B2 (en) | Method and apparatus for minimizing weighted networks with link and node labels | |
US6963838B1 (en) | Adaptive hosted text to speech processing | |
CN116978381A (en) | Audio data processing method, device, computer equipment and storage medium | |
JP4206230B2 (en) | Speech synthesis data reduction method, speech synthesis data reduction device, and speech synthesis data reduction program | |
US8219402B2 (en) | Asynchronous receipt of information from a user | |
JP3691773B2 (en) | Sentence analysis method and sentence analysis apparatus capable of using the method | |
KR102376552B1 (en) | Voice synthetic apparatus and voice synthetic method | |
US8635071B2 (en) | Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same | |
JP2003029774A (en) | Voice waveform dictionary distribution system, voice waveform dictionary preparing device, and voice synthesizing terminal equipment | |
JPH0764583A (en) | Text reading-out method and device therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080924 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081020 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111024 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131024 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141024 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |