JP2012073338A - Speech synthesizer and speech synthesis method - Google Patents
Speech synthesizer and speech synthesis method Download PDFInfo
- Publication number
- JP2012073338A JP2012073338A JP2010217039A JP2010217039A JP2012073338A JP 2012073338 A JP2012073338 A JP 2012073338A JP 2010217039 A JP2010217039 A JP 2010217039A JP 2010217039 A JP2010217039 A JP 2010217039A JP 2012073338 A JP2012073338 A JP 2012073338A
- Authority
- JP
- Japan
- Prior art keywords
- information
- registered
- input
- text information
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、例えば、音声信号を合成する音声合成装置及び音声合成方法に関する。 The present invention relates to a speech synthesizer and a speech synthesis method for synthesizing speech signals, for example.
近年、音声を自動合成する音声合成技術が開発されている。音声合成技術は、短時間で所望の音声を作成できるというメリットを有するため、これまで予め録音されたプロのナレータによる音声を用いていたアプリケーションの中には、このような音声合成技術を採用したものもある。特に、商業施設における案内放送、ハイウェイラジオ、ハイウェイテレホンまたは天気予報の放送など、短い時間間隔で提供する情報が更新されるアプリケーションでは、上記のメリットを持つ音声合成技術が有用である。しかし、このようなアプリケーションでは、音声合成技術を用いて合成音声を作成する装置に対して、視聴者にとってメッセージの内容が分かり易いように、合成音声の品質が高いこと、及び短時間で大量の合成音声を作成できることが求められる。 In recent years, speech synthesis technology for automatically synthesizing speech has been developed. Since speech synthesis technology has the advantage that it can create desired speech in a short time, such speech synthesis technology has been adopted in applications that have used pre-recorded speech by professional narrators. There are also things. In particular, in an application in which information provided at a short time interval is updated, such as a guidance broadcast in a commercial facility, a highway radio, a highway telephone, or a weather forecast broadcast, the speech synthesis technology having the above-described advantages is useful. However, in such an application, for a device that creates synthesized speech using speech synthesis technology, the quality of the synthesized speech is high so that the content of the message is easy for the viewer to understand, and a large amount in a short time. It is required to be able to create synthesized speech.
そこで、公知技術の一例では、音声合成装置は、一旦作成した音声に関して、原文情報の音声出力の要求の参照頻度に応じて、原文情報、音素列情報及び音声波形情報の何れかを選択的に蓄積する。そしてこの音声合成装置は、出力しようとする音声について、既に蓄積されている情報があれば、その情報を音声波形の合成に利用することで、音声合成に要する時間を短縮する(例えば、特許文献1を参照)。 Therefore, in an example of known technology, the speech synthesizer selectively selects any one of the original text information, the phoneme string information, and the speech waveform information according to the reference frequency of the voice output request for the original text information with respect to the once created voice. accumulate. This speech synthesizer shortens the time required for speech synthesis by using that information for speech waveform synthesis if there is already accumulated information about the speech to be output (for example, Patent Documents). 1).
上記の従来技術では、音声合成装置は、一つの原文に対して、特定の話速またはピッチといった特定の合成条件に基づいて作成された一種類の音素情報等の中間情報のみを記憶する。ところが、音声合成装置は、一つの原文に対して、異なる話速または異なるピッチ(すなわち、声の高さ)の出力音声を作成することもある。例えば、商業施設の館内放送で用いられるナレーションについて、緊急時(例えば、火災発生時)の話速は通常時の話速よりも速い方が好ましい。しかし、音声合成装置が、ある原文について、特定の合成条件で作成された音素情報等の中間情報を、その原文について他の合成条件の音声出力を作成するために利用すると、新たに生成された合成音声の韻律が不自然となる。その結果として新たに生成された合成音声の品質が劣化する。また、既に作成された合成音声を直接話速変換することにより修正された合成音声の品質も、元の合成音声の品質よりも低下する。
また、記憶されている中間情報を作成するために用いられた合成条件と異なる合成条件下で合成音声を作成することが要求された場合に、音声合成装置が、中間情報を利用せずに原文から合成音声を再度作成すると、音声合成に要する時間を短縮できない。
In the above-described conventional technology, the speech synthesizer stores only intermediate information such as one type of phoneme information created based on a specific synthesis condition such as a specific speech speed or pitch for one original sentence. However, the speech synthesizer may create output speech with different speech speeds or different pitches (ie, voice pitch) for one original sentence. For example, with regard to narration used in commercial facility broadcasting, it is preferable that the speech speed in an emergency (for example, when a fire occurs) be faster than the normal speech speed. However, if the speech synthesizer uses intermediate information such as phoneme information created under a specific synthesis condition for a certain original sentence to create a voice output under other synthesis conditions for that original sentence, a newly generated The prosody of synthesized speech is unnatural. As a result, the quality of the newly generated synthesized speech deteriorates. In addition, the quality of the synthesized speech that has been corrected by directly converting the synthesized speech that has been created is lower than the quality of the original synthesized speech.
In addition, when it is required to create a synthesized speech under a synthesis condition that is different from the synthesis conditions used to create the stored intermediate information, the speech synthesizer does not use the intermediate information and the original text If the synthesized speech is created again from the above, the time required for speech synthesis cannot be shortened.
そこで本明細書は、所定の原文に対して互いに異なる複数の合成条件の何れかにて合成音声を作成する場合でも、合成音声の作成に要する時間を短縮できる音声合成装置及び音声合成方法を提供することを目的とする。 Accordingly, the present specification provides a speech synthesizer and a speech synthesis method that can reduce the time required to create a synthesized speech even when a synthesized speech is created with any of a plurality of different synthesis conditions for a predetermined original text. The purpose is to do.
一つの実施形態によれば、音声合成装置が提供される。この音声合成装置は、合成音声信号の元となる原文を含む入力テキスト情報と、合成音声信号を作成するための入力合成条件とを取得する入力部と、登録テキスト情報と登録合成条件の組と、その登録テキスト情報と登録合成条件の組に対応する合成音声信号を作成する途中の段階で生成され、登録表音情報を含む登録中間情報との組を少なくとも一つ記憶する記憶部と、入力テキスト情報または入力テキスト情報により表される入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定する一致判定部と、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致する場合、登録テキスト情報または登録表音情報と登録合成条件との組に対応する登録中間情報を用いて合成音声信号を作成し、一方、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れとも一致しない場合、入力テキスト情報及び入力合成条件に基づいて合成音声信号を作成する音声合成部と、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れとも一致しない場合、入力テキスト情報または入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、その派生テキスト情報と派生合成条件の組と、その派生テキスト情報及び派生合成条件に基づいて音声合成部が合成音声信号を作成する途中の段階まで実行することにより作成された派生中間情報との組を、登録テキスト情報と登録合成条件の組と登録中間情報との組の一つとして記憶部に記憶させる自動更新部とを有する。 According to one embodiment, a speech synthesizer is provided. The speech synthesizer includes an input unit that obtains input text information including an original sentence that is a source of a synthesized speech signal, an input synthesis condition for creating a synthesized speech signal, a set of registered text information and a registered synthesis condition, A storage unit for storing at least one set of registration intermediate information including registration phonetic information, which is generated in the middle of creating a synthesized speech signal corresponding to the set of registered text information and registration synthesis condition; A coincidence determination unit that determines whether a pair of input phonetic information represented by text information or input text information and an input synthesis condition matches any of registered text information or a set of registered phonetic information and registered synthesis conditions And the combination of the input text information or the input phonetic information and the input synthesis condition matches the registered text information or the set of the registered phonetic information and the registration synthesis condition. Information or registered phonetic information and registered synthesis information are used to create a synthesized speech signal, while input text information or input phonetic information and input synthesis conditions are registered text information. Or, if it does not match any of the set of registered phonetic information and registered synthesis condition, a speech synthesis unit that creates a synthesized speech signal based on the input text information and the input synthesis condition, and input text information or input phonetic information and input If the combination of the composition condition does not match any of the registered text information or registered phonetic information and the registered composition condition, the combination of the derived text information and the derived composition condition is changed by modifying the input text information or the input composition condition. The speech synthesizer creates a synthesized speech signal based on the combination of the derived text information and derived synthesis condition, and the derived text information and derived synthesis condition. An automatic update unit for storing a set of the derived intermediate information created by executing up to the intermediate stage in the storage unit as one of a set of registered text information, a set of registered composition conditions, and registered intermediate information. Have.
また他の実施形態によれば、音声合成方法が提供される。この音声合成方法は、合成音声信号の元となる原文を含む入力テキスト情報と、合成音声信号を作成するための入力合成条件とを取得し、入力テキスト情報または入力テキスト情報により表される入力表音情報と入力合成条件との組が、記憶部に記憶されている少なくとも一つの登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定し、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件の組の何れかと一致する場合、記憶部に記憶され、かつ、登録テキスト情報または登録表音情報と登録合成条件との組に対応する合成音声信号を作成する途中の段階で生成される登録中間情報を用いて合成音声信号を作成し、一方、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れとも一致しない場合、入力テキスト情報及び入力合成条件に基づいて合成音声信号を作成し、入力テキスト情報または入力表音情報と入力合成条件との組が登録テキスト情報または登録表音情報と登録合成条件との組の何れとも一致しない場合、入力テキスト情報または入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、その派生テキスト情報と派生合成条件の組と、その派生テキスト情報及び派生合成条件に基づいて合成音声信号を作成する途中で作成された派生中間情報との組を、登録テキスト情報と登録合成条件の組と登録中間情報との組の一つとして記憶部に記憶させることを含む。 According to another embodiment, a speech synthesis method is provided. This speech synthesis method acquires input text information including an original text that is a source of a synthesized speech signal and input synthesis conditions for creating a synthesized speech signal, and is an input table represented by the input text information or the input text information. It is determined whether the set of the sound information and the input synthesis condition matches at least one of the registered text information or the set of the registered phonetic information and the registration synthesis condition stored in the storage unit, and the input text information Alternatively, when the set of the input phonetic information and the input synthesis condition matches either of the registered text information or the set of the registered phonetic information and the registration synthesis condition, it is stored in the storage unit, and the registered text information or the registered phonetic information A synthesized speech signal is created using registered intermediate information generated in the middle of creating a synthesized speech signal corresponding to a set of registered synthesis conditions. Creates a synthesized speech signal based on the input text information and input synthesis conditions if the set of input phonetic information and input synthesis conditions does not match any of the registered text information or registered phonetic information and registration synthesis conditions If the combination of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the registered phonetic information and the registration synthesis condition, the input text information or the input synthesis condition is corrected. To create a set of derived text information and derived synthesis conditions, and a set of derived text information and derived synthesis conditions, and a derivation created during the creation of a synthesized speech signal based on the derived text information and derived synthesis conditions Storing the set of intermediate information in the storage unit as one of a set of registered text information, a set of registered composition conditions, and registered intermediate information.
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
The objects and advantages of the invention will be realized and attained by means of the elements and combinations particularly pointed out in the appended claims.
It should be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are not restrictive of the invention as claimed.
本明細書に開示された音声合成装置及び音声合成方法は、所定の原文に対して互いに異なる複数の合成条件の何れかにて合成音声を作成する場合でも、合成音声の作成に要する時間を短縮できる。 The speech synthesizer and the speech synthesis method disclosed in this specification reduce the time required for creating a synthesized speech even when a synthesized speech is created with any of a plurality of different synthesis conditions for a predetermined original text. it can.
以下、図を参照しつつ、様々な実施形態による音声合成装置について説明する。
この音声合成装置は、所定の原文に対して特定の合成条件にて新規に合成音声を作成する際、他の合成条件でも中間情報を作成して記憶しておくことにより、様々な合成条件でその所定の原文についての合成音声の作成に要する時間を短縮する。
Hereinafter, speech synthesis apparatuses according to various embodiments will be described with reference to the drawings.
This speech synthesizer creates and stores intermediate information even under other synthesis conditions when creating a new synthesized speech for a given original text under specific synthesis conditions. The time required to create synthesized speech for the predetermined original text is shortened.
図1は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置1は、入力部2と、記憶部3と、処理部4と、出力部5とを有する。
FIG. 1 is a schematic configuration diagram of a speech synthesizer according to one embodiment. In the present embodiment, the
入力部2は、合成音声の原文であるテキスト情報と、話速、ピッチまたは声の高低の幅といった音声合成条件を規定する合成パラメータを取得する。そのために、入力部2は、例えば、キーボードを有する。また、入力部2は、マウスなどのポインティングデバイスとそのポインティングデバイスにより指示される入力すべき文字または数値などを表示するディスプレイとを有する。あるいは、入力部2は、タッチパネルディスプレイを有してもよい。
さらにまた、入力部2は、テキスト情報及び合成パラメータを通信ネットワークを介して音声合成装置1と接続された他の機器から取得してもよい。この場合、入力部2は、音声合成装置1を通信ネットワークに接続するためのインターフェース回路を有する。
そして入力部2は、入力されたテキスト情報及び合成パラメータを処理部4へ渡す。
The
Furthermore, the
Then, the
記憶部3は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部3は、処理部4で用いられる各種コンピュータプログラム及び音声合成処理に用いられる各種のデータを記憶する。
記憶部3は、音声合成処理に用いられるデータとして、例えば、言語辞書と、韻律モデルと、音声波形辞書を記憶する。さらに記憶部3は、合成音声信号を作成する途中の段階で生成される、表音情報または波形生成情報といった中間情報を登録した中間情報テーブルを記憶する。なお、言語辞書、韻律モデル、音声波形辞書、中間情報及び中間情報テーブルの詳細については後述する。
The
The
出力部5は、処理部4から受け取った合成音声信号をスピーカ6へ出力する。そのために、出力部5は、例えば、スピーカ6を音声合成装置1と接続するためのオーディオインターフェース回路を有する。
また出力部5は、合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声合成装置1と接続するためのインターフェース回路を有する。なお、入力部2も通信ネットワークを介してテキスト情報及び合成パラメータを取得する場合、入力部2と出力部5は一体化されていてもよい。
The
The
処理部4は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部4は、入力されたテキスト情報に示された原文及び合成パラメータ、あるいはその原文と合成パラメータの組に対応する中間情報に基づいて、合成音声信号を作成する。そのために、処理部4は、一致判定部10と、音声合成部11と、制御部16と、自動更新部17とを有する。
処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、それぞれ、別個の回路として、音声合成装置1に実装されてもよい。さらに、処理部4が有するこれらの各部は、その各部の機能を実現する一つの集積回路として音声合成装置1に実装されてもよい。
The
Each of these units included in the
一致判定部10は、入力部2を介して入力されたテキスト情報またはそのテキスト情報により表される表音情報と合成パラメータとの組が、中間情報テーブルに登録されている何れかのテキスト情報または表音情報と合成パラメータとの組と一致するか否か判定する。そして入力されたテキスト情報または表音情報と合成パラメータとの組が中間情報テーブルに登録されている何れかのテキスト情報または表音情報と合成パラメータとの組と一致する場合、その入力されたテキスト情報と合成パラメータの組に対応する中間情報も中間情報テーブルに登録されている。一致判定部10は、既に作成されている中間情報を合成音声信号の生成に利用するために、入力されたテキスト情報または表音情報と合成パラメータとの組と一致する、中間情報テーブルに登録されたテキスト情報または表音情報と合成パラメータの組の識別番号を制御部16へ渡す。
なお、中間情報テーブルに登録されているテキスト情報、合成パラメータ及び中間情報を、便宜上、以下では、登録テキスト情報、登録合成パラメータ及び登録中間情報と呼ぶ。
The
Note that text information, synthesis parameters, and intermediate information registered in the intermediate information table are hereinafter referred to as registered text information, registered synthesis parameters, and registered intermediate information for convenience.
一方、入力されたテキスト情報と合成パラメータの組が何れの登録テキスト情報と登録合成パラメータの組とも一致しない場合、音声合成装置1は、入力されたテキスト情報と合成パラメータの組に基づいて合成音声信号を作成する。そこで一致判定部10は、入力されたテキスト情報と合成パラメータの組を音声合成部11へ渡す。
さらに、入力されたテキスト情報の原文と一部が異なる原文を含むテキスト情報が後で入力されたり、あるいは入力された合成パラメータの少なくとも一つが異なる合成パラメータが後で入力されることがある。そこでこのような場合に、合成音声信号の作成に利用できる中間情報を作成するために、一致判定部10は、入力されたテキスト情報及び合成パラメータを自動更新部17へ渡す。
On the other hand, if the set of input text information and synthesis parameter does not match any of the registered text information and registered synthesis parameter set, the
Furthermore, text information including a text that is partly different from the original text of the input text information may be input later, or a composite parameter in which at least one of the input composite parameters is different may be input later. Therefore, in such a case, the
音声合成部11は、入力されたテキスト情報と合成パラメータの組に基づいて合成音声信号を作成する。あるいは、音声合成部11は、記憶部3に記憶されている中間情報に基づいて合成音声信号を作成する。さらに、音声合成部11は、自動更新部17からの指示に応じて中間情報を作成する。そのために、音声合成部11は、言語処理部12と、韻律生成部13と、素片選択部14と、波形生成部15とを有する。
The
言語処理部12は、入力されたテキスト情報を表音情報に変換する。表音情報は、テキスト情報に含まれる原文の読みなどを表す情報であり、例えば、原文の読みをカタカナ文字で表し、さらにアクセントの位置及び区切りの位置を追加した情報である。
言語処理部12は、入力されたテキスト情報を表音情報に変換するために、記憶部3に記憶されている言語辞書を読み込む。言語辞書には、例えば、テキスト情報中に出現すると想定される様々な単語、その単語の読み、品詞及び活用形が登録されている。そして言語処理部12は、例えば、その言語辞書を用いて、テキスト情報に含まれる原文に対して形態素解析を行って、原文中に出現する各単語の順序及び読み、アクセントの位置及び区切りの位置を決定する。その際、言語処理部12は、例えば、原文中で句読点が設定された位置を区切りの位置とする。なお、句読点が設定された位置で原文を区切ることにより得られる文の単位を、本明細書では呼気段落と呼ぶ。
言語処理部12は、形態素解析として、例えば、動的計画法または隠れマルコフモデルを用いる方法を利用できる。そして言語処理部12は、各単語の順序、読み、アクセントの位置及び区切りの位置に応じて表音情報を作成する。
言語処理部12は、表音情報を韻律生成部13へ出力する。また言語処理部12は、中間情報を生成するために、表音情報を自動更新部17の分割処理部18へ出力してもよい。
The
The
As the morphological analysis, the
The
韻律生成部13は、一致判定部10から受け取った合成パラメータと、言語処理部12から受け取った表音情報に基づいて、合成音声を生成する際の目標韻律を生成する。そのために、韻律生成部13は、記憶部3から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして韻律生成部13は、複数の韻律モデルのうち、表音情報に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして韻律生成部13は、選択した韻律モデル及び合成パラメータに従って、表音情報に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。また本実施形態では、母音と子音とをそれぞれ1個以上組み合わせた音節も、音素に含まれるものとする。
韻律生成部13は、目標韻律を素片選択部14へ出力する。
また音声合成部11は、自動更新部17からの指示に応じて中間情報を生成する場合、韻律生成部13は、テキスト情報と合成パラメータの組を自動更新部17から取得する。そして韻律生成部13は、自動更新部17から取得したテキスト情報と合成パラメータに基づいて目標韻律を作成し、その目標韻律を素片選択部14へ出力する。
The
The
When the
素片選択部14及び波形生成部15は、例えば、音素接続方式、コーパスベース方式または大規模コーパスベース方式によって合成音声信号を作成する。
素片選択部14は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、素片選択部14は、記憶部13から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、一人以上のナレータが様々なテキストを読み上げた様々な音声を録音した音声信号から、音素単位で取り出された波形信号である。
さらに、素片選択部14は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
素片選択部14は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。そして素片選択部14は、波形生成情報を波形生成部15へ出力する。また素片選択部14は、波形生成情報を中間情報として保存するために、その波形生成情報を自動更新部17へ出力する。
さらに、音声合成部11が自動更新部17から受け取ったテキスト情報と合成パラメータの組に基づく中間情報を作成する場合、素片選択部14は、作成した波形生成情報を自動更新部17へ出力する。
The
The
Furthermore, in order to enable the
The
Further, when the
波形生成部15は、波形生成情報に基づいて合成音声信号を作成する。そのために、波形生成部15は、素片選択部14または制御部16から受け取った波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部3から読み込む。そして波形生成部15は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、波形生成部15は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成する。
波形生成部15は、合成音声信号を出力部5へ出力する。
The
The
制御部16は、入力されたテキスト情報と合成パラメータの組と一致する登録テキスト情報と登録合成パラメータの組が中間情報テーブルに登録されている場合、その登録テキスト情報と登録パラメータの組に対応する登録中間情報を記憶部3から読み込む。登録中間情報に波形生成情報が含まれている場合、制御部16は、登録中間情報に含まれる波形生成情報を波形生成部15へ出力する。また、登録中間情報に表音情報が含まれており、かつ波形生成情報が含まれていない場合、制御部16は、登録中間情報に含まれる表音情報を韻律生成部13へ出力する。
これにより、音声合成部11は、表音情報、目標韻律及び波形生成情報の生成に関する処理の少なくとも一部を省略できる。その結果として、音声合成部11は、合成音声信号の作成に要する処理時間を短縮できる。
When the registered text information and registered composite parameter pair that matches the input text information and composite parameter pair is registered in the intermediate information table, the
Thereby, the
自動更新部17は、入力されたテキスト情報を修正した派生テキスト情報または入力された合成パラメータの少なくとも一つの値を変えた派生合成パラメータに基づく中間情報を音声合成部11に作成させる。そのために、自動更新部17は、分割処理部18とパラメータ調整部19とを有する。
The
分割処理部18は、一致判定部10が入力されたテキスト情報と合成パラメータの組と一致する登録テキスト情報と登録合成パラメータの組が中間情報テーブルに登録されていないと判定した場合に、その入力されたテキスト情報を一致判定部10から受け取る。そして分割処理部18は、中間情報として利用し易いように、入力されたテキスト情報に含まれる原文を所定の単位に分割する。
例えば、分割処理部18は、原文中に含まれる各句読点を検出することにより、一つの句読点から次の句読点までの区間が一つの文の単位となるように原文を分割する。あるいは、分割処理部18は、原文に付された句読点とは関係無く、原文中で句読点を付すことができる区切り可能位置を検出し、隣接する区切り可能位置間の区間が一つの文の単位となるように原文を分割してもよい。なお、区切り可能位置を検出するために、分割処理部18は、例えば、形態素解析を行って文節境界を検出し、その文節境界を区切り可能位置としてもよい。
When the
For example, the
また、分割処理部18は、入力されたテキスト情報に基づいて言語処理部12により作成された表音情報を受け取って、その表音情報に基づいて原文を分割してもよい。この場合、分割処理部18は、例えば、表音情報において設定された区切り位置で原文を分割する。あるいは、分割処理部18は、表音情報に設定された区切り位置以外で、原文を区切ることが可能な区切り位置で原文を分割してもよい。この場合も、分割処理部18は、例えば、形態素解析を行って文節境界を検出することにより区切り位置を検出する。
The
分割処理部18は、原文を分割することにより作成された文の単位の何れかを含むテキスト情報を派生テキスト情報として作成する。
さらに、分割処理部18は、原文を異なる位置で分割することにより、一つの原文に対して複数種類の文の単位を作成してもよい。例えば、テキスト情報に含まれる原文が「名古屋方面を走行中のドライバーに、渋滞のお知らせです。」であったとする。この場合、分割処理部18は、原文を、「名古屋方面を走行中のドライバーに、」という単位と「渋滞のお知らせです。」という二つの単位に分割してもよい。あるいは、分割処理部18は、原文を、「名古屋方面を」という単位と、「走行中のドライバーに、」という単位と「渋滞のお知らせです。」という三つの単位に分割してもよい。さらにまた、分割処理部18は、原文を、「名古屋方面を」という単位と、「走行中のドライバーに、渋滞のお知らせです。」という二つの単位に分割してもよい。この場合、分割処理部18は、上記のそれぞれの文の単位についてそれぞれ派生テキスト情報を作成してもよい。
The
Further, the
パラメータ調整部19は、入力された合成パラメータの少なくとも何れかを変更することで派生合成パラメータを作成する。例えば、合成パラメータに含まれる話速とピッチがそれぞれ'1'〜'5'で表されるとする。この場合において、入力された合成パラメータの話速及びピッチがそれぞれ'3'であれば、パラメータ調整部19は、話速を'1'、'2'、'4'または'5'に修正するか、あるいは、ピッチを'1'、'2'、'4'または'5'に修正することで派生合成パラメータを作成する。
そして自動更新部17は、派生テキスト情報と派生合成パラメータの組を、音声合成部11へ渡し、音声合成部11に派生テキスト情報と派生合成パラメータの組に対する表音情報及び波形生成情報を作成させる。
なお、派生テキスト情報と派生合成パラメータの組と一致する登録テキスト情報と登録合成パラメータの組が中間情報テーブルに既に登録されていることもある。このような場合、自動更新部17は、派生テキスト情報と派生合成パラメータの組について音声合成部11に表音情報及び波形生成情報を作成させなくてもよい。
The
Then, the
It should be noted that a combination of registered text information and a registered composite parameter that matches a set of derived text information and a derived composite parameter may already be registered in the intermediate information table. In such a case, the
自動更新部17は、派生テキスト情報と派生合成パラメータの組に対する表音情報及び波形生成情報を音声合成部11から受け取ると、派生テキスト情報と派生合成パラメータの組を表音情報及び波形生成情報とともに中間情報テーブルに追加登録する。このように、自動更新部17は、記憶部3に記憶された中間情報テーブルを更新することで、以降に入力されたテキスト情報と合成パラメータの組に対する合成音声信号の作成に利用できる中間情報の数を増やす。すなわち、派生テキスト情報と派生合成パラメータの組は、新たな登録テキスト情報と登録合成パラメータの組となる。そして派生テキスト情報と派生合成パラメータの組について作成された表音情報及び波形生成情報は、その新たな登録テキスト情報と登録合成パラメータの組に対応する登録中間情報となる。
なお、自動更新部17は、入力されたテキスト情報と合成パラメータのうち、何れか一方のみを変更して中間情報を作成してもよい。すなわち、派生テキスト情報及び派生合成パラメータの何れか一方が、入力されたテキスト情報または入力された合成パラメータと同じでもよい。また、自動更新部17は、派生テキスト情報及び派生合成パラメータの組について作成された表音情報及び波形生成情報のうちの一方のみを、登録中間情報として中間情報テーブルに登録してもよい。
When the
Note that the
図3は、中間情報テーブルの一例を示す図である。中間情報テーブル300の各行は、一つの登録中間情報に対応する。そして左から順に、各列には、それぞれ、各登録中間情報の識別番号、合成パラメータ、テキスト情報、表音情報、波形生成情報が格納される。この例では、行301に入力されたテキスト情報及び合成パラメータに対応する中間情報が登録されており、一方、行302及び303には、入力されたテキスト情報と派生合成パラメータに基づいて作成された中間情報が登録されている。
この例では、合成パラメータとして話速とピッチが規定されている。そのため、派生合成パラメータの話速またはピッチの少なくとも一方が、行301に示された元の話速またはピッチと異なっている。なお、合成パラメータには、抑揚、音量、声の高さなど、他のパラメータが含まれていてもよい。
FIG. 3 is a diagram illustrating an example of the intermediate information table. Each row of the intermediate information table 300 corresponds to one registered intermediate information. In order from the left, each column stores an identification number of each registered intermediate information, a synthesis parameter, text information, phonetic information, and waveform generation information. In this example, intermediate information corresponding to the text information and synthesis parameters input in
In this example, speech speed and pitch are defined as synthesis parameters. Therefore, at least one of the speech speed or pitch of the derived synthesis parameter is different from the original speech speed or pitch shown in the
また、テキスト情報は、例えば、合成される音声が日本語であれば、一般的な文章のように、かな文字、漢字及び句読点の組み合わせにより表記される。例えば、この例では、テキスト情報は、「お客様に・・・申し上げます。」という文を含む。
表音情報は、例えば、電子情報技術産業協会規格TT-6004(車載用音声合成記号規格)に従って表記される。また表音情報は、テキスト情報に含まれる文中でのアクセントの位置、区切り位置と、各音素の読みが分かる他の表記形式に従って記述されてもよい。なお、この例では、派生テキスト情報に含まれる文及び表音情報は、入力されたテキスト情報に含まれる文及び表音情報と同一となっている。
また、波形生成情報が登録される欄には、時系列に沿って各音素について使用される音声波形の識別番号と、場合によっては波形変換情報が記述される。なお、識別番号と波形変換情報の記述形式は、適宜適切なものが選択されればよい。
In addition, for example, if the synthesized speech is Japanese, the text information is represented by a combination of kana characters, kanji and punctuation marks as in a general sentence. For example, in this example, the text information includes a sentence “I want to say to the customer”.
The phonetic information is expressed in accordance with, for example, the Japan Electronics and Information Technology Industries Association Standard TT-6004 (Automotive Speech Synthesis Symbol Standard). Moreover, the phonetic information may be described according to other notation formats in which the accent position and the break position in the sentence included in the text information and the reading of each phoneme can be understood. In this example, the sentence and phonetic information included in the derived text information are the same as the sentence and phonetic information included in the input text information.
In the column in which the waveform generation information is registered, the identification number of the speech waveform used for each phoneme and the waveform conversion information depending on the case are described along the time series. It should be noted that an appropriate one may be selected as the description format of the identification number and the waveform conversion information.
図4は、中間情報テーブルの他の一例を示す図である。中間情報テーブル400の各行は、一つの登録中間情報に対応する。そして左から順に、各列には、それぞれ、各登録中間情報の識別番号、合成パラメータ、テキスト情報、表音情報、波形生成情報が格納される。この例では、入力されたテキスト情報は、「名古屋方面を走行中のドライバーに、渋滞のお知らせです。」という原文を含んでいる。そして行401及び402には、それぞれ、入力されたテキスト情報において文中に付された句読点で分割されたテキスト情報及び入力された合成パラメータに対応する中間情報が登録されている。一方、行403及び404には、入力されたテキスト情報において付された句読点の位置とは異なる位置で原文を分割することにより作成された派生テキスト情報と入力された合成パラメータに基づいて作成された中間情報が登録されている。
この例では、行403には、派生テキスト情報として、「名古屋方面を、」との文が登録されており、一方、行404には、派生テキスト情報として、「走行中のドライバーに渋滞のお知らせです。」との文が登録されている。
このように、一つの文に対して分割する単位を様々に変えることで生成された派生テキスト情報に対する中間情報も中間情報テーブルに登録することで、その後に入力されたテキスト情報と中間情報テーブルに登録されているテキスト情報が一致する確率が上がる。そのため、音声合成装置1は、合成音声の作成に要する時間を短縮できる可能性を高くできる。
FIG. 4 is a diagram illustrating another example of the intermediate information table. Each row of the intermediate information table 400 corresponds to one registered intermediate information. In order from the left, each column stores an identification number of each registered intermediate information, a synthesis parameter, text information, phonetic information, and waveform generation information. In this example, the input text information includes the original text “This is a traffic jam notification to the driver traveling in the direction of Nagoya.” In
In this example, in the
In this way, by registering the intermediate information for the derived text information generated by variously changing the unit for dividing one sentence into the intermediate information table, the text information input thereafter and the intermediate information table can be stored in the intermediate information table. Probability of matching registered text information increases. Therefore, the
図5は、音声合成装置1の処理部4により実行される音声合成処理の動作フローチャートを示す。
処理部4は、入力部2を介してテキスト情報及び合成パラメータを取得する(ステップS101)。
一致判定部10は、入力されたテキスト情報またはそのテキスト情報により表される表音情報と合成パラメータとの組が中間情報テーブルに登録された登録テキスト情報または表音情報と登録合成パラメータとの組の何れかと一致するか否か判定する(ステップS102)。
入力されたテキスト情報または表音情報と合成パラメータとの組が登録テキスト情報または表音情報と登録合成パラメータとの組の何れかと一致する場合(ステップS102−Yes)、一致判定部10は、その一致した登録テキスト情報または表音情報と登録合成パラメータとの組の識別番号を制御部16へ渡す。制御部16は、中間情報テーブルを参照して、一致判定部10から受け取った識別番号に対応する登録中間情報を記憶部3から読み出す(ステップS103)。そして制御部16は、その登録中間情報を音声合成部11へ渡す。
音声合成部11は、その登録中間情報を用いて合成音声信号を作成する(ステップS104)。そして音声合成部11は、合成音声信号を出力部5を介してスピーカ6へ出力する。
FIG. 5 shows an operation flowchart of the speech synthesis process executed by the
The
The
When the set of the input text information or phonetic information and the synthesis parameter matches any of the set of registered text information or phonetic information and the registered synthesis parameter (step S102—Yes), the
The
一方、入力テキスト情報または表音情報と合成パラメータとの組は登録テキスト情報または表音情報と登録合成パラメータとの組の何れとも一致しない場合(ステップS102−Yes)、一致判定部10は入力されたテキスト情報と合成パラメータの組を音声合成部11へ渡す。そして音声合成部11は、入力されたテキスト情報と合成パラメータに基づいて合成音声信号を作成する(ステップS105)。音声合成部11は、合成音声信号を出力部5を介してスピーカ6へ出力する。また音声合成部11は、合成音声信号を作成するためにその途中で作成した表音情報及び波形生成情報を中間情報として、入力テキスト情報及び合成パラメータとともに自動更新部17へ渡す。
自動更新部17は、入力テキスト情報、合成パラメータ、及び作成された表音情報と波形生成情報とを、それぞれ登録テキスト情報、登録合成パラメータ及び登録中間情報として中間情報テーブルに登録する(ステップS106)。
On the other hand, when the set of the input text information or the phonetic information and the synthesis parameter does not match any of the set of the registered text information or the phonetic information and the registered synthesis parameter (step S102—Yes), the
The
また、自動更新部17は、入力テキスト情報及び合成パラメータを一致判定部10から受け取る。そして自動更新部17の分割処理部18は、テキスト情報に含まれる原文を複数の所定の文の単位に分割し、その文の単位ごとに派生テキスト情報を作成する(ステップS107)。
また自動更新部17のパラメータ調整部19は、入力された合成パラメータに含まれる少なくとも一つのパラメータを修正することにより派生合成パラメータを作成する(ステップS108)。
Further, the
The
自動更新部17は、派生テキスト情報及び派生合成パラメータを音声合成部11へ出力する。なお、自動更新部17から音声合成部11に派生テキスト情報及び派生合成パラメータが渡されるタイミングは、音声合成部11の負荷を軽減するために、音声合成部11が合成音声信号を作成していないときであることが好ましい。そこで、例えば、自動更新部17は、音声合成部11の波形生成部15から、入力テキスト情報と入力合成パラメータの組についての合成音声信号の作成が終了したことを表す通知を受け取った後、派生テキスト情報及び派生合成パラメータを音声合成部11へ渡す。そして音声合成部11は、派生テキスト情報と派生合成パラメータに基づいて表音情報及び波形生成情報を作成する(ステップS109)。
音声合成部11は、作成した表音情報及び波形生成情報を中間情報として自動更新部17へ渡す。そして自動更新部17は、派生テキスト情報、派生合成パラメータ、及び作成された表音情報と波形生成情報とを、それぞれ登録テキスト情報、登録合成パラメータ及び登録中間情報として中間情報テーブルに登録する(ステップS110)。
ステップS104またはステップS110の後、処理部4は音声合成処理を終了する。
なお、入力テキスト情報に含まれる原文の一部及び入力合成パラメータの組と一致する登録テキスト情報及び登録合成パラメータの組が中間情報テーブルに登録されていることもある。このような場合、処理部4は、原文の一部及び入力合成パラメータの組と一致する登録テキスト情報及び登録合成パラメータの組について、ステップS103及びステップS104の処理を実行する。一方、処理部4は、原文のその他の部分について、ステップS105〜ステップS110の処理を実行する。
また、処理部4は、ステップS107の処理とステップS108の処理の順序を入れ換えてもよく、あるいは、ステップS107の処理とステップS108の処理の何れか一方を省略してもよい。
The
The
After step S104 or step S110, the
Note that a part of the original text included in the input text information and a set of registered text information and a set of registered composite parameters that match a set of input composite parameters may be registered in the intermediate information table. In such a case, the
Further, the
以上に説明してきたように、この音声合成装置は、入力されたテキスト情報と合成パラメータの組に対応する中間情報が記憶されていなければ、その入力されたテキスト情報と合成パラメータに基づいて合成音声信号を作成する。そしてこの音声合成装置は、合成音声信号の作成の途中で作成される波形生成情報等を中間情報として入力されたテキスト情報と合成パラメータの組とともに記憶する。さらにこの音声合成装置は、入力されたテキスト情報を修正した派生テキスト情報と合成パラメータの一部を修正した派生合成パラメータについても、波形生成情報等の中間情報を作成する。そしてこの音声合成装置は、その中間情報を、音声合成に利用できるように、派生テキスト情報及び派生合成パラメータとともに記憶する。そのため、この音声合成装置は、一旦作成された合成音声信号の原文の少なくとも一部が同一の原文について、その合成音声信号の合成条件と異なる合成条件で合成音声信号を作成することが要求された場合に、音声合成に要する時間を短縮できる。 As described above, this speech synthesizer is configured to synthesize speech based on the input text information and synthesis parameters unless intermediate information corresponding to the set of input text information and synthesis parameters is stored. Create a signal. The speech synthesizer stores waveform generation information and the like created during the creation of the synthesized speech signal together with a set of text information and synthesis parameters input as intermediate information. Further, the speech synthesizer creates intermediate information such as waveform generation information for the derived text information obtained by correcting the input text information and the derived synthesis parameter obtained by correcting a part of the synthesis parameter. The speech synthesizer stores the intermediate information together with the derived text information and the derived synthesis parameter so that it can be used for speech synthesis. For this reason, this speech synthesizer is required to create a synthesized speech signal under a synthesis condition that is different from the synthesized condition of the synthesized speech signal for an original text that has at least a part of the original text of the synthesized speech signal once created. In this case, the time required for speech synthesis can be shortened.
次に、第2の実施形態による音声合成装置について説明する。
この第2の実施形態による音声合成装置は、中間情報テーブルに登録されている各中間情報の使用回数を調べる。そしてこの音声合成装置は、使用回数が少ない中間情報と、対応する登録テキスト情報と登録合成パラメータの組とを消去する。これにより、この音声合成装置は、入力されたテキスト情報と合成パラメータの組と一致する登録テキスト情報と登録合成パラメータの組の探索に要する時間を短縮する。
Next, a speech synthesizer according to the second embodiment will be described.
The speech synthesizer according to the second embodiment checks the number of uses of each piece of intermediate information registered in the intermediate information table. The speech synthesizer then deletes the intermediate information that is used less frequently and the corresponding registered text information and registered synthesis parameter set. As a result, this speech synthesizer shortens the time required for searching for a set of registered text information and registered synthesis parameters that match the set of input text information and synthesis parameters.
図6は、第2の実施形態による音声合成装置の処理部41の概略構成図である。処理部41は、一致判定部10と、音声合成部11と、制御部16と、自動更新部17とを有する。また自動更新部17は、分割処理部18と、パラメータ調整部19と、存続判定部20とを有する。
図6において、処理部41の各構成要素には、図2に示された第1の実施形態による音声合成装置1の処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第2の実施形態による処理部41は、第1の実施形態による処理部4と比較して、自動更新部17が存続判定部20を有する点で異なる。
そこで以下では、処理部41が第1の実施形態による処理部4と異なる点について説明する。第2の実施形態による音声合成装置のその他の構成要素については、図1、2及び第1の実施形態の関連する部分の説明を参照されたい。
FIG. 6 is a schematic configuration diagram of the
In FIG. 6, each component of the
Therefore, hereinafter, the difference between the processing
この実施形態では、中間情報テーブルは、登録テキスト情報及び登録合成パラメータの組のそれぞれについて、合成音声信号の作成に利用された回数をチェックした最新の日時と、そのチェック時以降に合成音声信号の作成に利用された回数とをさらに記録する。 In this embodiment, the intermediate information table includes the latest date and time when the number of times used to create a synthesized speech signal for each set of registered text information and registered synthesis parameters, and the synthesized speech signal after the time of the check. Further record the number of times used for creation.
図7は、第2の実施形態による中間情報テーブルの一例を示す図である。中間情報テーブル700の各行は、一つの登録中間情報に対応する。そして左から順に、各列には、それぞれ、各登録中間情報の識別番号、合成パラメータ、テキスト情報、表音情報、波形生成情報、使用回数及びチェック日時が格納される。例えば、行701に登録された中間情報について、2010年8月25日の0時に使用回数がチェックされたことが示されている。そして行701に登録された中間情報は、前回のチェック時以降、132回使用されたことが示されている。同様に、行702に登録された中間情報について、2010年8月20日の0時に使用回数がチェックされたことが示されている。そして行702に登録された中間情報は、前回のチェック時以降、16回使用されたことが示されている。
FIG. 7 is a diagram illustrating an example of an intermediate information table according to the second embodiment. Each row of the intermediate information table 700 corresponds to one registered intermediate information. In order from the left, each column stores an identification number of each registered intermediate information, synthesis parameters, text information, phonetic information, waveform generation information, number of uses, and check date and time. For example, for the intermediate information registered in the
この実施形態において、制御部16は、何れかの登録中間情報が合成音声信号の作成に利用されると、中間情報テーブルに記憶されている、その登録中間情報についての使用回数を1増加させる。すなわち、一致判定部10により入力されたテキスト情報及び合成パラメータの組と一致すると判定された登録テキスト情報及び登録合成パラメータの組に対応する登録中間情報の使用回数が1増加する。
また、自動更新部17は、中間情報を新たに中間情報テーブルに登録する際、その中間情報についての使用回数を'0'とし、チェック日時をその登録日時とする。
In this embodiment, when any registered intermediate information is used to create a synthesized speech signal, the
Further, when the intermediate update information is newly registered in the intermediate information table, the
自動更新部17の存続判定部20は、中間情報テーブルに登録されている各登録中間情報のうち、直近の所定期間においてあまり使用されていない登録中間情報を消去する。
図8は、存続判定部20により実行される登録中間情報の存続判定処理の動作フローチャートである。
存続判定部20は、定期的に(例えば、毎日午前0時に)記憶部3に記憶されている中間情報テーブルを参照して、前回のチェック日時から所定期間経過した登録中間情報を特定する(ステップS201)。あるいは、存続判定部20は、特定のタイミングにおいて(例えば、音声合成装置の起動時または終了時に)、前回のチェック日時から所定期間経過した登録中間情報を特定してもよい。この所定期間は、音声合成装置自体が使用される頻度、記憶部3の記憶容量または処理部41が有するプロセッサの処理速度に応じて定められる。例えば、音声合成装置の使用頻度が高いほど、所定期間は短く設定され、一方、記憶部3の記憶容量が大きいほど、または処理部41が有するプロセッサの処理速度が速いほど、所定期間は長く設定される。例えば、所定期間は、1週間、1ヶ月、6ヶ月または1年に設定される。
The
FIG. 8 is an operation flowchart of the registration intermediate information existence determination process executed by the
The
存続判定部20は、特定された登録中間情報の使用回数が所定の閾値未満か否か判定する(ステップS202)。所定の閾値は、例えば、1回から数回程度に設定される。使用回数が所定の閾値未満であれば(ステップS202−Yes)、その使用回数に対応する中間情報は、合成音声信号の作成に殆ど使用されていない。そこで存続判定部20は、使用回数が所定の閾値未満となる登録中間情報及び対応する登録テキスト情報と登録合成パラメータの組を中間情報テーブルから消去する(ステップS203)。
一方、使用回数が所定の閾値以上である場合(ステップS202−No)、登録中間情報は、合成音声信号の作成に使用されている。そのため、音声合成装置は、このような中間情報を残しておくことが好ましい。そこで存続判定部20は、使用回数が所定の閾値以上となる登録中間情報について、中間情報テーブルに記録されているチェック日時を、今回のチェックを行った日時に修正する。また存続判定部20は、チェックした中間情報についての使用回数を'0'にリセットする(ステップS204)。
存続判定部20は、前回のチェック日時から所定期間経過した登録中間情報が複数存在する場合、その登録中間情報のそれぞれについて、ステップS202〜S204の処理を実行する。そして存続判定部20は、全ての登録中間情報についてステップS202〜S204の処理が終了すると、存続判定処理を終了する。
The
On the other hand, when the number of times of use is equal to or greater than a predetermined threshold (step S202-No), the registered intermediate information is used to create a synthesized speech signal. Therefore, it is preferable that the speech synthesizer keeps such intermediate information. Accordingly, the
When there are a plurality of pieces of registered intermediate information that have passed a predetermined period from the previous check date and time, the
これにより、この音声合成装置は、使用頻度の低い中間情報を記憶部から消去できる。そのため、この音声合成装置は、中間情報テーブルに登録された中間情報の数が不必要に増加することを抑制できる。したがって、この音声合成装置は、入力されたテキスト情報及び合成パラメータの組と一致する、登録テキスト情報及び登録合成パラメータの組に相当する登録中間情報の探索に要する時間を短縮できる。さらにこの音声合成装置は、各登録中間情報について、直近の一定期間の使用回数に基づいて消去するか否かを判定するので、消去する登録中間情報を適切に選択できる。 Thereby, this speech synthesizer can erase the intermediate information with low usage frequency from the storage unit. Therefore, the speech synthesizer can suppress an unnecessary increase in the number of intermediate information registered in the intermediate information table. Therefore, this speech synthesizer can reduce the time required for searching for registered intermediate information corresponding to the set of registered text information and registered synthesis parameter that matches the set of input text information and synthesis parameter. Furthermore, since this speech synthesizer determines whether or not to delete each registered intermediate information based on the number of times of use in the latest fixed period, it is possible to appropriately select the registered intermediate information to be deleted.
次に、第3の実施形態による音声合成装置について説明する。
この第3の実施形態による音声合成装置は、登録中間情報を編集する手段を有する。これにより、この音声合成装置は、中間情報テーブルに登録されている中間情報が不適切である場合に、手動でその登録中間情報を消去したり、あるいは、その登録中間情報を修正できる。
Next, a speech synthesizer according to a third embodiment will be described.
The speech synthesizer according to the third embodiment has means for editing registered intermediate information. As a result, when the intermediate information registered in the intermediate information table is inappropriate, the speech synthesizer can manually delete the registered intermediate information or correct the registered intermediate information.
図9は、第3の実施形態による音声合成装置の処理部42の概略構成図である。処理部42は、一致判定部10と、音声合成部11と、制御部16と、自動更新部17と、編集部21とを有する。
図9において、処理部42の各構成要素には、図2に示された第1の実施形態による音声合成装置1の処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第3の実施形態による処理部42は、第1の実施形態による処理部4と比較して、編集部21を有する点で異なる。
そこで以下では、処理部42が第1の実施形態による処理部4と異なる点について説明する。第3の実施形態による音声合成装置のその他の構成要素については、図1、2及び第1の実施形態の関連する部分の説明を参照されたい。
FIG. 9 is a schematic configuration diagram of the
In FIG. 9, each component of the
Therefore, hereinafter, the difference between the processing
この実施形態では、入力部2は、例えば、キーボード、またはマウスなどのポインティングデバイスとディスプレイとを有する。あるいは、入力部2は、タッチパネルディスプレイを有してもよい。
そして処理部42は、入力部2から登録中間情報の編集を行うことを示す操作信号を受け取ると、処理部42は、編集部21を起動する。
In this embodiment, the
When the
編集部21は、例えば、編集対象となる登録中間情報をユーザが選択するためのメニュー、または操作ボタンなどを入力部2が有するディスプレイに表示させる。また編集部21は、編集対象となる登録中間情報を消去するための操作ボタン、またはその登録中間情報に含まれる表音情報などを修正するためのテキストボックスなどをディスプレイに表示させる。
そして編集部21は、入力部2のキーボード等から編集対象の登録中間情報の識別番号を取得すると、記憶部3からその識別番号に相当する登録中間情報及び対応する登録テキスト情報と登録合成パラメータとを読み込む。そして編集部21は、登録テキスト情報及び登録合成パラメータと、その登録中間情報に含まれる表音情報または波形生成情報等を入力部2のディスプレイに表示させる。
また編集部21は、入力部2のキーボード等から編集対象の登録中間情報を消去する操作信号及びその登録中間情報の識別番号を受け取ると、中間情報テーブルからその登録中間情報を削除する。
あるいは、編集部21は、入力部2のキーボード等から編集対象の登録中間情報の一部、例えば、表音情報の一部を修正する操作信号及びその登録中間情報の識別番号を受け取ると、その操作信号に従って、その識別番号で特定される登録中間情報の表音情報を修正する。そして編集部21は、修正された表音情報を音声合成部11へ入力することにより、修正された表音情報に応じた波形生成情報を得る。
The
When the
When the
Alternatively, when the
このように、この音声合成装置は、既に登録されている中間情報を編集する手段を有するので、例えば、テキスト情報に示された文の本来の読みと異なる読みで表された表音情報に基づく中間情報のように、不適切な中間情報を編集できる。そのため、この音声合成装置は、適切な中間情報のみを残すことができる。 Thus, since this speech synthesizer has means for editing already registered intermediate information, for example, it is based on phonetic information represented by a reading different from the original reading of the sentence indicated in the text information. Like intermediate information, inappropriate intermediate information can be edited. Therefore, this speech synthesizer can leave only appropriate intermediate information.
なお、上記の各実施形態の変形例によれば、自動更新部のパラメータ調整部は、入力テキスト情報または派生テキスト情報に含まれる固有名詞を、その固有名詞と同種類の他の固有名詞に置換することで、別の派生テキスト情報を作成してもよい。例えば、テキスト情報に「名古屋方面を走行中のドライバーに、」という文が含まれている場合、パラメータ調整部は、地名についての固有名詞である「名古屋」を、その固有名詞と同じ地名の固有名詞である「東京」または「京都」に置換してもよい。なお、このような固有名詞の置換を行うために、例えば、記憶部に記憶されている単語辞書は、固有名詞の種類を表す識別情報も含む。また分割処理部は、パラメータ調整部に、形態素解析の結果として得られる、テキスト情報に含まれる各単語の品詞を通知する。
これにより、自動更新部は、より多くの派生テキスト情報について音声合成部に中間情報を作成させることができるので、次回以降の入力テキスト情報と合成パラメータの組についての合成音声信号の作成に中間情報を利用できる可能性をより高めることができる。
According to the modification of each embodiment described above, the parameter adjustment unit of the automatic update unit replaces the proper noun included in the input text information or the derived text information with another proper noun of the same type as the proper noun. Thus, another derived text information may be created. For example, if the text information contains the sentence “To the driver driving in the direction of Nagoya,” the parameter adjustment unit will change the proper name of the place name to “Nagoya”. The noun “Tokyo” or “Kyoto” may be substituted. In order to perform such proper noun replacement, for example, the word dictionary stored in the storage unit also includes identification information indicating the type of proper noun. The division processing unit notifies the parameter adjustment unit of the part of speech of each word included in the text information obtained as a result of the morphological analysis.
As a result, the automatic update unit can cause the speech synthesis unit to create intermediate information for more derived text information, so intermediate information can be used to create a synthesized speech signal for the next set of input text information and synthesis parameters. The possibility that it can be used can be further increased.
他の変形例によれば、自動更新部は、派生テキスト情報及び派生合成パラメータに対応する合成音声信号を音声合成部に作成させてもよい。この場合、自動更新部は、音声合成部から合成音声信号を受け取り、その合成音声信号を登録中間情報として記憶部に記憶させてもよい。同様に、自動更新部は、入力テキスト情報及び入力合成パラメータに基づいて作成された合成音声信号を、登録中間情報として記憶部に記憶させてもよい。このように、記憶部が合成音声信号を記憶することで、その後に入力されたテキスト情報及び合成パラメータの組と一致する登録テキスト情報及び登録合成パラメータの組が中間情報テーブルに登録されている場合、音声合成装置は、波形生成部の処理も省略できる。したがって、音声号装置は、音声合成に要する時間をさらに短縮できる。 According to another modification, the automatic update unit may cause the speech synthesis unit to create a synthesized speech signal corresponding to the derived text information and the derived synthesis parameter. In this case, the automatic update unit may receive the synthesized speech signal from the speech synthesis unit and store the synthesized speech signal in the storage unit as registered intermediate information. Similarly, the automatic updating unit may store the synthesized speech signal created based on the input text information and the input synthesis parameter in the storage unit as registered intermediate information. As described above, when the storage unit stores the synthesized speech signal, the registered text information and the set of registered synthesis parameters that match the set of text information and the synthesis parameters input thereafter are registered in the intermediate information table. The speech synthesizer can also omit the processing of the waveform generator. Therefore, the speech signal device can further reduce the time required for speech synthesis.
さらに、上記の各実施形態において、音声合成装置は、入力部を介して、入力されるテキスト情報と合成パラメータの組とともに、入力されるテキスト情報についての重要度を取得してもよい。重要度は、例えば、2段階、あるいは、3段階以上に設定される。そして例えば、重要度を表す数値が大きいほど、入力されるテキスト情報の重要度は高い。
自動更新部は、重要度が所定の重要度閾値以上である場合に限り、派生テキスト情報及び派生合成パラメータの組に対する中間情報を音声合成部に作成させてもよい。重要度閾値は、例えば、重要度が'0'と'1'の何れかに設定される場合、'1'に設定される。また、重要度が'0'〜'n'(ただしnは2以上の整数)といった3段階以上の何れかに設定される場合、重要度閾値は、'1'〜'n'の何れかに設定される。
Furthermore, in each of the embodiments described above, the speech synthesizer may acquire the importance of the input text information together with the input text information and the combination parameter through the input unit. For example, the importance is set to two levels or three levels or more. For example, the greater the numerical value representing the importance, the higher the importance of the input text information.
The automatic updating unit may cause the speech synthesis unit to create intermediate information for the combination of the derived text information and the derived synthesis parameter only when the importance is equal to or greater than a predetermined importance level threshold. For example, when the importance level is set to either “0” or “1”, the importance level threshold is set to “1”. In addition, when the importance is set to any one of three or more levels such as “0” to “n” (where n is an integer of 2 or more), the importance threshold is set to any one of “1” to “n”. Is set.
さらに、重要度が3段階の何れかに設定される場合、自動更新部は、重要度に応じて、中間情報テーブルに登録する中間情報を決定してもよい。例えば、重要度が最も低い段階(例えば、'0')であれば、自動更新部は、入力されるテキスト情報と合成パラメータの組について作成された中間情報も中間情報テーブルに登録しない。また、重要度が中間の段階(例えば、'1')であれば、自動更新部は、入力されるテキスト情報と合成パラメータの組について作成された中間情報を中間情報テーブルに登録する。しかし自動更新部は、派生テキスト情報及び派生合成パラメータの組についての中間情報を中間情報テーブルに登録しない。また、重要度が最も高い段階(例えば、'2')であれば、自動更新部は、入力されるテキスト情報と合成パラメータの組について作成された中間情報を中間情報テーブルに登録する。さらに自動更新部は、派生テキスト情報及び派生合成パラメータの組についての中間情報も中間情報テーブルに登録する。さらに、重要度が4段階以上の何れかに設定される場合、自動更新部は、重要度が'2'以上であり、かつ高い値であるほど、多数の派生テキスト情報と派生合成パラメータの組についての中間情報を登録してもよい。 Furthermore, when the importance is set to any one of the three levels, the automatic update unit may determine intermediate information to be registered in the intermediate information table according to the importance. For example, if the level of importance is the lowest (for example, “0”), the automatic update unit does not register the intermediate information created for the set of input text information and composite parameters in the intermediate information table. If the importance level is in an intermediate stage (for example, “1”), the automatic updating unit registers the intermediate information created for the set of input text information and synthesis parameter in the intermediate information table. However, the automatic updating unit does not register the intermediate information about the set of the derived text information and the derived synthesis parameter in the intermediate information table. If the level of importance is the highest (for example, “2”), the automatic update unit registers the intermediate information created for the set of input text information and composite parameters in the intermediate information table. Further, the automatic update unit also registers intermediate information about the combination of the derived text information and the derived synthesis parameter in the intermediate information table. Furthermore, when the importance is set to any of four or more levels, the automatic update unit sets a larger number of combinations of the derived text information and the derived synthesis parameter as the importance is “2” or higher and the value is higher. You may register the intermediate information about.
この変形例では、自動更新部は、中間情報テーブルに、各中間情報とともに重要度も記録する。例えば、自動更新部は、入力テキスト情報及び合成パラメータの組について作成された中間情報に対して、その組とともに入力された重要度を中間情報テーブルに記録する。また自動更新部は、入力テキスト情報及び合成パラメータの組から作成された派生テキスト情報及び派生合成パラメータの組について求められた中間情報についても、元の入力テキスト情報及び合成パラメータの組について設定された重要度を記録する。あるいは、自動更新部は、派生テキスト情報及び派生合成パラメータの組について求められた中間情報について、元の入力テキスト情報及び合成パラメータの組について設定された重要度よりも低い重要度を中間情報テーブルに記録してもよい。 In this modification, the automatic updating unit records the importance level together with each piece of intermediate information in the intermediate information table. For example, for the intermediate information created for the combination of the input text information and the synthesis parameter, the automatic update unit records the importance input together with the combination in the intermediate information table. In addition, the automatic update unit is also set for the original input text information and the composite parameter set for the intermediate information obtained for the derived text information and the derived composite parameter set created from the input text information and the composite parameter set. Record the importance. Alternatively, the automatic update unit sets, in the intermediate information table, an importance level lower than the importance level set for the original input text information and the synthesis parameter set for the intermediate information obtained for the set of the derived text information and the derived synthesis parameter. It may be recorded.
さらに、自動更新部が存続判定部を有する場合、その存続判定部は、中間情報テーブルに記録された重要度に応じて、登録中間情報を消去するか否か判定してもよい。例えば、存続判定部は、重要度が第2の重要度閾値よりも高い登録中間情報については、使用回数が所定の閾値未満となっても、その登録中間情報を消去しない。この第2の重要度閾値は、例えば、上記の重要度閾値よりも高い値に設定される。あるいは、存続判定部は、ある登録中間情報について記録された重要度が中間情報が登録される重要度の段階のうちで最も低い段階である場合、その登録中間情報の使用回数との比較に用いる閾値を、通常用いられる閾値よりも高く設定してもよい。 Furthermore, when the automatic update unit has a survival determination unit, the survival determination unit may determine whether to delete the registered intermediate information according to the importance recorded in the intermediate information table. For example, the survival determination unit does not delete the registration intermediate information for the registration intermediate information whose importance is higher than the second importance threshold even if the number of uses is less than a predetermined threshold. The second importance level threshold is set to a value higher than the above importance level threshold, for example. Alternatively, the survival determination unit is used for comparison with the number of times of use of the registered intermediate information when the importance recorded for the registered intermediate information is the lowest of the levels of importance in which the intermediate information is registered. The threshold value may be set higher than a normally used threshold value.
図10は、この変形例による中間情報テーブルの他の一例を示す図である。中間情報テーブル1000の各行は、一つの登録中間情報に対応する。そして左から順に、各列には、それぞれ、各登録中間情報の識別番号、合成パラメータ、テキスト情報、表音情報、波形生成情報、重要度、使用回数及びチェック日時が格納される。例えば、行1001に登録された中間情報について、重要度は'5'であることが示されている。またこの登録中間情報は、前回のチェック時以降、1回も使用されていないことが示されている。同様に、行1002に登録された中間情報について、重要度は'1'であることが示されている。またこの登録中間情報も、前回のチェック時以降、1回も使用されていないことが示されている。この場合、第2の重要度閾値が例えば'2'であり、使用回数との比較に用いる閾値が'1'以上であれば、行1002に登録された中間情報は、重要度、使用回数とも閾値未満であるため、存続判定部により消去される。一方、行1001に登録された中間情報は、重要度が第2の重要度閾値よりも高いので消去されない。
FIG. 10 is a diagram showing another example of the intermediate information table according to this modification. Each row of the intermediate information table 1000 corresponds to one registered intermediate information. In order from the left, each column stores an identification number, synthesis parameter, text information, phonetic information, waveform generation information, importance, number of uses, and check date and time of each registered intermediate information. For example, the intermediate information registered in the
さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。 Furthermore, a computer program that causes a computer to realize each function of the processing unit of the speech synthesizer according to each of the above embodiments is recorded on a computer-readable medium, for example, a magnetic recording medium, an optical recording medium, or a semiconductor memory. It may be provided in the form.
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。 All examples and specific terms listed herein are intended for instructional purposes to help the reader understand the concepts contributed by the inventor to the present invention and the promotion of the technology. It should be construed that it is not limited to the construction of any example herein, such specific examples and conditions, with respect to showing the superiority and inferiority of the present invention. Although embodiments of the present invention have been described in detail, it should be understood that various changes, substitutions and modifications can be made thereto without departing from the spirit and scope of the present invention.
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
合成音声信号の元となる原文を含む入力テキスト情報と、該合成音声信号を作成するための入力合成条件とを取得する入力部と、
登録テキスト情報と登録合成条件の組と、該登録テキスト情報と該登録合成条件の組に対応する合成音声信号を作成する途中の段階で生成され、登録表音情報を含む登録中間情報との組を少なくとも一つ記憶する記憶部と、
前記入力テキスト情報または前記入力テキスト情報により表される入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致するか否か判定する一致判定部と、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致する場合、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する前記登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成する音声合成部と、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて前記音声合成部が合成音声信号を作成する途中の段階まで実行することにより作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる自動更新部と、
を有する音声合成装置。
(付記2)
前記自動更新部は、前記入力テキスト情報に含まれる原文を所定単位ごとに分割することにより複数の第2の原文を作成し、該複数の第2の原文のうちの何れかを含むように前記派生テキスト情報を作成する分割処理部を有する、付記1に記載の音声合成装置。
(付記3)
前記所定単位は、前記原文中に設定された呼気段落である、付記2に記載の音声合成装置。
(付記4)
前記所定単位は、前記原文中に句読点を設定できる少なくとも一つの位置で区切られた文の単位である、付記2に記載の音声合成装置。
(付記5)
前記音声合成部は、前記原文に対して形態素解析を実行することにより当該原文を区切る第1の位置を求める言語処理部を有し、
前記分割処理部は、前記第1の位置で前記原文を分割することにより前記複数の第2の原文のうちの一つの原文を作成するとともに、前記第1の位置と異なり、かつ句読点を設定できる第2の位置で前記原文を分割することにより前記複数の第2の原文のうちの他の原文を作成する、付記2に記載の音声合成装置。
(付記6)
前記自動更新部は、前記原文中の固有名詞を、当該固有名詞と同種類の他の固有名詞に置換することにより、前記派生テキスト情報を作成する、付記1に記載の音声合成装置。
(付記7)
前記自動更新部は、前記登録中間情報のうち、直近の所定期間内において合成音声信号を作成するために使用された回数が所定の閾値より少ない登録中間情報を消去する、付記1〜6の何れか一項に記載の音声合成装置。
(付記8)
前記入力部は、前記入力テキスト情報の重要度を当該入力テキスト情報とともに取得し、
前記自動更新部は、前記入力テキスト情報の重要度に応じて前記中間情報の第2の重要度を決定し、かつ、当該第2の重要度を、前記派生テキスト情報と前記派生合成条件の組と前記派生中間情報との組と関連付けて前記記憶部に記憶させ、
かつ、前記登録中間情報のうち、直近の所定期間内において合成音声信号を作成するために使用された回数が所定の閾値より少なく、かつ前記第2の重要度が第1の重要度閾値未満である登録中間情報を消去する、付記1〜6の何れか一項に記載の音声合成装置。
(付記9)
前記入力部は、前記入力テキスト情報の重要度を当該入力テキスト情報とともに取得し、前記自動更新部は、前記入力テキスト情報の重要度が第2の重要度閾値以上である場合、前記派生テキスト情報と前記派生合成条件の組と前記派生中間情報との組を前記記憶部に記憶し、一方、前記入力テキスト情報の重要度が前記第2の重要度閾値未満である場合、前記派生テキスト情報と前記派生合成条件の組と前記派生中間情報との組を前記記憶部に記憶しない、付記1〜6の何れか一項に記載の音声合成装置。
(付記10)
合成音声信号の元となる原文を含む入力テキスト情報と、該合成音声信号を作成するための入力合成条件とを取得し、
前記入力テキスト情報または当該入力テキスト情報により表される入力表音情報と前記入力合成条件との組が、記憶部に記憶されている少なくとも一つの登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定し、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件の組の何れかと一致する場合、前記記憶部に記憶され、かつ、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する合成音声信号を作成する途中の段階で生成される登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成し、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて合成音声信号を作成する途中で作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる、
ことを含む音声合成方法。
(付記11)
合成音声信号をコンピュータに作成させる音声信号合成用コンピュータプログラムであって、
合成音声信号の元となる原文を含む入力テキスト情報または当該入力テキスト情報により表される入力表音情報と該合成音声信号を作成するための入力合成条件との組が、記憶部に記憶されている少なくとも一つの登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定し、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致する場合、前記記憶部に記憶され、かつ、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する合成音声信号を作成する途中の段階で生成される登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成し、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて合成音声信号を作成する途中で作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる、
ことをコンピュータに実行させるコンピュータプログラム。
The following supplementary notes are further disclosed regarding the embodiment described above and its modifications.
(Appendix 1)
An input unit that obtains input text information including an original sentence that is a source of the synthesized speech signal and an input synthesis condition for creating the synthesized speech signal;
A set of registered text information and registered synthesis condition, and a set of registered intermediate information including registered phonetic information, which is generated in the middle of creating a synthesized speech signal corresponding to the set of registered text information and the registered synthesis condition A storage unit for storing at least one of
Whether the set of the input text information or the input phonetic information represented by the input text information and the input synthesis condition matches the registered text information or the set of the registered phonetic information and the registered synthesis condition A match determination unit for determining whether or not,
When the set of the input text information or the input phonetic information and the input synthesis condition matches either the registered text information or the set of the registered phonetic information and the registered synthesis condition, the registered text information or the A synthesized speech signal is created using the registered intermediate information corresponding to a set of registered phonetic information and the registered synthesis condition, while a set of the input text information or the input phonetic information and the input synthesis condition is A speech synthesizer that creates a synthesized speech signal based on the input text information and the input synthesis condition if it does not match any of the set of the registered text information or the registered phonetic information and the registered synthesis condition;
When the set of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, the input text information or the A set of derived text information and a derived synthesis condition is created by modifying the input synthesis condition, and the speech synthesis unit based on the derived text information and the derived synthesis condition set, the derived text information and the derived synthesis condition Is a set of derived intermediate information created by executing up to the middle stage of generating a synthesized speech signal as one of a set of the registered text information, the set of registered synthesis conditions, and the registered intermediate information. An automatic update unit to be stored in the storage unit;
A speech synthesizer.
(Appendix 2)
The automatic update unit creates a plurality of second original sentences by dividing the original sentence included in the input text information into predetermined units, and includes any one of the plurality of second original sentences. The speech synthesizer according to
(Appendix 3)
The speech synthesis apparatus according to
(Appendix 4)
The speech synthesizer according to
(Appendix 5)
The speech synthesizer includes a language processing unit that obtains a first position that delimits the original text by performing morphological analysis on the original text,
The division processing unit creates one original sentence of the plurality of second original sentences by dividing the original sentence at the first position, and can set punctuation marks different from the first position. The speech synthesizer according to
(Appendix 6)
The speech synthesizer according to
(Appendix 7)
The automatic update unit deletes the registration intermediate information that is used to create a synthesized speech signal within the most recent predetermined period from the registration intermediate information, the number of times being less than a predetermined threshold. The speech synthesizer according to
(Appendix 8)
The input unit acquires the importance of the input text information together with the input text information,
The automatic update unit determines a second importance of the intermediate information according to the importance of the input text information, and determines the second importance as a set of the derived text information and the derived composition condition. And associated with the set of derived intermediate information and stored in the storage unit,
And among the registration intermediate information, the number of times used for creating a synthesized speech signal within the most recent predetermined period is less than a predetermined threshold, and the second importance is less than the first importance threshold. The speech synthesizer according to any one of
(Appendix 9)
The input unit acquires the importance of the input text information together with the input text information, and the automatic update unit is configured to obtain the derived text information when the importance of the input text information is greater than or equal to a second importance threshold. And the combination of the derived synthesis condition and the derived intermediate information are stored in the storage unit, and when the importance of the input text information is less than the second importance threshold, the derived text information and The speech synthesizer according to any one of
(Appendix 10)
Obtaining input text information including the original text that is the source of the synthesized speech signal and input synthesis conditions for creating the synthesized speech signal;
The set of the input text information or the input phonetic information represented by the input text information and the input synthesis condition is at least one registered text information or registered phonetic information and the registration synthesis condition stored in the storage unit. Whether it matches any of the set of
When the set of the input text information or the input phonetic information and the input synthesis condition matches either of the registered text information or the set of the registered phonetic information and the registered synthesis condition, stored in the storage unit, In addition, a synthesized speech signal is created using registration intermediate information generated in the middle of creating a synthesized speech signal corresponding to the set of the registered text information or the registered phonetic information and the registered synthesis condition, When the set of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, the input text information and Create a synthesized speech signal based on the input synthesis conditions,
When the set of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, the input text information or the A set of derived text information and a derived synthesis condition is created by modifying the input synthesis condition, and a synthesized speech signal is generated based on the derived text information and the derived synthesis condition set, the derived text information, and the derived synthesis condition. A set of derived intermediate information created in the course of creating is stored in the storage unit as one of a set of the registered text information, the set of registered synthesis conditions, and the registered intermediate information.
A speech synthesis method.
(Appendix 11)
A computer program for speech signal synthesis that causes a computer to create a synthesized speech signal,
A set of input text information including an original sentence that is a source of a synthesized speech signal or input phonogram information represented by the input text information and an input synthesis condition for creating the synthesized speech signal is stored in a storage unit. Determining whether or not it matches any one of the set of at least one registered text information or registered phonetic information and registered synthesis condition;
When the set of the input text information or the input phonetic information and the input synthesis condition matches any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, it is stored in the storage unit. And creating a synthesized speech signal using registered intermediate information generated in the middle of creating a synthesized speech signal corresponding to a set of the registered text information or the registered phonetic information and the registered synthesis condition, On the other hand, when the set of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, the input text information And a synthesized speech signal based on the input synthesis condition,
When the set of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, the input text information or the A set of derived text information and a derived synthesis condition is created by modifying the input synthesis condition, and a synthesized speech signal is generated based on the derived text information and the derived synthesis condition set, the derived text information, and the derived synthesis condition. A set of derived intermediate information created in the course of creating is stored in the storage unit as one of a set of the registered text information, the set of registered synthesis conditions, and the registered intermediate information.
A computer program that causes a computer to execute.
1 音声合成装置
2 入力部
3 記憶部
4、41、42 処理部
5 出力部
6 スピーカ
10 一致判定部
11 音声合成部
12 言語処理部
13 韻律生成部
14 素片選択部
15 波形生成部
16 制御部
17 自動更新部
18 分割処理部
19 パラメータ調整部
20 存続判定部
21 編集部
DESCRIPTION OF
Claims (7)
登録テキスト情報と登録合成条件の組と、該登録テキスト情報と該登録合成条件の組に対応する合成音声信号を作成する途中の段階で生成され、登録表音情報を含む登録中間情報との組を少なくとも一つ記憶する記憶部と、
前記入力テキスト情報または前記入力テキスト情報により表される入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致するか否か判定する一致判定部と、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れかと一致する場合、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する前記登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成する音声合成部と、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて前記音声合成部が合成音声信号を作成する途中の段階まで実行することにより作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる自動更新部と、
を有する音声合成装置。 An input unit that obtains input text information including an original sentence that is a source of the synthesized speech signal and an input synthesis condition for creating the synthesized speech signal;
A set of registered text information and registered synthesis condition, and a set of registered intermediate information including registered phonetic information, which is generated in the middle of creating a synthesized speech signal corresponding to the set of registered text information and the registered synthesis condition A storage unit for storing at least one of
Whether the set of the input text information or the input phonetic information represented by the input text information and the input synthesis condition matches the registered text information or the set of the registered phonetic information and the registered synthesis condition A match determination unit for determining whether or not,
When the set of the input text information or the input phonetic information and the input synthesis condition matches either the registered text information or the set of the registered phonetic information and the registered synthesis condition, the registered text information or the A synthesized speech signal is created using the registered intermediate information corresponding to a set of registered phonetic information and the registered synthesis condition, while a set of the input text information or the input phonetic information and the input synthesis condition is A speech synthesizer that creates a synthesized speech signal based on the input text information and the input synthesis condition if it does not match any of the set of the registered text information or the registered phonetic information and the registered synthesis condition;
When the set of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, the input text information or the A set of derived text information and a derived synthesis condition is created by modifying the input synthesis condition, and the speech synthesis unit based on the derived text information and the derived synthesis condition set, the derived text information and the derived synthesis condition Is a set of derived intermediate information created by executing up to the middle stage of generating a synthesized speech signal as one of a set of the registered text information, the set of registered synthesis conditions, and the registered intermediate information. An automatic update unit to be stored in the storage unit;
A speech synthesizer.
前記分割処理部は、前記第1の位置で前記原文を分割することにより前記複数の第2の原文のうちの一つの原文を作成するとともに、前記第1の位置と異なり、かつ句読点を設定できる第2の位置で前記原文を分割することにより前記複数の第2の原文のうちの他の原文を作成する、請求項2に記載の音声合成装置。 The speech synthesizer includes a language processing unit that obtains a first position that delimits the original text by performing morphological analysis on the original text,
The division processing unit creates one original sentence of the plurality of second original sentences by dividing the original sentence at the first position, and can set punctuation marks different from the first position. The speech synthesizer according to claim 2, wherein another original sentence is created among the plurality of second original sentences by dividing the original sentence at a second position.
前記自動更新部は、前記入力テキスト情報の重要度に応じて前記中間情報の第2の重要度を決定し、かつ、当該第2の重要度を、前記派生テキスト情報と前記派生合成条件の組と前記派生中間情報との組と関連付けて前記記憶部に記憶させ、
かつ、前記登録中間情報のうち、直近の所定期間内において合成音声信号を作成するために使用された回数が所定の閾値より少なく、かつ前記第2の重要度が第1の重要度閾値未満である登録中間情報を消去する、請求項1〜4の何れか一項に記載の音声合成装置。 The input unit acquires the importance of the input text information together with the input text information,
The automatic update unit determines a second importance of the intermediate information according to the importance of the input text information, and determines the second importance as a set of the derived text information and the derived composition condition. And associated with the set of derived intermediate information and stored in the storage unit,
And among the registration intermediate information, the number of times used for creating a synthesized speech signal within the most recent predetermined period is less than a predetermined threshold, and the second importance is less than the first importance threshold. The speech synthesizer according to any one of claims 1 to 4, wherein certain registered intermediate information is deleted.
前記入力テキスト情報または当該入力テキスト情報により表される入力表音情報と前記入力合成条件との組が、記憶部に記憶されている少なくとも一つの登録テキスト情報または登録表音情報と登録合成条件との組の何れかと一致するか否か判定し、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件の組の何れかと一致する場合、前記記憶部に記憶され、かつ、当該登録テキスト情報または当該登録表音情報と当該登録合成条件との組に対応する合成音声信号を作成する途中の段階で生成される登録中間情報を用いて合成音声信号を作成し、一方、前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報及び前記入力合成条件に基づいて合成音声信号を作成し、
前記入力テキスト情報または前記入力表音情報と前記入力合成条件との組が前記登録テキスト情報または前記登録表音情報と前記登録合成条件との組の何れとも一致しない場合、前記入力テキスト情報または前記入力合成条件を修正することにより派生テキスト情報と派生合成条件の組を作成し、当該派生テキスト情報と当該派生合成条件の組と、当該派生テキスト情報及び当該派生合成条件に基づいて合成音声信号を作成する途中で作成された派生中間情報との組を、前記登録テキスト情報と前記登録合成条件の組と前記登録中間情報との組の一つとして前記記憶部に記憶させる、
ことを含む音声合成方法。 Obtaining input text information including the original text that is the source of the synthesized speech signal and input synthesis conditions for creating the synthesized speech signal;
The set of the input text information or the input phonetic information represented by the input text information and the input synthesis condition is at least one registered text information or registered phonetic information and the registration synthesis condition stored in the storage unit. Whether it matches any of the set of
When the set of the input text information or the input phonetic information and the input synthesis condition matches either of the registered text information or the set of the registered phonetic information and the registered synthesis condition, stored in the storage unit, In addition, a synthesized speech signal is created using registration intermediate information generated in the middle of creating a synthesized speech signal corresponding to the set of the registered text information or the registered phonetic information and the registered synthesis condition, When the set of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, the input text information and Create a synthesized speech signal based on the input synthesis conditions,
When the set of the input text information or the input phonetic information and the input synthesis condition does not match any of the registered text information or the set of the registered phonetic information and the registered synthesis condition, the input text information or the A set of derived text information and a derived synthesis condition is created by modifying the input synthesis condition, and a synthesized speech signal is generated based on the derived text information and the derived synthesis condition set, the derived text information, and the derived synthesis condition. A set of derived intermediate information created in the course of creating is stored in the storage unit as one of a set of the registered text information, the set of registered synthesis conditions, and the registered intermediate information.
A speech synthesis method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010217039A JP2012073338A (en) | 2010-09-28 | 2010-09-28 | Speech synthesizer and speech synthesis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010217039A JP2012073338A (en) | 2010-09-28 | 2010-09-28 | Speech synthesizer and speech synthesis method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012073338A true JP2012073338A (en) | 2012-04-12 |
Family
ID=46169592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010217039A Withdrawn JP2012073338A (en) | 2010-09-28 | 2010-09-28 | Speech synthesizer and speech synthesis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012073338A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USD927285S1 (en) | 2017-08-02 | 2021-08-10 | Spectrum Brands, Inc. | Deadbolt faceplate with LED strip having animated illumination |
-
2010
- 2010-09-28 JP JP2010217039A patent/JP2012073338A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USD927285S1 (en) | 2017-08-02 | 2021-08-10 | Spectrum Brands, Inc. | Deadbolt faceplate with LED strip having animated illumination |
USD1010424S1 (en) | 2017-08-02 | 2024-01-09 | Assa Abloy Americas Residential Inc. | Deadbolt faceplate with LED strip having animated illumination |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
JP5482042B2 (en) | Synthetic speech text input device and program | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
CN103093750A (en) | Music data display control apparatus and method | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP6790959B2 (en) | Speech synthesizer, speech synthesis method and speech synthesis system, and computer program for speech synthesis | |
JP4639932B2 (en) | Speech synthesizer | |
JP2010169973A (en) | System and program for supporting foreign language learning | |
US8135592B2 (en) | Speech synthesizer | |
JP6197523B2 (en) | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program | |
JP2012073338A (en) | Speech synthesizer and speech synthesis method | |
JP5177135B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP6232724B2 (en) | Speech synthesis apparatus and language dictionary registration method | |
JP2004226505A (en) | Pitch pattern generating method, and method, system, and program for speech synthesis | |
JP6142632B2 (en) | Word dictionary registration computer program, speech synthesizer, and word dictionary registration registration method | |
JP2020140374A (en) | Electronic book reproducing device and digital book reproducing program | |
JP2580565B2 (en) | Voice information dictionary creation device | |
JP2004258561A (en) | Program and device for inputting data for singing synthesis | |
JP6340839B2 (en) | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program | |
JP3414326B2 (en) | Speech synthesis dictionary registration apparatus and method | |
CN117711373A (en) | Text phoneme label information generation method and device and computer equipment | |
JP2000010579A (en) | Speech synthesizer and computer readable recording medium | |
JP6197362B2 (en) | Speech synthesis method, program, and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20131203 |