JP5765874B2 - Speech synthesis apparatus, speech synthesis method, and speech synthesis program - Google Patents
Speech synthesis apparatus, speech synthesis method, and speech synthesis program Download PDFInfo
- Publication number
- JP5765874B2 JP5765874B2 JP2008262330A JP2008262330A JP5765874B2 JP 5765874 B2 JP5765874 B2 JP 5765874B2 JP 2008262330 A JP2008262330 A JP 2008262330A JP 2008262330 A JP2008262330 A JP 2008262330A JP 5765874 B2 JP5765874 B2 JP 5765874B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- text information
- audio
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、テキスト情報の音声合成を行う音声合成装置に関し、特に、車載用ナビゲーション装置において利用される音声合成装置に関する。 The present invention relates to a speech synthesizer that performs speech synthesis of text information, and more particularly to a speech synthesizer used in an in-vehicle navigation device.
車載用電子システムでは、ラジオ放送、テレビ放送、その他の媒体から取得したコンテンツ情報の音声出力を行う機能に加えて、ラジオ放送等の外部から取得したテキスト情報の音声合成を行いこれを音声出力する機能を有するものがある。特に、ナビゲーション装置では、リアルタイムの道路交通情報を音声出力すれば、運転者の脇見運転の回避や利便性の向上を図ることができる。現在、ヨーロッパ等では、FMラジオ放送の副搬送波を利用して道路交通情報をテキスト情報として提供するトラフィックメッセージチャンネル(Traffic Message Channel:以下、TMCと称す)等のサービスが実用化されている。車載用電子システムにおいて、TMCが利用され、受信した道路交通情報を音声合成出力している。 In-vehicle electronic systems, in addition to the function to output audio of content information acquired from radio broadcasts, television broadcasts, and other media, in addition to synthesizing text information acquired from outside such as radio broadcasts, and outputting this as audio Some have functions. In particular, in a navigation device, if real-time road traffic information is output as a voice, it is possible to avoid driver's side-by-side driving and improve convenience. In Europe and the like, services such as a traffic message channel (Traffic Message Channel: hereinafter referred to as TMC) that provides road traffic information as text information using subcarriers of FM radio broadcasting are in practical use. In an in-vehicle electronic system, TMC is used to synthesize and output received road traffic information.
音声合成に関する報告は、数多く成されている。例えば、特許文献1は、素片接続型音声合成装置に関し、少なくとも音声素片の波形データを記憶する記憶手段へのアクセス速度コストを含むサブコストを有し、そのサブコストを含んで算出されたコストが所定の条件を充足する候補を選択する技術を開示する。特許文献2は、音声合成装置に関し、音声素片を接続して合成音声を生成したときに生じる歪みを算出し、その歪みに基づいて合成単位ごとに音声素片を選択する技術を開示している。 There have been many reports on speech synthesis. For example, Patent Document 1 relates to a unit connection type speech synthesizer, and has a sub cost including at least an access speed cost to a storage unit that stores waveform data of a speech unit, and a cost calculated including the sub cost is included. A technique for selecting a candidate satisfying a predetermined condition is disclosed. Patent Document 2 relates to a speech synthesizer, and discloses a technique for calculating distortion generated when speech units are connected to generate synthesized speech, and selecting speech units for each synthesis unit based on the distortion. Yes.
図1は、従来の音声合成装置の構成を示す図である。音声合成装置は、FM放送に含まれるTMCを受信するTMC受信部20と、音声合成モジュール30と、音素データを記憶するハードディスク装置40と、音声出力部50とを含んでいる。TMC受信部20は、FM放送に含まれるテキスト情報を抽出するテキスト情報抽出部22と、最新のテキスト情報を格納する最新テキスト情報記憶部24と、再生ボタン28の指示に応答してテキスト情報を音声合成モジュール30に送信するテキスト情報送信部26とを含む。音声合成モジュール30は、受信したテキスト情報の構文解析を行う構文解析部と、構文解析された単語または句などに対応する音素データをハードディスク装置40から読み出す音素選択部34と、読み出された音素を結合する音素結合部36とを有している。音声出力部50は、音素データが結合された音声データをアナログ信号に変換し、これをスピーカから出力する。
FIG. 1 is a diagram showing a configuration of a conventional speech synthesizer. The voice synthesizer includes a TMC receiver 20 that receives TMC included in FM broadcast, a voice synthesizer module 30, a
図1に示す音声合成装置において、音素データを読み出すために記憶装置40をアクセスしたり、読み出した音素データを結合するには時間がかかる。このため、ユーザからの再生指示が成されても、音声合成処理に時間がかかり、音声出力に遅延が生じてしまう。特に、テキスト情報が大きくなればなるほど、その遅延が大きくなってしまう。
In the speech synthesizer shown in FIG. 1, it takes time to access the
こうした遅延時間を解消するための方法として、ハードディスク装置40に格納されているすべての音素データを、音声合成モジュール内のメインメモリ等の作業領域に格納することが考えられるが、この方法を用いると、ハードディスク装置40からメインメモリへ音素データをロードするのに時間がかかり、しかもメインメモリの容量を大きくしなければならないためコストが増加してしまう。また、別な方法として、音声合成モジュールに処理能力の高い中央処理装置(CPU)を用い、処理速度の向上を図ることも考えられるが、この方法でも、高価なCPUを使用するためコストが高くなってしまう。
As a method for eliminating such a delay time, it is conceivable to store all phoneme data stored in the
本発明は、このような従来の課題を解決するものであり、テキスト情報の音声合成出力を短時間で行うことができ、かつ比較的安価に構成することができる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。 The present invention solves such a conventional problem, and can perform speech synthesis output of text information in a short time and can be configured relatively inexpensively, a speech synthesizer, a speech synthesis method, and An object is to provide a speech synthesis program.
本発明に係る音声合成装置は、外部からテキスト情報を取得する取得手段と、
音声合成に必要な音素データを記憶する第1の記憶手段と、前記第1の記憶手段において読み出された音素データと同一の音素データを記憶可能でありかつ前記第1の記憶手段よりもアクセス時間が速い第2の記憶手段と、前記第1および第2の記憶手段を参照し、前記テキスト情報に対応する音素データを第1および第2の記憶手段の少なくとも一方から読み出し、読み出された音素データに基づき音声データを作成する作成手段と、音声を出力する音声出力手段と、テキスト情報の音声再生の指示を入力する入力手段と、前記入力手段からの音声再生の指示の有無を判定し、音声再生の指示があるとき前記作成手段により作成された音声データを前記音声出力手段に出力させ、音声再生の指示がないとき、前記作成手段により作成された音声データを削除し、空の音声データを前記音声出力手段に出力させる制御手段とを有する。
A speech synthesizer according to the present invention includes an acquisition unit that acquires text information from outside,
First storage means for storing phoneme data necessary for speech synthesis; phoneme data that is the same as the phoneme data read in the first storage means can be stored; and more accessible than the first storage means The phoneme data corresponding to the text information is read out from at least one of the first and second storage means with reference to the second storage means that is fast in time and the first and second storage means. It determines whether or not there is a voice reproduction instruction from the input means for creating voice data based on phoneme data, a voice output means for outputting voice, an input means for inputting voice reproduction instructions for text information, and the input means. When the voice reproduction instruction is given, the voice data created by the creation means is output to the voice output means. When there is no voice reproduction instruction, the voice data is created by the creation means. Remove the voice data, and a control means for outputting an empty audio data to the audio output means.
好ましくは前記制御手段は、前記取得手段によるテキスト情報の取得に応答して前記作成手段に取得したテキスト情報に対応する音声データの作成を命令する。好ましくは前記制御手段は、前記作成手段による音声データの作成から一定時間経過したとき、前記取得手段にテキスト情報を前記作成手段へ送信させ、かつ前記作成手段に送信されたテキスト情報に対応する音声データの作成を命令する。好ましくは前記制御手段は、前記入力手段からの音声再生の指示に応答して前記取得手段にテキスト情報を前記作成手段へ送信させ、かつ前記作成手段に送信された音声データの作成を命令する。 Preferably, the control means instructs the creation means to create voice data corresponding to the acquired text information in response to the acquisition of text information by the acquisition means. Preferably, the control means causes the acquisition means to transmit text information to the creation means when a predetermined time has elapsed since the creation of the voice data by the creation means, and the voice corresponding to the text information transmitted to the creation means. Command the creation of data. Preferably, the control means causes the obtaining means to transmit text information to the creation means in response to a voice reproduction instruction from the input means, and instructs the creation means to create the voice data transmitted.
好ましくは前記第1の記憶手段は、大容量記憶装置であり、第2の記憶手段は、第1の記憶手段のキャッシュメモリであり、前記作成手段は、前記テキスト情報に対応する音素データをキャッシュメモリから読み出し、キャッシュメモリでヒットしなかった音素データを大容量記憶装置から読み出す。好ましくは前記取得手段は、放送波を受信し、放送波に含まれるテキスト情報を抽出する。 Preferably, the first storage means is a mass storage device, the second storage means is a cache memory of the first storage means, and the creation means caches phoneme data corresponding to the text information. The phoneme data that was read from the memory and did not hit in the cache memory is read from the mass storage device. Preferably, the acquisition means receives a broadcast wave and extracts text information included in the broadcast wave.
本発明に係る音声合成方法またはプログラムは、テキスト情報を取得するステップと、音声合成に必要な音素データを記憶するメモリおよびメモリから読み出された音素データと同一の音素データを記憶可能なキャッシュメモリを参照し、取得したテキスト情報に対応する音素データをメモリおよびキャッシュメモリの少なくとも一方から読み出すステップと、読み出された音素データに基づき音声データを作成するステップと、音声再生の指示の有無を判定するステップと、音声再生の指示があると判定したとき、前記作成された音声データを音声出力手段に音声出力させ、音声再生の指示がないと判定したとき、前記作成された音声データを削除し空の音声データを音声出力手段に音声出力させるステップとを有する。 A speech synthesis method or program according to the present invention includes a step of acquiring text information, a memory for storing phoneme data necessary for speech synthesis, and a cache memory capable of storing the same phoneme data as the phoneme data read from the memory To read phoneme data corresponding to the acquired text information from at least one of the memory and the cache memory, to create audio data based on the read phoneme data, and to determine whether there is an instruction to play audio And when the voice output instruction is determined to be output, the generated voice data is output to a voice output unit, and when it is determined that there is no voice playback instruction, the generated voice data is deleted. A step of causing the sound output means to output sound of empty sound data.
本発明によれば、第1の記憶装置において読み出された音素データと同一の音素データを記憶可能でありアクセス時間が速い第2の記憶装置を参照して音声データを作成するようにしたので、音声再生指示から音声出力までの時間を短縮することができる。また、音声再生指示がないときには、音声データは事実上音声出力されないので、ユーザに不快を与えることなく、一定の頻度で音声データを作成することで、不定期に生じる音声再生指示に対処することができる。 According to the present invention, the same phoneme data as the phoneme data read in the first storage device can be stored, and the voice data is created with reference to the second storage device having a fast access time. The time from the voice reproduction instruction to the voice output can be shortened. Also, when there is no voice playback instruction, the voice data is not actually output as a voice, so that the voice playback instruction that occurs irregularly can be dealt with by creating the voice data at a certain frequency without causing discomfort to the user. Can do.
本発明の最良の実施の形態について図面を参照して詳細に説明する。 The best mode for carrying out the present invention will be described in detail with reference to the drawings.
図2は、本発明の実施例に係る音声合成装置の構成を示すブロック図である。
本実施例に係る音声合成装置100は、ユーザからの指示を入力する入力部110と、外部からテキスト情報を受信する受信部120と、テキスト情報を音声合成出力するための音声データを作成する音声合成モジュール130と、音声合成出力するための音声データ等を記憶するメモリ140と、音声データに基づき音声を出力する音声出力部150と、外部装置と接続するためのインターフェースを形成する外部I/F160と、これらを接続する内部バス170とを含んで構成される。
FIG. 2 is a block diagram showing the configuration of the speech synthesizer according to the embodiment of the present invention.
The
入力部110は、リモコン、マウス等の入力装置を有する。ユーザは、入力部110を介してテキスト情報の音声再生を指示することができる。受信部120は、ラジオ放送、テレビ放送、その他の媒体からテキスト情報を受信する。例えば、TMCのようにFM放送の副搬送波に重畳された道路交通情報を受信する。受信部120は、TMCのような道路交通情報を受信する場合、常時、FM放送を受信し、最新の道路交通情報を抽出する。
The
音声合成モジュール130は、受信部120で受信されたテキスト情報に対応する音声データを作成し、作成した音声データをメモリ140に格納する。音声出力部150は、音声合成モジュール130から音声再生の指示があったとき、メモリ140に格納された音声データをアナログ信号に変換し、これをスピーカから出力する。
The
図3に受信部120の構成を示す。受信部120は、テキスト情報抽出部121、テキスト情報転送部122、テキスト情報格納部123を含んでいる。テキスト情報抽出部121は、上記したようにFM放送からテキスト情報を抽出する。テキスト情報転送部122は、好ましくは受信部120がテキスト情報を受信したとき(条件1)、ユーザからの音声再生指示があったとき(条件2)、あるいは音声データを作成してから一定時間が経過したとき(条件3)に、テキスト情報を音声合成モジュール130に転送する。条件2または3に該当するか否かは判定は音声合成モジュール130によって行われ、音声合成モジュール130から受信部120に対して送信の要求が成される。テキスト情報格納部123は、受信された最新のテキスト情報と1つ前のテキスト情報を格納し、それよりも古いテキスト情報は削除する。
FIG. 3 shows the configuration of the
図4に、音声合成モジュールの内部構成を示す。音声合成モジュール130は、音声データを作成する音声データ作成装置200と、音素データを格納する音素データ記憶装置210と、音声データ作成装置200、受信部120および音声出力部150等を制御する音声合成制御装置220とを有する。
FIG. 4 shows the internal configuration of the speech synthesis module. The
音声作成データ装置200は、音声合成制御装置220からの命令に応答して、テキスト情報に対応する必要な音素データを音素データ記憶装置210から読み出し、読み出した音素データを結合して音声データを作成する。音素データ記憶装置210は、音素データを格納する大容量のハードディスク装置212とキャッシュメモリ214とを含んでいる。音声データ作成装置200は、音素データを検索するとき、キャッシュメモリ214をアクセスし、キャッシュメモリ214にヒットする音素データがあれば、当該音素データを読み出し、キャッシュメモリ214にヒットする音素データがなければ、ハードディスク装置212から音素データを検索し、当該音素データを読み出す。
In response to a command from the speech
キャッシュメモリ214は、ハードディスク装置212において読み出された音素データと同一の音素データを記憶することで、音素データの検索に要する時間を短縮させる。但し、キャッシュメモリ214の記憶容量には制限があるため、古い音素データから順に上書きしたり、あるいはLRU(Least Recently Used)のようなアルゴリズムに従い最も古くアクセスされた音素データを書き換えるようにしてもよい。キャッシュメモリ214は、ハードディスク装置212よりもアクセス時間が速いメモリ、例えばSRAMから構成される。
The
図5に、音声データ作成装置200の構成を示す。音声データ作成装置200は、受信部120からテキスト列を取得するテキスト列取得部201、取得したテキスト列の構文解析を行う構文解析部202、構文解析された結果に基づき音素データ記憶装置210をアクセスし、そこから音素データを選択する音素選択部203、選択された音素データを結合して音声データを作成する音素結合部204と、作成された音素データをメモリ140の指定された領域に送信する音声データ送信部205を有する。
FIG. 5 shows the configuration of the audio
構文解析部202は、一連のテキスト列を主語、述語、助詞などに単語または句等に解析する。音素選択部203は、解析された単語や句などに含まれる音素に対応する音素データを音素データ記憶装置210から読み出し、音素結合部204がこれらの音素データを結合する。音声データは、音素データの結合であり、作成された音声データは、音声合成制御装置220からの命令に応答して音声データ送信部205によりメモリ140に書き込まれる。
The
図6に、音声合成制御装置の機能ブロック図を示す。音声合成制御装置220は、テキスト情報の転送を要求するテキスト情報転送要求部221と、入力部110から音声再生の指示があったか否かを判定する音声指示判定部222と、音声データ作成装置200に対し音声データの作成を要求する音声データ作成要求部223と、音声作成データ装置200に対して音声データの送信を要求する音声データ送信要求部224と、擬似音声再生するときにメモリ140に格納された音声データを消去する音声データ消去部225と、音声出力部150に音声データの音声出力を要求する音声出力要求部226とを含んでいる。音声合成制御装置220は、例えばマイクロコントローラ、マイクロコンピュータまたはマイクロプロセッサを含み、これらがプログラムを実行して上記機能を遂行するようにしてもよい。
FIG. 6 shows a functional block diagram of the speech synthesis control device. The voice
次に、本実施例に係る音声合成装置の動作について図7に示すフローチャートを参照して説明する。上記したように受信部120は、最新のテキスト情報を受信すると、当該テキスト情報を音声合成モジュール130へ送信する。音声合成制御装置220は、テキスト情報を受信すると(ステップS101)、音声データ作成装置に音声データの作成を命令する(ステップS102)。これ以外にも、音声合成制御装置220は、再生指示判定部222によりユーザからの音声再生の指示があったと判定したとき(条件2)、あるいは音声データ作成要求部223が作成命令を送信してから一定時間が経過したとき(条件3)、テキスト情報転送要求部221が受信部120に対してテキスト情報の送信を要求する。この送信要求に応答して受信部120がテキスト情報を送信し、テキスト情報が音声合成モジュール130で受信されると(ステップS101)、音声データの作成命令がなされる(ステップS102)。
Next, the operation of the speech synthesizer according to the present embodiment will be described with reference to the flowchart shown in FIG. As described above, when receiving the latest text information, the receiving
次に、音声データ作成装置200のテキスト列取得部201がテキスト情報を取得すると(ステップS103)、構文解析部202がテキスト情報の構文解析を行う(ステップS104)。次に、音素選択部203は、記憶装置210をアクセスし、構文解析された単語または句に対応する音素データを記憶装置210から読み出す。そして、音素結合部204は、読み出された音素データを結合し(ステップS105)、音声データを作成する(ステップS106)。音素データを読み出すとき、ハードディスク装置212から読み出された音素データと同一の音素データはキャッシュメモリ214に記憶される。
Next, when the text
次に、音声合成制御装置220の音声データ送信要求部224は、音声データ作成装置200に対して音声データの送信を要求する。この要求には、音声データを格納すべきメモリ140のアドレス情報が含まれている。音声データ送信部205は、音声データの送信要求に応答して、作成した音声データをメモリ140へ書き込む(ステップS107)。
Next, the voice data
次に、音声合成制御装置220の音声指示判定部222は、ユーザから音声再生の指示があったか否かを判定し(ステップS108)、再生の指示があった場合には、音声出力要求部226は、音声出力部150へ音声出力を要求するとともに、メモリ140に格納された音声データを音声出力部150へ送信する(ステップS109)。音声出力部150は、送信された音声データをアナログ信号に変換し、スピーカから音声出力をする。
Next, the voice instruction determination unit 222 of the voice
他方、ユーザから音声再生の指示がない場合には、音声データ消去部225は、メモリ140に格納された音声データを削除し(ステップS110)、音声出力要求部226は、上記と同様に音声出力部150に音声出力要求を行う。この場合、メモリ140から音声データが削除されるため、音声出力部150は、空のデータの音声出力を行うため、事実上、音声出力はされない、いわゆる擬似再生となる。音声合成制御装置220は、音声再生処理が終了したか否かを判定し、終了していなければ、ステップS105からの処理を継続する(ステップS111)。このような擬似再生処理を含ませることで、ユーザからの音声再生の指示がなくとも、テキスト情報に対応する音声データの作成が行われるため、キャッシュメモリ214にはヒット率の高い音素データを格納しておくことができる。そして、ユーザから音声再生の指示があれば、音声データ作成装置200は音声データを作成するが、仮に、再生するテキスト情報が擬似再生したテキスト情報と同じであれば、キャッシュメモリを参照することで、音素データの読み出し時間を大幅に短縮することができる。
On the other hand, when there is no voice reproduction instruction from the user, the voice
図8は、本実施例による音声合成装置と従来の音声合成装置との処理時間の比較例である。入力テキストとして「TEST」、「FAST」のそれぞれの音声出力を行ったとき、従来の音声合成装置による音声出力までの時間を、91.20%、85.70%だけ短縮することができた。 FIG. 8 is a comparative example of processing time between the speech synthesizer according to the present embodiment and the conventional speech synthesizer. When “TEST” and “FAST” were output as input texts, the time until the speech output by the conventional speech synthesizer could be reduced by 91.20% and 85.70%.
図9は、本実施例に係る音声合成装置をナビゲーション装置に適用したときの構成図である。車載用ナビゲーション装置300は、ラジオ放送やテレビ放送を受信するチューナ310を含んでおり、ラジオ放送やテレビ放送に重畳されたテキスト情報(道路交通情報)を抽出することで、当該テキスト情報を音声合成装置100において音声出力することができる。さらに、ナビゲーション装置300が無線通信手段320を含む場合には、当該無線通信手段により受信したテキスト情報を音声合成装置100において出力することができる。
FIG. 9 is a configuration diagram when the speech synthesizer according to the present embodiment is applied to a navigation device. The vehicle-mounted
なお上記実施例では、音素データ記憶装置210が音声合成モジュール130に含まれる例を示したが、これに限らず、例えば図10に示すように記憶装置210Aは内部バス170に接続されてもよい。この場合、音声合成モジュールは、内部バス170を介して音素データの読み出しを行う。また、記憶装置210Aに含まれるハードディスク装置は、音素データのみならず他のデータを記憶するようにしてもよい。例えば図9に示したようにナビゲーション装置と結合される場合には、ハードディスク装置は地図データ等を格納するものであってもよい。さらに、内部バス170を介してのメモリ140へのアクセス時間が記憶装置210A(ハードディスク装置)よりも速いならば、メモリ140をキャッシュメモリとして利用することも可能である。
In the above embodiment, the example in which the phoneme
さらに上記実施例では、音声合成制御装置220が、音声データを削除するようにしたが、これに限らず、音声データ作成装置200は、音声合成制御装置220によって音声再生の指示がないと判定されたとき、音声データを削除するようにしてもよい。この場合、音声データ作成装置200の音声データ送信部205は、空の音声データを音声合成制御装置220へ送信する。
Furthermore, in the above-described embodiment, the voice
さらに上記実施例では、音声出力を行うときに、メモリ140の領域を利用してそこに格納された音声データを音声出力部150に送信するようにしたが、音声データが格納されるアドレスが一定であれば、必ずしも音声データを送信する必要はない。この場合には、音声出力部150はメモリ140の決められたアドレスから音声データ読み出し、これを再生することができる。
Further, in the above embodiment, when performing audio output, the audio data stored in the area of the
さらに上記実施例では、メモリ140に音声データを格納する例を示したが、音声データは必ずしもメモリ140に格納される必要はない。例えば、音声出力部150が、音声出力用のリングバッファを含み、リングバッファに音声データを格納するようにしてもよい。擬似再生を行う場合には、リングバッファに格納される音声データを空にする。なお、リングバッファを用いる場合には、古い音声データから順次上書きされるように音声データを記憶する一方で、音声出力部150は、古い音声データから順に音声再生する。
Further, in the above-described embodiment, the example in which the audio data is stored in the
さらに上記実施例では、テキスト情報として不定期に受信される道路交通情報を例示したが、テキスト情報は、道路交通情報に限らず他の情報であってもよい。例えば、テキスト情報は、電子メールやその他のテキスト文書であってもよい。 Furthermore, in the said Example, although the road traffic information received irregularly as text information was illustrated, text information may be other information not only road traffic information. For example, the text information may be an email or other text document.
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 The preferred embodiment of the present invention has been described in detail above, but the present invention is not limited to the specific embodiment, and various modifications can be made within the scope of the present invention described in the claims. Deformation / change is possible.
100:音声合成装置 110:入力部
120:受信部 130:音声合成モジュール
140:メモリ 150:音声出力部
160:外部IF 170:内部バス
100: Speech synthesis device 110: Input unit 120: Reception unit 130: Speech synthesis module 140: Memory 150: Speech output unit 160: External IF 170: Internal bus
Claims (8)
音声合成に必要な音素データを記憶する第1の記憶手段と、
前記第1の記憶手段において読み出された音素データと同一の音素データを記憶可能でありかつ前記第1の記憶手段よりもアクセス時間が速い第2の記憶手段と、
前記第1および第2の記憶手段を参照し、前記テキスト情報に対応する音素データを第2の記憶手段から優先的に読み出し、前記第2の記憶手段でヒットしなかった音素データを第1の記憶手段から読み出し、読み出された音素データに基づき音声データを作成し、当該作成された音声データをメモリの予め決められたアドレスに書込む作成手段と、
前記予め決められたアドレスに書込まれた音声データに基づき音声を出力する音声出力手段と、
テキスト情報の音声再生の指示を入力する入力手段と、
前記作成手段および前記音声出力手段を制御する制御手段とを有し、
前記制御手段は、前記取得手段によって最新のテキスト情報が取得されたとき、前記作成手段に音声データを作成させ、当該音声データの作成後に、前記入力手段からの音声再生の指示の有無を判定し、音声再生の指示があるとき、前記予め決められたアドレスに書込まれた音声データを前記音声出力手段に出力させ、音声再生の指示がないとき、前記予め決められたアドレスに書込まれた音声データが出力されないように前記音声出力手段に擬似再生させ、
前記制御手段はさらに、前記入力手段からの音声再生の指示があったとき、前記取得手段にテキスト情報を前記作成手段へ送信させ、かつ前記作成手段に送信されたテキスト情報に対応する音声データを作成させ、当該音声データの作成後に、前記入力手段からの音声再生の指示の有無を判定し、前記入力手段からの音声再生の指示に応答して前記予め決められたアドレスに書込まれた音声データを前記音声出力手段に出力させ、
前記作成手段が第1の記憶手段から音素データを読み出すとき、前記第2の記憶手段は、第1の記憶手段から読み出された音素データと同一の音素データを記憶する、音声合成装置。 An acquisition means for acquiring text information from the outside;
First storage means for storing phoneme data necessary for speech synthesis;
Second storage means capable of storing the same phoneme data as the phoneme data read in the first storage means and having a faster access time than the first storage means;
Referring to the first and second storage means, phoneme data corresponding to the text information is preferentially read from the second storage means, and phoneme data that has not been hit by the second storage means is read out from the first storage means. Creation means for reading out from the storage means, creating voice data based on the read phoneme data, and writing the created voice data at a predetermined address in the memory;
Audio output means for outputting audio based on audio data written to the predetermined address;
An input means for inputting an instruction to reproduce audio of the text information;
Control means for controlling the creating means and the audio output means,
When the latest text information is acquired by the acquisition unit, the control unit causes the generation unit to generate audio data, and determines whether or not there is an instruction for audio reproduction from the input unit after the generation of the audio data. When there is a voice reproduction instruction, the voice data written at the predetermined address is output to the voice output means, and when there is no voice reproduction instruction, the voice data is written at the predetermined address. The audio output means is simulated to prevent audio data from being output,
The control unit further causes the obtaining unit to transmit text information to the creating unit when there is an audio reproduction instruction from the input unit, and the voice data corresponding to the text information transmitted to the creating unit After the creation of the audio data, it is determined whether or not there is an audio reproduction instruction from the input means, and the audio written in the predetermined address in response to the audio reproduction instruction from the input means Let the audio output means output the data,
A speech synthesizer in which, when the creation means reads phoneme data from the first storage means, the second storage means stores the same phoneme data as the phoneme data read from the first storage means.
最新のテキスト情報を外部から取得するステップと、
最新のテキスト情報が取得されたとき、および入力手段からの音声再生の指示があったとき、音声合成に必要な音素データを記憶するメモリおよびメモリから読み出された音素データと同一の音素データを記憶可能なキャッシュメモリを参照し、前記取得するステップで取得されたテキスト情報に対応する音素データをキャッシュメモリから優先的に読出し、キャッシュメモリでヒットしなかった音素データをメモリから読み出し、読み出された音素データに基づき音声データを作成し、当該作成された音声データを前記メモリおよび前記キャッシュメモリと異なる別のメモリの予め決められたアドレスに書込むステップと、
前記書込みを行った後に、音声再生の指示の有無を判定するステップと、
前記最新のテキスト情報が取得されたときには、音声再生の指示があると判定したとき、前記予め決められたアドレスに書込まれた音声データを音声出力手段に音声出力させ、音声再生の指示がないと判定したとき、前記予め決められたアドレスに書込まれた音声データが出力されないように前記音声出力手段に擬似再生させ、前記入力手段からの音声再生の指示があったときには、前記入力手段からの音声再生の指示に応答して前記予め決められたアドレスに書込まれた音声データを前記音声出力手段に出力させるステップとを有し、
前記メモリから音素データを読み出すとき、前記キャッシュメモリは、前記メモリから読み出された音素データと同一の音素データを記憶する、音声合成方法。 A speech synthesis method for synthesizing speech based on speech data,
Obtaining the latest text information from outside,
When the latest text information is acquired and when there is an instruction for voice reproduction from the input means, the phoneme data necessary for speech synthesis and the same phoneme data as the phoneme data read from the memory are stored. Referring to a storable cache memory, phoneme data corresponding to the text information acquired in the acquiring step is preferentially read from the cache memory, and phoneme data not hit in the cache memory is read from the memory and read. Creating voice data based on the phoneme data, and writing the created voice data to a predetermined address in a different memory from the memory and the cache memory;
Determining whether or not there is an instruction to reproduce sound after the writing;
When the latest text information is acquired, if it is determined that there is an instruction for sound reproduction, the sound data written at the predetermined address is output to the sound output means and there is no instruction for sound reproduction. The sound output means is reproduced in a pseudo manner so that the sound data written at the predetermined address is not output, and when there is an instruction for sound reproduction from the input means, the input means And outputting the audio data written in the predetermined address to the audio output means in response to the audio reproduction instruction of
The speech synthesis method, wherein when the phoneme data is read from the memory, the cache memory stores the same phoneme data as the phoneme data read from the memory.
最新のテキスト情報を外部から取得するステップと、
最新のテキスト情報が取得されたとき、および入力手段からの音声再生の指示があったとき、音声合成に必要な音素データを記憶するメモリおよびメモリから読み出された音素データと同一の音素データを記憶可能なキャッシュメモリを参照し、前記取得するステップで取得されたテキスト情報に対応する音素データをキャッシュメモリから優先的に読出し、キャッシュメモリでヒットしなかった音素データをメモリから読み出し、読み出された音素データに基づき音声データを作成し、当該作成された音声データを前記メモリおよび前記キャッシュメモリと異なる別のメモリの予め決められたアドレスに書込むステップと、
前記書込みを行った後に、音声再生の指示の有無を判定するステップと、
前記最新のテキスト情報が取得されたときには、音声再生の指示があると判定したとき、前記予め決められたアドレスに書込まれた音声データを音声出力手段に音声出力させ、音声再生の指示がないと判定したとき、前記予め決められたアドレスに書込まれた音声データが出力されないように前記音声出力手段に擬似再生させ、前記入力手段からの音声再生の指示があったときには、前記入力手段からの音声再生の指示に応答して前記予め決められたアドレスに書込まれた音声データを前記音声出力手段に出力させるステップとを有し、
前記メモリから音素データを読み出すとき、前記キャッシュメモリは、前記メモリから読み出された音素データと同一の音素データを記憶する、音声合成プログラム。 A speech synthesis program executed by a speech synthesizer that synthesizes speech based on speech data,
Obtaining the latest text information from outside,
When the latest text information is acquired and when there is an instruction for voice reproduction from the input means, the phoneme data necessary for speech synthesis and the same phoneme data as the phoneme data read from the memory are stored. Referring to a storable cache memory, phoneme data corresponding to the text information acquired in the acquiring step is preferentially read from the cache memory, and phoneme data not hit in the cache memory is read from the memory and read. Creating voice data based on the phoneme data, and writing the created voice data to a predetermined address in a different memory from the memory and the cache memory;
Determining whether or not there is an instruction to reproduce sound after the writing;
When the latest text information is acquired, if it is determined that there is an instruction for sound reproduction, the sound data written at the predetermined address is output to the sound output means and there is no instruction for sound reproduction. The sound output means is reproduced in a pseudo manner so that the sound data written at the predetermined address is not output, and when there is an instruction for sound reproduction from the input means, the input means And outputting the audio data written in the predetermined address to the audio output means in response to the audio reproduction instruction of
When reading phoneme data from the memory, the cache memory stores the same phoneme data as the phoneme data read from the memory.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008262330A JP5765874B2 (en) | 2008-10-09 | 2008-10-09 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008262330A JP5765874B2 (en) | 2008-10-09 | 2008-10-09 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010091829A JP2010091829A (en) | 2010-04-22 |
JP5765874B2 true JP5765874B2 (en) | 2015-08-19 |
Family
ID=42254604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008262330A Active JP5765874B2 (en) | 2008-10-09 | 2008-10-09 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5765874B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200087497A (en) | 2019-01-11 | 2020-07-21 | 주식회사 케이티 | Server, device and method for providing voice recognition service |
CN112786015A (en) * | 2019-11-06 | 2021-05-11 | 阿里巴巴集团控股有限公司 | Data processing method and device |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6050600A (en) * | 1983-08-31 | 1985-03-20 | 株式会社東芝 | Rule synthesization system |
JP2003202884A (en) * | 1991-11-12 | 2003-07-18 | Fujitsu Ltd | Speech synthesis system |
JP3279684B2 (en) * | 1992-11-17 | 2002-04-30 | 株式会社日立製作所 | Voice interface builder system |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6208968B1 (en) * | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
JP3748064B2 (en) * | 2002-02-08 | 2006-02-22 | 日本電信電話株式会社 | Speech synthesis method, speech synthesizer, and speech synthesis program |
JP3884970B2 (en) * | 2002-02-15 | 2007-02-21 | キヤノン株式会社 | Information processing apparatus and information processing method |
JP3988510B2 (en) * | 2002-04-11 | 2007-10-10 | 株式会社デンソー | Information terminal |
-
2008
- 2008-10-09 JP JP2008262330A patent/JP5765874B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010091829A (en) | 2010-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8145381B2 (en) | Transmitting data of a telematics terminal | |
JP2020079921A (en) | Voice interaction realizing method, device, computer device and program | |
US20090171674A1 (en) | Playback device systems and methods | |
CN108540842A (en) | Audio-frequence player device, audio frequency playing method, equipment and storage medium | |
JP5765874B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
EP3958577A2 (en) | Voice interaction method, voice interaction system, server and storage medium | |
US20180197532A1 (en) | Audio content censoring in vehicle infotainment system | |
US7756596B2 (en) | System, apparatus, method, recording medium and computer program for processing information | |
CN102047338B (en) | Optimizing seek functionality in media content | |
EP1455342A1 (en) | System and method for voice enabling audio compact disc players via descriptive voice commands | |
CN101452727B (en) | Vehicle-mounted media playing system and method | |
JP4209838B2 (en) | In-vehicle multimedia system, in-vehicle multimedia device and portable player | |
JPH0599678A (en) | Navigation device for vehicle | |
CN113421557A (en) | Voice interaction method, voice interaction system and storage medium | |
JP2005055607A (en) | Server, information processing terminal and voice synthesis system | |
JP5361781B2 (en) | On-vehicle electronic device and voice data dictionary generation method for music data | |
JP2010048959A (en) | Speech output system and onboard device | |
KR20060098734A (en) | Improved copyright information managing method and mobile terminal which has copyright information managing function in multimedia messaging system data | |
CN111277976B (en) | Information processing apparatus, information processing method, and program | |
JP4295718B2 (en) | In-vehicle multimedia system, computer device, in-vehicle multimedia device and portable player | |
WO2024062757A1 (en) | Information processing device, information processing system and information processing method | |
KR102001314B1 (en) | Method and apparatus of enhancing audio quality recorded in karaoke room | |
JP2007304175A (en) | On-vehicle audio device and audio system | |
KR200300045Y1 (en) | Car application Multi-interface apparatus | |
JP2865590B2 (en) | Vehicle information provision device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140303 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140618 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140626 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20140815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150325 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5765874 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |