JP2006195207A - Device and method for synthesizing voice, and program therefor - Google Patents

Device and method for synthesizing voice, and program therefor Download PDF

Info

Publication number
JP2006195207A
JP2006195207A JP2005007166A JP2005007166A JP2006195207A JP 2006195207 A JP2006195207 A JP 2006195207A JP 2005007166 A JP2005007166 A JP 2005007166A JP 2005007166 A JP2005007166 A JP 2005007166A JP 2006195207 A JP2006195207 A JP 2006195207A
Authority
JP
Japan
Prior art keywords
data
sound piece
sound
piece
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005007166A
Other languages
Japanese (ja)
Inventor
Yoshisato Miyamura
佳里 宮村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2005007166A priority Critical patent/JP2006195207A/en
Publication of JP2006195207A publication Critical patent/JP2006195207A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice synthesizer or the like permitting to obtain a synthesized voice of a long time length within a short time by simple processing or without having anything to do with a storage capacity of a temporary storage device. <P>SOLUTION: The voice synthesizer makes a sound piece editing part 5 retrieve and output a sound piece data of a sound piece agreeing with a sound piece in reading in a fixed form message from a sound piece data base 7. When an ID is contained in the fixed form message, the voice synthesizer makes the sound piece editing part retrieve and output a sound piece data made to correspond to a sound piece reading data agreeing with the reading of this ID. On the other hand, the sound piece editing part 5 selects one by one a sound piece best agreeable with each sound piece in the fixed form message from the retrieved sound piece data. As to a sound piece which could not be selected, the sound editing part 5 makes a sound processing part 41 supply a waveform data presenting a waveform for each unit voice. Then, a synthesized voice is reproduced by performing a prescribed processing to the selected sound piece data and the waveform data supplied by the sound processing part 41 by the portion which can be stored in a cache memory simultaneously. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

この発明は、音声合成装置、音声合成方法及びプログラムに関する。   The present invention relates to a speech synthesizer, a speech synthesis method, and a program.

音声を合成する手法として、録音編集方式と呼ばれる手法がある。録音編集方式は、駅の音声案内システムや、車載用のナビゲーション装置などに用いられている。
録音編集方式は、単語と、この単語を読み上げる音声を表す音片データとを対応付けておき、音声合成する対象の文章を単語に区切ってから、これらの単語に対応付けられた音片データを取得してつなぎ合わせる、という手法である。
As a technique for synthesizing speech, there is a technique called a recording editing system. The recording / editing system is used in a station voice guidance system, an in-vehicle navigation system, and the like.
In the recording and editing method, a word is associated with speech piece data representing a speech that reads out the word, a sentence to be synthesized is divided into words, and the speech piece data associated with these words is obtained. It is a method of acquiring and joining.

しかし、音片データを単につなぎ合わせた場合、音片データ同士の境界では通常、音声のピッチ成分の周波数が不連続的に変化する、等の理由で、合成音声が不自然なものとなる。そこでこの問題を解決するため、同一の音素を互いに異なった韻律で読み上げる音声を表す複数の音片データを用意し、一方で音声合成する対象の文章に韻律予測を施して、予測結果に合致する音片データを選び出してつなぎ合わせる、という手法が行われている(例えば、特許文献1参照)。
特願2004−142907号
However, when the piece data are simply joined together, the synthesized speech becomes unnatural because the frequency of the pitch component of the speech changes discontinuously at the boundary between the piece pieces data. Therefore, in order to solve this problem, multiple pieces of speech data representing speech that reads out the same phoneme with different prosody are prepared, while prosodic prediction is performed on the text to be synthesized, and it matches the prediction result. A technique of selecting and connecting sound piece data is performed (for example, see Patent Document 1).
Japanese Patent Application No. 2004-142907

しかし、合成しようとする音声が長い場合、この音声全体を表す文章に韻律予測を施すと、韻律予測の完了までに多くの時間がかかってしまい、合成音声が実際に出力されるまでにかかる時間も長くなってしまう。また、音声合成のために選び出されるべき音片データが予め分かっている場合には、文章のうち、この音片データが表す音声に相当する部分については、表音文字列から複数の音片データを索出し、最適な音片データを選択する等の処理は必要ないため、このような無駄な処理を行えば、やはり合成音声が出力されるまでの時間が長くなってしまう。そこで、所定長以上の長さを有する文節に対してはIDを付与し、この文節に相当する音片データをこのIDに対応付けて記憶しておき、このIDが供給されたとき、このIDに対応付けられた音片データを用いて所望の音声を合成することが考えられている。
ところが、従来の音声合成では、音声合成する対象の文章を表意文字列として取得し、この表意文字列に形態素解析を施すことによりこの表意文字列から表音文字列を生成して、得られた表音文字列の各部分に対応する音片データを選択する、という手法がとられる場合がある。この場合、供給されたIDに対応付けられた音片データを用いて音声を合成するという上述の手法を利用するときは、誤ってIDに形態素解析が施されないようにするための処理等、複雑な処理が別途必要になってしまっていた。
However, if the speech to be synthesized is long, if prosodic prediction is performed on a sentence representing the entire speech, it takes a long time to complete the prosodic prediction, and the time taken until the synthesized speech is actually output. Will also be long. In addition, when the speech piece data to be selected for speech synthesis is known in advance, a part corresponding to the speech represented by the speech piece data in the sentence is converted from a phonetic character string to a plurality of speech pieces. Since processing such as searching for data and selecting optimum sound piece data is not necessary, if such useless processing is performed, the time until the synthesized speech is output is also prolonged. Therefore, an ID is assigned to a phrase having a length equal to or longer than a predetermined length, and sound piece data corresponding to this phrase is stored in association with this ID. When this ID is supplied, this ID is stored. It has been considered to synthesize desired speech using sound piece data associated with.
However, in the conventional speech synthesis, the text to be synthesized is acquired as an ideographic character string, and a phonogram string is generated from the ideographic character string by performing morphological analysis on the ideographic character string. There is a case in which a method of selecting speech piece data corresponding to each part of the phonetic character string may be taken. In this case, when using the above-described method of synthesizing speech using sound piece data associated with the supplied ID, complicated processes such as processing for preventing morphological analysis from being performed on the ID by mistake. A separate process has become necessary.

一方、音片データを用いて音声合成(連続した音声を表す音声データを生成する処理)を行う装置が一度に連続して処理できる音片データの量の上限は、一般的に、キャッシュメモリ等の一時記憶装置の記憶容量によって左右されてしまう。このため、当該一時記憶装置の記憶容量を越えた音片データが供給されると、音声出力を得るまでに多くの時間を要してしまうという問題が生じていた。
つまり、この上限を超える量の音片データの供給を受けて音声合成を行う場合、このような装置は、供給された音片データのデータ量が一時記憶装置の記憶容量を超えている場合、この音片データのうち、一時記憶装置が記憶可能な分の音片データをこの一時記憶装置に記憶させ、この分についてのみまず音声合成の処理を行う。この処理が終了すると、この処理で生成された音声データを、一時記憶装置以外の第2の記憶装置(他の作業用メモリやHDD等)に記憶させる。次に、残りの音片データのうち一時記憶装置が記憶可能な分を一時記憶装置に記憶させ、この分についてのみ所定の処理を行い、この処理が終了すると、この処理で生成された音声データを、先に記憶された音声データに後続させて、第2の記憶装置に記憶させる。以後これを繰り返し、供給される音片データを用いた音声合成の処理がすべて終了した時点で、第2の記憶装置に記憶された音声データを出力して音声を再生する。上述のような処理を経て音声が再生されるため、音声出力を得るまでに多くの時間を要することとなっていた。
On the other hand, the upper limit of the amount of speech piece data that can be processed continuously at once by a device that performs speech synthesis (processing for generating speech data representing continuous speech) using speech piece data is generally a cache memory or the like. Depending on the storage capacity of the temporary storage device. For this reason, when sound piece data exceeding the storage capacity of the temporary storage device is supplied, there is a problem that it takes a long time to obtain an audio output.
In other words, when speech synthesis is performed by receiving supply of sound piece data in an amount exceeding this upper limit, such a device, when the data amount of the supplied sound piece data exceeds the storage capacity of the temporary storage device, Of this piece of piece data, the piece of piece of piece data that can be stored in the temporary storage device is stored in this piece of temporary storage device. When this process ends, the audio data generated by this process is stored in a second storage device (other work memory, HDD, etc.) other than the temporary storage device. Next, of the remaining sound piece data, the amount that can be stored in the temporary storage device is stored in the temporary storage device, and predetermined processing is performed only for this amount, and when this processing ends, the audio data generated by this processing Is stored in the second storage device after the previously stored audio data. Thereafter, this is repeated, and when all the speech synthesis processing using the supplied speech piece data is completed, the speech data stored in the second storage device is output to reproduce the speech. Since the sound is reproduced through the processing as described above, it takes a long time to obtain the sound output.

この発明は上記実状に鑑みてなされたものであり、時間長が長い合成音声を簡単な処理で短時間に得ることができる音声合成装置及び音声合成方法や、そのような音声合成装置及び音声合成方法を実現するためのプログラムを提供することを目的とする。
また、この発明は、キャッシュメモリ等の一時記憶装置の記憶容量に関わりなく音声出力を短時間で得ることができる音声合成装置及び音声合成方法や、そのような音声合成装置及び音声合成方法を実現するためのプログラムを提供することを目的とする。
The present invention has been made in view of the above circumstances, and a speech synthesizer and speech synthesis method capable of obtaining synthesized speech having a long time in a short time by simple processing, and such speech synthesizer and speech synthesis. An object is to provide a program for realizing the method.
The present invention also realizes a speech synthesizer and speech synthesis method capable of obtaining speech output in a short time regardless of the storage capacity of a temporary storage device such as a cache memory, and such a speech synthesizer and speech synthesis method. The purpose is to provide a program to do this.

上記目的を達成するため、この発明の第1の観点に係る音声合成装置は、
音片を表す、データ量が所定量以下である音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶する音片記憶手段と、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換する形態素解析部と、
前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択する選択手段と、
前記選択手段により選択された音片データのうち、前記所定量以下の分を一時記憶する一時記憶手段と、
前記一時記憶手段が一時記憶する音片データに所定の処理を施す処理手段と、
前記処理手段が処理した音片データが表す音声を再生する再生手段と、を備える、
ことを特徴とする。
In order to achieve the above object, a speech synthesizer according to the first aspect of the present invention provides:
The speech piece data representing the speech piece and having the data amount equal to or smaller than the predetermined amount is associated with the phonogram representing the reading of the speech piece data or the phonogram representing the reading of the ID for identifying the speech piece data. Sound piece storage means for storing;
A morpheme analyzer that converts an ideogram or ID supplied from the outside into a phonogram string representing the reading of the ideogram or ID;
Selection means for selecting speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit;
Temporary storage means for temporarily storing the predetermined amount or less of the piece data selected by the selection means;
Processing means for performing predetermined processing on the sound piece data temporarily stored by the temporary storage means;
Replaying means for playing back the sound represented by the sound piece data processed by the processing means,
It is characterized by that.

前記表意文字又はIDの韻律を予測する韻律予測手段を更に備えてもよく、
前記音片記憶手段は、前記音片データが表す音片のピッチの時間変化、又は、当該音片データに対応付けられたIDを読み上げる音声のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶していてもよく、
前記選択手段は、前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データのうちから、前記韻律予測手段が予測した韻律に所定の範囲で合致する韻律を表す韻律データが対応付けられている音片データを選択するものであってもよい。
Prosody prediction means for predicting the prosody of the ideogram or ID may further be provided,
The sound piece storage means stores the prosody data representing the time change of the pitch of the sound piece represented by the sound piece data or the time change of the pitch of the voice that reads out the ID associated with the sound piece data. It may be stored in association with the data,
The selection means has a predetermined range of prosody predicted by the prosody prediction means from the speech piece data associated with the phonetic character string that matches the phonetic character string obtained as a result of the conversion by the morphological analysis unit. It is also possible to select speech piece data associated with prosodic data representing the prosody that matches with.

前記選択手段は、前記韻律予測手段が予測した韻律に所定の範囲で合致しない韻律を表す韻律データが対応付けられたる音片データを、選択の対象から除外するものであってもよい。   The selection unit may exclude sound piece data associated with prosody data representing a prosody that does not match the prosody predicted by the prosody prediction unit within a predetermined range from selection targets.

音片記憶手段は、IDの読みを表す表音文字が対応付けられた音片データについては、当該音片データに対応付けられた韻律データを記憶していなくてもよく、
前記選択手段は、前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データのうちから、韻律データが対応付けられていない音片データを選択するものであってもよい。
The sound piece storage means may not store the prosodic data associated with the sound piece data for the sound piece data associated with the phonetic character representing the reading of the ID,
The selecting means selects speech piece data not associated with prosodic data from speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit. You may choose.

前記所定の処理は、前記一時記憶手段が一時記憶する音片データが表す音片の時間長が所定の時間長に合致するよう、当該音片データを変換する処理を含むものであってもよい。   The predetermined process may include a process of converting the sound piece data so that the time length of the sound piece represented by the sound piece data temporarily stored in the temporary storage unit matches a predetermined time length. .

前記所定の処理は、前記一時記憶手段が一時記憶する音片データが表す音片の時間長が所定の時間長に合致し、且つ、当該音片データが表す音片のピッチ周波数が所定の条件に合致するよう、当該音片データを変換する処理を含むものであってもよい。   In the predetermined processing, the time length of the sound piece represented by the sound piece data temporarily stored by the temporary storage unit matches the predetermined time length, and the pitch frequency of the sound piece represented by the sound piece data is a predetermined condition. It may include a process of converting the sound piece data so as to match.

前記所定の処理は、
前記一時記憶手段が一時記憶する音片データが表す音片の時間長が所定の時間長に合致するよう、当該音片データを変換する第1の処理と、
前記第1の処理を経た音片データが表す音片の波形の瞬時値と第1の局部発振信号の瞬時値との積を表すデータを生成する第2の処理と、
前記第2の処理により生成されたデータのうち、前記一時記憶手段が一時記憶する音片データの周波数と前記第1の局部発振信号の周波数との和にあたる周波数を有する成分を抽出する第3の処理と、
前記第3の処理により得られた成分が表す音片の波形の瞬時値と第2の局部発振信号の瞬時値との積を表すデータを生成する第4の処理と、
前記第4の処理により生成されたデータのうち、前記第3の処理により得られた成分の周波数と前記第2の局部発振信号の周波数との差にあたる周波数を有する成分を抽出する第5の処理と、からなっていてもよい。
この場合、前記第4の処理は、例えばm当該第4の処理により得られるデータのうち、前記第3の処理により得られた成分の周波数と前記第2の局部発振信号の周波数との差にあたる周波数を有する成分が表す音片のピッチ周波数が、前記第1の処理を経る前の音片データが表す音片のピッチ周波数に合致するように、前記韻律データに基づいて、前記第2の局部発振信号の周波数を決定する処理を含んでいればよい。
The predetermined process is:
A first process for converting the sound piece data so that the time length of the sound piece represented by the sound piece data temporarily stored by the temporary storage means matches a predetermined time length;
A second process for generating data representing the product of the instantaneous value of the waveform of the sound piece represented by the sound piece data that has undergone the first process and the instantaneous value of the first local oscillation signal;
A third component that extracts a component having a frequency corresponding to the sum of the frequency of the sound piece data temporarily stored by the temporary storage unit and the frequency of the first local oscillation signal from the data generated by the second process Processing,
A fourth process for generating data representing the product of the instantaneous value of the waveform of the sound piece represented by the component obtained by the third process and the instantaneous value of the second local oscillation signal;
Fifth processing for extracting a component having a frequency corresponding to the difference between the frequency of the component obtained by the third processing and the frequency of the second local oscillation signal from the data generated by the fourth processing It may consist of:
In this case, the fourth process corresponds to, for example, the difference between the frequency of the component obtained by the third process and the frequency of the second local oscillation signal among the data obtained by the fourth process. Based on the prosodic data, the second local part is such that the pitch frequency of the sound piece represented by the component having the frequency matches the pitch frequency of the sound piece represented by the sound piece data before undergoing the first processing. It only has to include a process for determining the frequency of the oscillation signal.

また、この発明の第2の観点に係る音声合成装置は、
音片を表す音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶する音片記憶手段と、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換する形態素解析部と、
前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択する選択手段と、
前記選択手段により選択された音片データのうち、データ量が所定量を超える音片データを、データ量が当該所定量以下である複数の音片データへと分割する分割手段と、
前記選択手段により選択された、データ量が前記所定量以下である音片データ、又は、前記分割手段による分割の結果得られた音片データのうち、前記所定量以下の分を一時記憶する一時記憶手段と、
前記一時記憶手段が一時記憶する音片データに所定の処理を施す処理手段と、
前記処理手段が処理した音片データが表す音声を再生する再生手段と、を備える、
ことを特徴とする。
A speech synthesizer according to the second aspect of the present invention provides:
Sound piece storage means for storing sound piece data representing a sound piece in association with a phonetic character representing a reading of the sound piece data or a phonetic character representing an ID reading identifying the sound piece data;
A morpheme analyzer that converts an ideogram or ID supplied from the outside into a phonogram string representing the reading of the ideogram or ID;
Selection means for selecting speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit;
Dividing means for dividing, among the sound piece data selected by the selecting means, sound piece data whose data amount exceeds a predetermined amount into a plurality of sound piece data whose data amount is equal to or less than the predetermined amount;
Temporary storage temporarily stored for the piece of piece data selected by the selection unit and having the data amount equal to or less than the predetermined amount or the piece of piece data obtained as a result of division by the dividing unit. Storage means;
Processing means for performing predetermined processing on the sound piece data temporarily stored by the temporary storage means;
Replaying means for playing back the sound represented by the sound piece data processed by the processing means,
It is characterized by that.

前記分割手段は、データ量が所定量を超える音片データを、当該音片データが表す音片のうち実質的に無音である区間に相当する位置で分割するものであってもよい。   The dividing unit may divide sound piece data having a data amount exceeding a predetermined amount at a position corresponding to a substantially silent section of sound pieces represented by the sound piece data.

また、この発明の第3の観点に係る音声合成方法は、
音片を表す、データ量が所定量以下である音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶し、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換し、
変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択し、
選択された音片データのうち、前記所定量以下の分を一時記憶し、
一時記憶された音片データに所定の処理を施し、
処理済みの音片データが表す音声を再生する、
ことを特徴とする。
Moreover, the speech synthesis method according to the third aspect of the present invention provides:
The speech piece data representing the speech piece and having the data amount equal to or smaller than the predetermined amount is associated with the phonogram representing the reading of the speech piece data or the phonogram representing the reading of the ID for identifying the speech piece data. Remember,
The ideogram or ID supplied from the outside is converted into a phonogram string representing the reading of the ideogram or ID,
Select the speech piece data associated with the phonetic character string that matches the phonetic character string obtained as a result of the conversion,
Of the selected piece data, the portion below the predetermined amount is temporarily stored,
Apply predetermined processing to the temporarily stored sound piece data,
Play the sound represented by the processed piece data,
It is characterized by that.

また、この発明の第4の観点に係る音声合成方法は、
音片を表す音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶し、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換し、
変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択し、
選択された音片データのうち、データ量が所定量を超える音片データを、データ量が当該所定量以下である複数の音片データへと分割し、
選択された、データ量が前記所定量以下である音片データ、又は、分割の結果得られた音片データのうち、前記所定量以下の分を一時記憶し、
一時記憶された音片データに所定の処理を施し、
処理済みの音片データが表す音声を再生する、
ことを特徴とする。
A speech synthesis method according to the fourth aspect of the present invention provides:
Storing the speech piece data representing the speech piece in association with the phonogram representing the reading of the speech piece data or the phonogram representing the reading of the ID identifying the speech piece data;
The ideogram or ID supplied from the outside is converted into a phonogram string representing the reading of the ideogram or ID,
Select the speech piece data associated with the phonetic character string that matches the phonetic character string obtained as a result of the conversion,
Of the selected sound piece data, the sound piece data whose data amount exceeds a predetermined amount is divided into a plurality of sound piece data whose data amount is equal to or less than the predetermined amount,
Of the selected piece of piece data whose data amount is less than or equal to the predetermined amount, or of the piece of piece data obtained as a result of the division, temporarily store the amount less than or equal to the predetermined amount,
Apply predetermined processing to the temporarily stored sound piece data,
Play the sound represented by the processed piece data,
It is characterized by that.

また、この発明の第5の観点に係るプログラムは、
コンピュータを、
音片を表す、データ量が所定量以下である音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶する音片記憶手段と、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換する形態素解析部と、
前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択する選択手段と、
前記選択された音片データのうち、前記所定量以下の分を一時記憶する一時記憶手段と、
前記一時記憶手段が記憶する音片データに所定の処理を施す処理手段と、
前記処理手段が処理した音片データが表す音声を再生する再生手段と、
して機能させるためのものであることを特徴とする。
A program according to the fifth aspect of the present invention is
Computer
The speech piece data representing the speech piece and having the data amount equal to or smaller than the predetermined amount is associated with the phonogram representing the reading of the speech piece data or the phonogram representing the reading of the ID for identifying the speech piece data. Sound piece storage means for storing;
A morpheme analyzer that converts an ideogram or ID supplied from the outside into a phonogram string representing the reading of the ideogram or ID;
Selecting means for selecting speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit;
Temporary storage means for temporarily storing less than the predetermined amount of the selected sound piece data;
Processing means for performing predetermined processing on the sound piece data stored in the temporary storage means;
Reproduction means for reproducing the sound represented by the piece data processed by the processing means;
It is for making it function.

また、この発明の第6の観点に係るプログラムは、
コンピュータを、
音片を表す音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶する音片記憶手段と、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換する形態素解析部と、
前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択する選択手段と、
前記選択手段により選択された音片データのうち、データ量が所定量を超える音片データを、データ量が当該所定量以下である複数の音片データへと分割する分割手段と、
前記選択手段により選択された、データ量が前記所定量以下である音片データ、又は、前記分割手段による分割の結果得られた音片データのうち、前記所定量以下の分を一時記憶する一時記憶手段と、
前記一時記憶手段が記憶する音片データに所定の処理を施す処理手段と、
前記処理手段が処理した音片データが表す音声を再生する再生手段と、
して機能させるためのものであることを特徴とする。
A program according to the sixth aspect of the present invention is
Computer
Sound piece storage means for storing sound piece data representing a sound piece in association with a phonetic character representing a reading of the sound piece data or a phonetic character representing an ID reading identifying the sound piece data;
A morpheme analyzer that converts an ideogram or ID supplied from the outside into a phonogram string representing the reading of the ideogram or ID;
Selection means for selecting speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit;
Dividing means for dividing, among the sound piece data selected by the selecting means, sound piece data whose data amount exceeds a predetermined amount into a plurality of sound piece data whose data amount is equal to or less than the predetermined amount;
Temporarily storing temporarily less than the predetermined amount of sound piece data selected by the selection means and having a data amount equal to or less than the predetermined amount or sound piece data obtained as a result of division by the dividing means. Storage means;
Processing means for performing predetermined processing on the sound piece data stored in the temporary storage means;
Playback means for playing back the sound represented by the sound piece data processed by the processing means;
It is for making it function.

この発明によれば、時間長が長い合成音声を簡単な処理で短時間に得ることができる音声合成装置及び音声合成方法や、そのような音声合成装置及び音声合成方法を実現するためのプログラムが実現される。
また、この発明は、キャッシュメモリ等の一時記憶装置の記憶容量に関わりなく音声出力を短時間で得ることができる音声合成装置及び音声合成方法や、そのような音声合成装置及び音声合成方法を実現するためのプログラムが実現される。
According to the present invention, there is provided a speech synthesizer and a speech synthesis method capable of obtaining a synthesized speech having a long time in a short time by a simple process, and a program for realizing such a speech synthesizer and speech synthesis method. Realized.
The present invention also realizes a speech synthesizer and speech synthesis method capable of obtaining speech output in a short time regardless of the storage capacity of a temporary storage device such as a cache memory, and such a speech synthesizer and speech synthesis method. Program is implemented.

以下、音声合成システムを例とし、図面を参照して、この発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings, taking a speech synthesis system as an example.

(第1の実施の形態)
図1は、この発明の第1の実施の形態に係る音声合成システムの構成を示す図である。図示するように、この音声合成システムは、本体ユニットMと、音片登録ユニットRとにより構成されている。
(First embodiment)
FIG. 1 is a diagram showing a configuration of a speech synthesis system according to the first embodiment of the present invention. As shown in the figure, this speech synthesis system is composed of a main unit M and a sound piece registration unit R.

本体ユニットMは、言語処理部1と、一般単語辞書2と、ユーザ単語辞書3と、規則合成処理部4と、音片編集部5と、検索部6と、音片データベース7と、伸長部8とにより構成されている。
このうち、規則合成処理部4は、音響処理部41と、検索部42と、伸長部43と、波形データベース44とより構成されている。
また、音片編集部5は、形態素解析部51と、一致音片決定部52と、韻律予測部53と、出力合成部54とより構成されている。
The main unit M includes a language processing unit 1, a general word dictionary 2, a user word dictionary 3, a rule synthesis processing unit 4, a sound piece editing unit 5, a search unit 6, a sound piece database 7, and an expansion unit. 8.
Among these, the rule synthesis processing unit 4 includes an acoustic processing unit 41, a search unit 42, an extension unit 43, and a waveform database 44.
The sound piece editing unit 5 includes a morphological analysis unit 51, a matching sound piece determination unit 52, a prosody prediction unit 53, and an output synthesis unit 54.

言語処理部1、音響処理部41、検索部42、伸長部43、音片編集部5、検索部6及び伸長部8は、いずれも、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等のプロセッサや、RAM(Random Access Memory)、ハードディスク装置等の記憶装置より構成されており、それぞれ後述する処理を行う。なお、記憶装置は、プロセッサが実行するためのプログラムを記憶する不揮発性メモリや、このプロセッサのメインメモリ(主記憶装置)として機能する揮発性メモリや、また、このプロセッサのキャッシュメモリとして機能する揮発性メモリなどより構成されている。   The language processing unit 1, the acoustic processing unit 41, the search unit 42, the expansion unit 43, the sound piece editing unit 5, the search unit 6, and the expansion unit 8 are all CPU (Central Processing Unit), DSP (Digital Signal Processor), etc. , A RAM (Random Access Memory), and a storage device such as a hard disk device, each of which performs processing to be described later. The storage device is a nonvolatile memory that stores a program to be executed by the processor, a volatile memory that functions as a main memory (main storage device) of the processor, and a volatile memory that functions as a cache memory of the processor. It consists of a memory.

また、出力合成部54は更に、例えば、D/A(Digital-to-Analog)変換器、AF(Audio Frequency)増幅器及びスピーカ等を備えている。   The output combining unit 54 further includes, for example, a D / A (Digital-to-Analog) converter, an AF (Audio Frequency) amplifier, a speaker, and the like.

なお、言語処理部1、音響処理部41、検索部42、伸長部43、音片編集部5、検索部6及び伸長部8の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。従って、例えば、伸長部43の機能を行うプロセッサが伸長部8の機能を行ってもよいし、1個のプロセッサが音響処理部41、検索部42及び伸長部43の機能を兼ねて行ってもよい。   A single processor performs a part or all of the functions of the language processing unit 1, the acoustic processing unit 41, the search unit 42, the expansion unit 43, the sound piece editing unit 5, the search unit 6 and the expansion unit 8. Also good. Therefore, for example, a processor that performs the function of the decompression unit 43 may perform the function of the decompression unit 8, or a single processor may perform the functions of the acoustic processing unit 41, the search unit 42, and the decompression unit 43. Good.

一般単語辞書2は、PROM(Programmable Read Only Memory)やハードディスク装置等の不揮発性メモリより構成されている。一般単語辞書2には、表意文字(例えば、漢字など)を含む単語等と、この単語等の読みを表す表音文字(例えば、カナや発音記号など)とが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。   The general word dictionary 2 is composed of a nonvolatile memory such as a PROM (Programmable Read Only Memory) or a hard disk device. In the general word dictionary 2, words including ideographic characters (for example, kanji) and phonograms (for example, kana and phonetic symbols) representing the reading of these words are the manufacturer of this speech synthesis system. Etc., and stored in advance in association with each other.

ユーザ単語辞書3は、EEPROM(Electrically Erasable/Programmable Read Only Memory)やハードディスク装置等のデータ書き換え可能な不揮発性メモリと、この不揮発性メモリへのデータの書き込みを制御する制御回路とにより構成されている。なお、プロセッサがこの制御回路の機能を行ってもよく、言語処理部1、音響処理部41、検索部42、伸長部43、音片編集部5、検索部6及び伸長部8の一部又は全部の機能を行うプロセッサがユーザ単語辞書3の制御回路の機能を行うようにしてもよい。
ユーザ単語辞書3は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。ユーザ単語辞書3には、一般単語辞書2に記憶されていない単語等とその読みを表す表音文字とが格納されていれば十分である。
The user word dictionary 3 includes a nonvolatile memory capable of rewriting data such as an EEPROM (Electrically Erasable / Programmable Read Only Memory) or a hard disk device, and a control circuit for controlling writing of data to the nonvolatile memory. . The processor may perform the function of the control circuit, and part of the language processing unit 1, the sound processing unit 41, the search unit 42, the expansion unit 43, the sound piece editing unit 5, the search unit 6, and the expansion unit 8 or A processor that performs all the functions may perform the function of the control circuit of the user word dictionary 3.
The user word dictionary 3 obtains words including ideograms and phonograms representing readings of these words from the outside according to user operations, and stores them in association with each other. It is sufficient that the user word dictionary 3 stores words and the like that are not stored in the general word dictionary 2 and phonograms representing the readings.

波形データベース44は、PROMやハードディスク装置等の不揮発性メモリより構成されている。波形データベース44には、表音文字と、この表音文字が表す音素を構成する素片(すなわち、1個の音素を構成する音声の波形1サイクル分(又はその他所定数のサイクル分)の音声)を表す素片波形データをエントロピー符号化して得られる圧縮波形データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、エントロピー符号化される前の素片波形データは、例えば、PCM化されたデジタル形式のデータからなっていればよい。   The waveform database 44 is composed of a nonvolatile memory such as a PROM or a hard disk device. In the waveform database 44, a phonetic character and a voice constituting a phoneme represented by the phonetic character (that is, a voice of one cycle (or other predetermined number of cycles) of a voice waveform constituting one phoneme). ) And the compressed waveform data obtained by entropy coding the segment waveform data representing the data are stored in advance in association with each other by the manufacturer of the speech synthesis system. Note that the segment waveform data before entropy encoding may be, for example, PCM digital data.

音片データベース7は、PROMやハードディスク装置等の不揮発性メモリより構成されている。
音片データベース7には、例えば、図2に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片データベース7に格納されているデータは、ヘッダ部HDR、インデックス部IDX、ディレクトリ部DIR及びデータ部DATの4種に分かれている。
The sound piece database 7 is composed of a nonvolatile memory such as a PROM or a hard disk device.
The sound piece database 7 stores, for example, data having a data structure shown in FIG. That is, as shown in the figure, the data stored in the sound piece database 7 is divided into four types: a header part HDR, an index part IDX, a directory part DIR, and a data part DAT.

なお、音片データベース7へのデータの格納は、例えば、この音声合成システムの製造者によりあらかじめ行われ、及び/又は、音片登録ユニットRが後述する動作を行うことにより行われる。   The data storage in the sound piece database 7 is performed, for example, in advance by the manufacturer of the speech synthesis system and / or by the sound piece registration unit R performing an operation described later.

ヘッダ部HDRには、音片データベース7を識別するデータや、インデックス部IDX、ディレクトリ部DIR及びデータ部DATのデータ量、データの形式、著作権等の帰属などを示すデータが格納される。   The header portion HDR stores data for identifying the sound piece database 7 and data indicating the index portion IDX, the data amount of the directory portion DIR and the data portion DAT, the format of the data, the attribution of the copyright, and the like.

データ部DATには、音片の波形を表す音片データをエントロピー符号化して得られる圧縮音片データが格納されている。
なお、音片とは、音声のうち音素1個以上を含む連続した1区間をいい、通常は単語1個分又は複数個分の区間からなる。音片は接続詞を含む場合もある。
また、エントロピー符号化される前の音片データは、上述の圧縮波形データの生成のためエントロピー符号化される前の波形データと同じ形式のデータ(例えば、PCM化されたデジタル形式のデータ)からなっていればよい。なお、エントロピー符号化される前の音片データ1個の長さ(データ量)は、キャッシュメモリの記憶容量を超えない量であるものとする。
The data portion DAT stores compressed sound piece data obtained by entropy encoding sound piece data representing a sound piece waveform.
Note that a sound piece refers to a continuous section including one or more phonemes in speech, and usually includes a section for one word or a plurality of words. Sound pieces may contain conjunctions.
Further, the sound piece data before entropy encoding is obtained from data in the same format as the waveform data before entropy encoding for generating the compressed waveform data (for example, data in digital format converted to PCM). It only has to be. Note that the length (data amount) of one piece of speech piece data before entropy coding is an amount that does not exceed the storage capacity of the cache memory.

ディレクトリ部DIRには、個々の圧縮音片データについて、
(A) この圧縮音片データが表す音片の読みを示す表音文字を表す表音データ(音片読みデータ)、
(B) この圧縮音片データが格納されている記憶位置の先頭のアドレスを表すデータ、
(C) この圧縮音片データのデータ長を表すデータ、
(D) この圧縮音片データが表す音片の発声スピード(再生した場合の時間長)を表すデータ(スピード初期値データ)、
(E) この音片の韻律を示すものとして、この音片のピッチ成分の周波数の時間変化を表す韻律データ(ピッチ成分データ)、
が、互いに対応付けられた形で格納されている。(なお、音片データベース7の記憶領域にはアドレスが付されているものとする。)
In the directory part DIR, for each compressed sound piece data,
(A) phonetic data (speech reading data) representing phonetic characters indicating the reading of the speech piece represented by the compressed speech piece data;
(B) data representing the head address of the storage location where the compressed sound piece data is stored;
(C) data representing the data length of this compressed sound piece data;
(D) data (speed initial value data) representing the utterance speed of the sound piece represented by this compressed sound piece data (time length when played back),
(E) As an indication of the prosody of this sound piece, prosodic data (pitch component data) representing the time change of the frequency of the pitch component of this sound piece,
Are stored in association with each other. (It is assumed that an address is assigned to the storage area of the sound piece database 7.)

なお、図2は、データ部DATに含まれるデータとして、読みが「サイタマ」である音片の波形を表す、データ量1410hバイトの圧縮音片データが、アドレス001A36A6hを先頭とする論理的位置に格納されている場合を例示している。(なお、本明細書及び図面において、末尾に“h”を付した数字は16進数を表す。)   In FIG. 2, as data included in the data portion DAT, compressed sound piece data having a data amount of 1410 h bytes representing a waveform of a sound piece whose reading is “Saitama” is in a logical position starting at the address 001A36A6h. The case where it is stored is illustrated. (In this specification and drawings, the number with “h” at the end represents a hexadecimal number.)

なお、上述の(A)〜(E)のデータの集合のうち少なくとも(A)のデータ(すなわち音片読みデータ)は、音片読みデータが表す表音文字に基づいて決められた順位に従ってソートされた状態で(例えば、表音文字がカナであれば、五十音順に従って、アドレス降順に並んだ状態で)、音片データベース7の記憶領域に格納されている。
また、上述のピッチ成分データは、例えば、図示するように、音片のピッチ成分の周波数を音片の先頭からの経過時間の1次関数で近似した場合における、この1次関数の切片β及び勾配αの値を示すデータからなっていればよい。(勾配αの単位は例えば[ヘルツ/秒]であればよく、切片βの単位は例えば[ヘルツ]であればよい。)
また、ピッチ成分データには更に、圧縮音片データが表す音片が、有声音又は無声音のいずれであるか、鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。
It should be noted that at least the data (A) (that is, the speech piece reading data) of the data sets (A) to (E) is sorted according to the order determined based on the phonetic characters represented by the speech piece reading data. (For example, if the phonetic character is kana, the phonetic characters are arranged in descending order of addresses in the order of the Japanese syllabary) and are stored in the storage area of the speech database 7.
In addition, the above-described pitch component data includes, for example, as shown in the figure, when the frequency of the pitch component of the sound piece is approximated by a linear function of the elapsed time from the head of the sound piece, What is necessary is just to consist of the data which show the value of gradient (alpha). (The unit of the gradient α may be [Hertz / second], for example, and the unit of the intercept β may be [Hertz], for example.)
Further, the pitch component data further indicates whether the sound piece represented by the compressed sound piece data is a voiced sound or an unvoiced sound, whether it is a nasal muffled sound, and whether it is unvoiced. Data is also included.

また、圧縮音片データは、キャッシュメモリの記憶容量を超えるような長い1個の音片データを分割して得られた、キャッシュメモリの記憶容量を超えない長さの音片データをエントロピー符号化して得られたものである場合もあるものとする。
このような圧縮音片データには、当該圧縮音片データを識別するID(IDentifier)が予め割り当てられるものとし、また、このような圧縮音片データに対応付けられる音片読みデータは、当該圧縮音片データが表す音片の読みではなく、当該圧縮音片データのIDの読みを表す表音文字列からなるものとする。更に、このような圧縮音片データに対応付けられるピッチ成分データは、当該圧縮音片データが表す音片のピッチ成分の時間変化ではなく、当該圧縮音片データのIDを読み上げる音声のピッチ成分の時間変化を表す韻律データからなるものとする。
The compressed sound piece data is obtained by entropy encoding sound piece data having a length that does not exceed the storage capacity of the cache memory, obtained by dividing one long piece of sound piece data that exceeds the storage capacity of the cache memory. In some cases.
It is assumed that an ID (IDentifier) for identifying the compressed sound piece data is assigned in advance to such compressed sound piece data, and the sound piece reading data associated with such compressed sound piece data is Suppose that it is not a reading of the sound piece represented by the sound piece data, but a phonetic character string representing the reading of the ID of the compressed sound piece data. Further, the pitch component data associated with such compressed sound piece data is not the time change of the pitch component of the sound piece represented by the compressed sound piece data, but the pitch component of the voice that reads the ID of the compressed sound piece data. It is assumed to consist of prosodic data representing temporal changes.

すなわち、例えば音片データベース7は、「リストをスクロールして、1ページ前を表示します。最初のページを表示中には、押せません。」という1個の長い文章を読み上げる音声を表す1個の長い音片データが、それぞれ「リストをスクロールして」「1ページ前を表示します」「最初のページを表示中には」「押せません」と読み上げる部分を表す4個の音片データ(これらの音片データの長さはいずれもキャッシュメモリの記憶容量を超えないものとする)へと分割され、それぞれエントロピー符号化されたものからなる4個の圧縮音片データを記憶しているものとする。
そして、これら4個の圧縮音片データのうち、例えば、音片「リストをスクロールして」に相当する音片データにはIDとして「AアBイ」が対応付けられており、以下、音片「1ページ前を表示します」、「最初のページを表示中には」又は「押せません」に相当する各音片データには、IDとして例えば、順に「CウDエ」、「EオFカ」又は「GキHク」が割り当てられているものとする。
この場合、音片「リストをスクロールして」、「1ページ前を表示します」、「最初のページを表示中には」又は「押せません」に相当する各音片データには、音片読みデータとして、順に「エイアビーイ」、「シーウディーエ」、「イーオエフカ」又は「ジーキエイチク」が対応付けて記憶されているものとする。
また、音片「リストをスクロールして」、「1ページ前を表示します」、「最初のページを表示中には」又は「押せません」に相当する各音片データには、ピッチ成分データとして、順に、「エイアビーイ」、「シーウディーエ」、「イーオエフカ」又は「ジーキエイチク」を読み上げる音声のピッチ成分の時間変化を表す韻律データが対応付けて記憶されているものとする。
That is, for example, the sound piece database 7 represents a voice that reads out one long sentence “scroll the list to display one page before. You cannot press while the first page is displayed”. 4 pieces of speech that represent the parts that are read out as “long scrolling list”, “displaying the previous page”, “while displaying the first page” and “cannot press” It is divided into data (the length of these sound piece data shall not exceed the storage capacity of the cache memory), and four pieces of compressed sound piece data each consisting of entropy-coded data are stored. It shall be.
Of these four compressed sound piece data, for example, the sound piece data corresponding to the sound piece “Scroll the list” is associated with “A AB” as an ID. For each piece of speech data corresponding to the pieces “display the previous page”, “while the first page is displayed” or “cannot be pressed”, for example, “C D D”, “ It is assumed that “E F” or “G key” is assigned.
In this case, each sound piece data corresponding to the sound pieces “scroll the list”, “display the previous page”, “while the first page is displayed” or “cannot be pressed” It is assumed that “ABI”, “SHIUDIE”, “IOFuka”, or “Zikiech” are sequentially stored as one-side reading data in association with each other.
In addition, each piece of speech data corresponding to the sound pieces “scroll the list”, “display the previous page”, “while the first page is displayed” or “cannot be pressed” As data, it is assumed that prosody data representing temporal changes in the pitch components of speech that reads out “ABI,” “Siudie,” “IOFka,” or “Zikiech” is stored in association with each other.

インデックス部IDXには、ディレクトリ部DIRのデータのおおよその論理的位置を音片読みデータに基づいて特定するためのデータが格納されている。具体的には、例えば、音片読みデータがカナを表すものであるとして、カナ文字と、先頭1字がこのカナ文字であるような音片読みデータがどのような範囲のアドレスにあるかを示すデータ(ディレクトリアドレス)とが、互いに対応付けて格納されている。   The index part IDX stores data for specifying the approximate logical position of the data in the directory part DIR based on the sound piece reading data. Specifically, for example, assuming that the sound piece reading data represents kana, the address range of the kana characters and the sound piece reading data whose first character is this kana character is in the range. Data (directory address) to be shown is stored in association with each other.

なお、一般単語辞書2、ユーザ単語辞書3、波形データベース44、一致音片決定部52の不揮発性メモリ、及び音片データベース7の一部又は全部の機能を、単一の不揮発性メモリが行うようにしてもよい。   It should be noted that the general word dictionary 2, the user word dictionary 3, the waveform database 44, the non-volatile memory of the matching sound piece determination unit 52, and a part or all of the functions of the sound piece database 7 are performed by a single non-volatile memory. It may be.

音片登録ユニットRは、図示するように、収録音片データセット記憶部10と、音片データベース作成部11と、圧縮部12とにより構成されている。なお、音片登録ユニットRは音片データベース7とは着脱可能に接続されていてもよく、この場合は、音片データベース7に新たにデータを書き込むときを除いては、音片登録ユニットRを本体ユニットMから切り離した状態で本体ユニットMに後述の動作を行わせてよい。   The sound piece registration unit R includes a recorded sound piece data set storage unit 10, a sound piece database creation unit 11, and a compression unit 12, as illustrated. Note that the sound piece registration unit R may be detachably connected to the sound piece database 7. In this case, the sound piece registration unit R is not used except when new data is written to the sound piece database 7. The main unit M may be made to perform an operation described later in a state where it is separated from the main unit M.

収録音片データセット記憶部10は、ハードディスク装置等のデータ書き換え可能な不揮発性メモリより構成されている。
収録音片データセット記憶部10には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、PCM化されたデジタル形式のデータからなっていればよい。
The recorded sound piece data set storage unit 10 is composed of a rewritable nonvolatile memory such as a hard disk device.
The recorded sound piece data set storage unit 10 includes phonetic characters representing the reading of the sound pieces and sound piece data representing the waveforms obtained by collecting the sound pieces actually uttered by a person. They are stored in advance in association with each other by the manufacturer of the speech synthesis system. The sound piece data may be composed of, for example, PCM digital data.

音片データベース作成部11及び圧縮部12は、CPU等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、このプログラムに従って後述する処理を行う。   The sound piece database creation unit 11 and the compression unit 12 include a processor such as a CPU and a memory that stores a program to be executed by the processor, and performs processing described later according to the program.

なお、音片データベース作成部11及び圧縮部12の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、言語処理部1、音響処理部41、検索部42、伸長部43、音片編集部5、検索部6及び伸長部8の一部又は全部の機能を行うプロセッサが音片データベース作成部11や圧縮部12の機能を更に行ってもよい。また、音片データベース作成部11や圧縮部12の機能を行うプロセッサが、収録音片データセット記憶部10の制御回路の機能を兼ねてもよい。   Note that a single processor may perform a part or all of the functions of the speech piece database creation unit 11 and the compression unit 12, and the language processing unit 1, the acoustic processing unit 41, the search unit 42, and the expansion unit. 43, a processor that performs some or all of the functions of the sound piece editing unit 5, the search unit 6, and the decompression unit 8 may further perform the functions of the sound piece database creation unit 11 and the compression unit 12. Further, a processor that performs the functions of the sound piece database creation unit 11 and the compression unit 12 may also function as a control circuit of the recorded sound piece data set storage unit 10.

次に、この音声合成システムの動作を説明する。   Next, the operation of this speech synthesis system will be described.

(第1の実施の形態:音片登録ユニットの動作)
まず、音片登録ユニットRの動作を説明する。
音片データベース7に音片を登録する場合、まず、音片データベース作成部11は、収録音片データセット記憶部10より、互いに対応付けられている表音文字及び音片データを読み出し、この音片データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する。
(First Embodiment: Operation of Sound Piece Registration Unit)
First, the operation of the sound piece registration unit R will be described.
When registering a sound piece in the sound piece database 7, first, the sound piece database creating unit 11 reads out the phonetic character and sound piece data associated with each other from the recorded sound piece data set storage unit 10, The time variation of the frequency of the pitch component of the voice represented by the piece data and the utterance speed are specified.

発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより特定すればよい。   The utterance speed may be specified by, for example, counting the number of samples of the sound piece data.

一方、ピッチ成分の周波数の時間変化は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分の強度を、元の値の対数(対数の底は任意)に実質的に等しい値へと変換し、値が変換されたこの小部分のスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定する。   On the other hand, the time change of the frequency of the pitch component may be specified by performing cepstrum analysis on the sound piece data, for example. Specifically, for example, the waveform represented by the sound piece data is divided into a number of small parts on the time axis, and the intensity of each obtained small part is converted to the logarithm of the original value (the base of the logarithm is arbitrary). Convert to a substantially equal value, and use this fast Fourier transform method (or generate data that represents the result of Fourier transform of discrete variables, etc.) (Any method). Then, the minimum value among the frequencies giving the maximum value of the cepstrum is specified as the frequency of the pitch component in this small portion.

なお、ピッチ成分の周波数の時間変化は、例えば、特開2003−108172号公報に開示された手法に従って音片データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。具体的には、音片データをフィルタリングしてピッチ信号を抽出し、抽出されたピッチ信号に基づいて、音片データが表す波形を単位ピッチ長の区間へと区切り、各区間について、ピッチ信号との相関関係に基づいて位相のずれを特定して各区間の位相を揃えることにより、音片データをピッチ波形信号へと変換すればよい。そして、得られたピッチ波形信号を音片データとして扱い、ケプストラム解析を行う等することにより、ピッチ成分の周波数の時間変化を特定すればよい。   The time change of the frequency of the pitch component is specified based on the pitch waveform data after the sound piece data is converted into the pitch waveform data according to the method disclosed in Japanese Patent Laid-Open No. 2003-108172, for example. A good result can be expected. Specifically, the pitch data is extracted by filtering the piece data, and the waveform represented by the piece data is divided into sections of unit pitch length based on the extracted pitch signal. It is only necessary to convert the sound piece data into a pitch waveform signal by identifying the phase shift based on the correlation and aligning the phases of each section. Then, the obtained pitch waveform signal is handled as sound piece data, and a cepstrum analysis is performed, for example, so that the time change of the frequency of the pitch component may be specified.

一方、音片データベース作成部11は、収録音片データセット記憶部10より読み出した音片データを圧縮部12に供給する。
圧縮部12は、音片データベース作成部11より供給された音片データをエントロピー符号化して圧縮音片データを作成し、音片データベース作成部11に返送する。
On the other hand, the sound piece database creation unit 11 supplies the sound piece data read from the recorded sound piece data set storage unit 10 to the compression unit 12.
The compression unit 12 entropy-encodes the sound piece data supplied from the sound piece database creation unit 11 to create compressed sound piece data, and returns the compressed sound piece data to the sound piece database creation unit 11.

音片データの発声スピード及びピッチ成分の周波数の時間変化を特定し、この音片データがエントロピー符号化され圧縮音片データとなって圧縮部12より返送されると、音片データベース作成部11は、この圧縮音片データを、データ部DATを構成するデータとして、音片データベース7の記憶領域に書き込む。   When the time variation of the voice speed of the speech piece data and the frequency of the pitch component is specified, and this speech piece data is entropy encoded and returned as compressed speech piece data from the compression unit 12, the speech piece database creation unit 11 The compressed sound piece data is written in the storage area of the sound piece database 7 as data constituting the data part DAT.

また、音片データベース作成部11は、書き込んだ圧縮音片データが表す音片の読みを示すものとして収録音片データセット記憶部10より読み出した表音文字を、音片読みデータとして音片データベース7の記憶領域に書き込む。
また、書き込んだ圧縮音片データの、音片データベース7の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース7の記憶領域に書き込む。
The speech piece database creation unit 11 also uses the phonetic character database read from the recorded speech piece data set storage unit 10 as the speech piece reading data to indicate the reading of the speech piece represented by the written compressed speech piece data. 7 is written in the storage area.
Further, the head address of the written compressed sound piece data in the storage area of the sound piece database 7 is specified, and this address is written in the storage area of the sound piece database 7 as the data (B) described above.
Further, the data length of the compressed sound piece data is specified, and the specified data length is written in the storage area of the sound piece database 7 as data (C).
In addition, data indicating the result of specifying the time variation of the voice generation speed and pitch component frequency represented by the compressed sound piece data is generated and stored in the storage area of the sound piece database 7 as speed initial value data and pitch component data. Write.

(第1の実施の形態:本体ユニットの動作)
次に、本体ユニットMの動作を説明する。以下では、まず、言語処理部1が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章(フリーテキスト)を記述したフリーテキストデータを外部から取得したとして説明する。
(First Embodiment: Operation of Main Unit)
Next, the operation of the main unit M will be described. In the following, first, it is assumed that the language processing unit 1 has acquired free text data describing a sentence (free text) including an ideogram prepared by the user as a target for synthesizing speech in the speech synthesis system. .

なお、言語処理部1がフリーテキストデータを取得する手法は任意であり、例えば、図示しないインターフェース回路を介して外部の装置やネットワークから取得してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体(例えば、フロッピー(登録商標)ディスクやCD−ROMなど)から、この記録媒体ドライブ装置を介して読み取ってもよい。   The language processing unit 1 may acquire any free text data. For example, the language processing unit 1 may acquire the free text data from an external device or a network via an interface circuit (not shown), or may be set in a recording medium drive device (not shown). Alternatively, the data may be read from a recording medium (for example, a floppy (registered trademark) disk, a CD-ROM, or the like) via the recording medium drive device.

また、言語処理部1の機能を行っているプロセッサが、自ら実行している他の処理で用いたテキストデータを、フリーテキストデータとして、言語処理部1の処理へと引き渡すようにしてもよい。
プロセッサが実行する当該他の処理としては、例えば、音声を表す音声データを取得し、この音声データに音声認識を施すことにより、この音声が表す語句を特定し、特定した語句に基づいて、この音声の発話者の要求の内容を特定して、特定した要求を満足させるために実行すべき処理を特定して実行するようなエージェント装置の機能をプロセッサに行わせるための処理などが考えられる。
Alternatively, the processor performing the function of the language processing unit 1 may deliver the text data used in other processing executed by itself to the processing of the language processing unit 1 as free text data.
As the other processing executed by the processor, for example, voice data representing voice is acquired, and voice recognition is performed on the voice data to identify a phrase represented by the voice. Based on the identified phrase, For example, processing for causing the processor to perform the function of the agent device that specifies the content of the request of the voice speaker and specifies and executes the processing to be executed to satisfy the specified request can be considered.

フリーテキストデータを取得すると、言語処理部1は、このフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書2やユーザ単語辞書3を検索することにより特定する。そして、この表意文字を、特定した表音文字へと置換する。そして、言語処理部1は、フリーテキスト内の表意文字がすべて表音文字へと置換した結果得られる表音文字列を、規則合成処理部4の音響処理部41へと供給する。   When the free text data is acquired, the language processing unit 1 specifies a phonetic character representing the reading of each ideographic character included in the free text by searching the general word dictionary 2 and the user word dictionary 3. . Then, the ideogram is replaced with the specified phonogram. Then, the language processing unit 1 supplies the phonogram string obtained as a result of replacing all ideographic characters in the free text with phonograms to the acoustic processing unit 41 of the rule synthesis processing unit 4.

音響処理部41は、言語処理部1より表音文字列を供給されると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す音素を構成する素片の波形を検索するよう、検索部42に指示する。また、音響処理部41は、この表音文字列を、音片編集部5の韻律予測部53に供給する。   When the sound processing unit 41 is supplied with a phonetic character string from the language processing unit 1, for each phonetic character included in the phonetic character string, the waveform of the segment constituting the phoneme represented by the phonetic character The search unit 42 is instructed to search for. The acoustic processing unit 41 supplies the phonetic character string to the prosody prediction unit 53 of the speech piece editing unit 5.

検索部42は、この指示に応答して波形データベース44を検索し、この指示の内容に合致する圧縮波形データを索出する。そして、索出された圧縮波形データを伸長部43へと供給する。   The search unit 42 searches the waveform database 44 in response to this instruction, and searches for compressed waveform data that matches the contents of this instruction. Then, the searched compressed waveform data is supplied to the decompression unit 43.

伸長部43は、検索部42より供給された圧縮波形データを、圧縮される前の素片波形データへと復元し、検索部42へと返送する。検索部42は、伸長部43より返送された素片波形データを、検索結果として音響処理部41へと供給する。   The decompression unit 43 restores the compressed waveform data supplied from the search unit 42 to the segment waveform data before being compressed, and returns it to the search unit 42. The search unit 42 supplies the segment waveform data returned from the decompression unit 43 to the acoustic processing unit 41 as a search result.

一方、音響処理部41より表音文字列を供給された韻律予測部53は、この表音文字列に、例えば「藤崎モデル」や「ToBI(Tone and Break Indices)」等の韻律予測の手法に基づいた解析を加えることにより、この表音文字列が表す音声の韻律(アクセント、イントネーション、強勢、音素の時間長など)を予測し、予測結果を表す韻律予測データを生成する。そして、この韻律予測データを、音響処理部41に供給する。   On the other hand, the prosodic prediction unit 53 supplied with the phonetic character string from the acoustic processing unit 41 uses the phonetic character string as a prosody prediction method such as “Fujisaki model” or “ToBI (Tone and Break Indices)”. By adding the analysis based on this, the prosody of the speech represented by the phonetic character string (accent, intonation, stress, phoneme duration, etc.) is predicted, and prosodic prediction data representing the prediction result is generated. Then, this prosodic prediction data is supplied to the acoustic processing unit 41.

音響処理部41は、検索部42より素片波形データを供給され、韻律予測部53より韻律予測データを供給されると、供給された素片波形データを用いて、言語処理部1が供給した表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを生成する。   When the acoustic processing unit 41 is supplied with the segment waveform data from the search unit 42 and is supplied with the prosody prediction data from the prosody prediction unit 53, the language processing unit 1 uses the supplied segment waveform data. Speech waveform data representing a speech waveform represented by each phonogram included in the phonogram string is generated.

具体的には、音響処理部41は、例えば、検索部42より供給された各々の素片波形データが表す素片により構成されている音素の時間長を、韻律予測部53より供給された韻律予測データに基づいて特定する。そして、特定した音素の時間長を、当該素片波形データが表す素片の時間長で除した値に最も近い整数を求め、当該素片波形データを、求めた整数に等しい個数分相互に結合することにより、音声波形データを生成すればよい。   Specifically, the acoustic processing unit 41 uses, for example, the prosody supplied from the prosody prediction unit 53 to determine the time length of phonemes configured by the segments represented by the respective segment waveform data supplied from the search unit 42. Identify based on forecast data. Then, an integer closest to the value obtained by dividing the time length of the specified phoneme by the time length of the segment represented by the segment waveform data is obtained, and the segment waveform data is mutually connected by the number equal to the obtained integer. Thus, the speech waveform data may be generated.

なお、音響処理部41は、音声波形データが表す音声の時間長を韻律予測データに基づいて決定するのみならず、音声波形データを構成する素片波形データを加工して、音声波形データが表す音声が、当該韻律予測データが示す韻律に合致する強度やイントネーション等を有するようにしてもよい。   The acoustic processing unit 41 not only determines the time length of the speech represented by the speech waveform data based on the prosodic prediction data, but also processes the segment waveform data constituting the speech waveform data to represent the speech waveform data. The voice may have intensity, intonation, and the like that match the prosody indicated by the prosodic prediction data.

そして、音響処理部41は、生成された音声波形データを、言語処理部1より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部5の出力合成部54へと供給する。   Then, the sound processing unit 41 synthesizes the generated speech waveform data from the speech piece editing unit 5 in the order in which the phonograms are arranged in the phonogram string supplied from the language processing unit 1. To the unit 54.

出力合成部54は、音響処理部41より音声波形データを供給されると、この音声波形データを、音響処理部41より供給された順序で互いに結合することにより、合成音声を表すデータ(合成音声データ)を生成する。そして出力合成部54は、この合成音声データが表す音声を再生する。フリーテキストデータに基づいて合成されたこの合成音声は、規則合成方式の手法により合成された音声に相当する。   When the voice synthesis data is supplied from the acoustic processing unit 41, the output synthesis unit 54 combines the voice waveform data with each other in the order supplied by the acoustic processing unit 41, thereby expressing the data (synthetic voice). Data). Then, the output synthesizer 54 reproduces the voice represented by the synthesized voice data. This synthesized speech synthesized based on the free text data corresponds to speech synthesized by the rule synthesis method.

出力合成部54は、合成音声データを生成する際、音声波形データのデータ量が所定の上限(具体的には、キャッシュメモリの記憶容量)を超える場合は、まずこの上限を超えない分の音声波形データをキャッシュメモリに記憶させる。そして、キャッシュメモリに記憶された分の音声波形データに所定の処理を施した後、この処理を経た音声波形データをメインメモリの記憶領域内に格納し、残りの音声波形データのうちデータ量が所定の上限を超えない分の音声波形データをキャッシュメモリに記憶させ、上述と同様に所定の処理を施す。メインメモリは、処理を経た音声波形データを、メインメモリの記憶領域内で先に記憶されている処理済の音声波形データに後続するようにして順次記憶する。そして出力合成部54は、音響処理部41より供給された音声波形データすべてに当該所定の処理を施し終わると、この時点でメインメモリに記憶されている音声波形データの連続(すなわち合成音声データ)が表す音声を再生するものとする。   When the synthesized speech data is generated, the output synthesis unit 54, if the data amount of the speech waveform data exceeds a predetermined upper limit (specifically, the storage capacity of the cache memory), first, the voice corresponding to the upper limit is not exceeded. Waveform data is stored in a cache memory. Then, after performing predetermined processing on the amount of audio waveform data stored in the cache memory, the audio waveform data subjected to this processing is stored in the storage area of the main memory, and the amount of data of the remaining audio waveform data is The voice waveform data that does not exceed the predetermined upper limit is stored in the cache memory, and predetermined processing is performed in the same manner as described above. The main memory sequentially stores the processed audio waveform data following the processed audio waveform data previously stored in the storage area of the main memory. When the output synthesizing unit 54 finishes performing the predetermined process on all the audio waveform data supplied from the acoustic processing unit 41, the output synthesizing unit 54 continues the audio waveform data stored in the main memory at this time (ie, synthesized audio data). It is assumed that the sound represented by is reproduced.

なお、出力合成部54は、合成音声データが表す合成音声を再生すると共に、あるいは合成音声を再生する代わりに、任意の手法により合成音声データを外部に出力するようにしてもよい。具体的には、例えば、図示しないインターフェース回路を介して外部の装置やネットワークに送出してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体へ、この記録媒体ドライブ装置を介して書き込んでもよい。また、出力合成部54の機能を行っているプロセッサが、自ら実行している他の処理へと、合成音声データを引き渡すようにしてもよい。   The output synthesizer 54 may reproduce the synthesized voice data represented by the synthesized voice data, or may output the synthesized voice data to the outside by any method instead of playing the synthesized voice. Specifically, for example, it may be sent to an external device or a network via an interface circuit (not shown), or written to a recording medium set in a recording medium drive device (not shown) via this recording medium drive device. But you can. Further, the processor that performs the function of the output synthesis unit 54 may deliver the synthesized voice data to another process that is being executed by the processor.

次に、音響処理部41が、外部より配信された、表音文字列を表すデータ(配信文字列データ)を取得したとする。(なお、音響処理部41が配信文字列データを取得する手法も任意であり、例えば、言語処理部1がフリーテキストデータを取得する手法と同様の手法で配信文字列データを取得すればよい。)   Next, it is assumed that the acoustic processing unit 41 acquires data representing a phonetic character string (delivery character string data) distributed from the outside. (Note that the method by which the acoustic processing unit 41 acquires the distribution character string data is also arbitrary. For example, the distribution character string data may be acquired by a method similar to the method by which the language processing unit 1 acquires the free text data. )

この場合、音響処理部41は、配信文字列データが表す表音文字列を、言語処理部1より供給された表音文字列と同様に扱う。この結果、配信文字列データが表す表音文字列に含まれる表音文字が表す音素を構成する素片を表す圧縮波形データが検索部42により索出され、圧縮される前の素片波形データが伸長部43により復元される。一方で、韻律予測部53により、配信文字列データが表す表音文字列に韻律予測の手法に基づいた解析が加えられ、この結果、この表音文字列が表す音声の韻律の予測結果を表す韻律予測データが生成される。そして音響処理部41が、配信文字列データが表す表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを、復元された各素片波形データと、韻律予測データとに基づいて生成し、出力合成部54は、生成された音声波形データを、配信文字列データが表す表音文字列内での各表音文字の並びに従った順序で互いに結合することにより合成音声データを生成し、この合成音声データが表す合成音声を再生し、あるいはこの合成音声データを外部に出力する。配信文字列データに基づいて合成されたこの合成音声データも、規則合成方式の手法により合成された音声を表す。   In this case, the acoustic processing unit 41 handles the phonetic character string represented by the distribution character string data in the same manner as the phonetic character string supplied from the language processing unit 1. As a result, the compressed waveform data representing the phoneme constituting the phoneme represented by the phonetic character included in the phonetic character string represented by the delivery character string data is retrieved by the search unit 42, and the segment waveform data before being compressed. Is restored by the decompression unit 43. On the other hand, the prosody prediction unit 53 adds an analysis based on the prosody prediction method to the phonetic character string represented by the distribution character string data, and as a result, represents the prediction result of the prosody of the voice represented by the phonetic character string. Prosodic prediction data is generated. Then, the acoustic processing unit 41 converts the speech waveform data representing the speech waveform represented by each phonogram included in the phonogram string represented by the distribution character string data, the restored segment waveform data, and the prosody prediction data. The output synthesizer 54 synthesizes the generated speech waveform data by combining the generated speech waveform data with each other in the order of the phonograms in the phonogram string represented by the distribution character string data. The voice data is generated, the synthesized voice represented by the synthesized voice data is reproduced, or the synthesized voice data is output to the outside. This synthesized voice data synthesized based on the distribution character string data also represents voice synthesized by the rule synthesis method.

次に、音片編集部5が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得したとする。   Next, it is assumed that the sound piece editing unit 5 acquires the standard message data, the utterance speed data, and the collation level data.

なお、定型メッセージデータは、定型メッセージを表意文字列として表すデータである。この表意文字列には上述のIDも含まれ得るものとする。従って例えば、定型メッセージデータの作成者は、例えば上述の長い文章「リストをスクロールして、1ページ前を表示します。最初のページを表示中には、押せません。」を定型メッセージ(又はその一部)として本体ユニットMに読み上げさせたい場合、定型メッセージデータに、上述の4個のID「AアBイ」、「CウDエ」、「EオFカ」及び「GキHク」を互いに連続した形で含ませればよい。   The fixed message data is data representing the fixed message as an ideographic character string. This ideographic character string may include the above-mentioned ID. Thus, for example, the creator of the standard message data, for example, reads the above-mentioned long sentence “scroll the list to display the previous page. It cannot be pressed while the first page is displayed.” If you want the main unit M to read out as a part of it, the above-mentioned four IDs “A AB”, “C D D”, “E OFF F” and “G K H” ”May be included in a continuous form.

発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値(この定型メッセージを発声する時間長の指定値)を示すデータである。
照合レベルデータは、検索部6が行う後述の検索処理における検索条件を指定するデータであり、以下では「1」、「2」又は「3」のいずれかの値をとるものとし、「3」が最も厳格な検索条件を示すものとする。
The utterance speed data is data indicating a specified value of the utterance speed of the standard message represented by the standard message data (specified value of the time length for uttering this standard message).
The collation level data is data for designating a search condition in a search process to be described later performed by the search unit 6, and is assumed to take one of the values “1”, “2”, or “3” below, and “3”. Indicates the strictest search condition.

また、音片編集部5が定型メッセージデータや発声スピードデータや照合レベルデータを取得する手法は任意であり、例えば、言語処理部1がフリーテキストデータを取得する手法と同様の手法で定型メッセージデータや発声スピードデータや照合レベルデータを取得すればよい。   Moreover, the method by which the speech piece editing unit 5 acquires the standard message data, the utterance speed data, and the collation level data is arbitrary. For example, the standard message data may be obtained by the same method as the method by which the language processing unit 1 acquires the free text data. And speaking speed data and collation level data may be acquired.

定型メッセージデータ、発声スピードデータ、及び照合レベルデータが音片編集部5に供給されると、音片編集部5の形態素解析部51は、定型メッセージデータに公知の手法による形態素解析を施すことにより、定型メッセージデータを構成する表意文字列を、表音文字列へと置換する。そして、得られた表音文字列を一致音片決定部52へと供給する。
なお、形態素解析部51はIDも表音文字列に変換する。従って、例えば定型メッセージデータに上述の4個のID「AアBイ」、「CウDエ」、「EオFカ」及び「GキHク」が含まれている場合、形態素解析部51は、これら4個のIDを、「エイアビーイ」、「シーウディーエ」、「イーオエフカ」及び「ジーキエイチク」の4個の表音文字列へと変換する。
When the standard message data, the utterance speed data, and the collation level data are supplied to the sound piece editing unit 5, the morpheme analysis unit 51 of the sound piece editing unit 5 performs morphological analysis on the fixed message data by a known method. The ideographic character string constituting the standard message data is replaced with the phonetic character string. Then, the obtained phonetic character string is supplied to the matching sound piece determination unit 52.
Note that the morpheme analyzer 51 also converts the ID into a phonetic character string. Therefore, for example, when the fixed message data includes the above-mentioned four IDs “A AB”, “C D D”, “E OF F” and “G KI H KU”, the morphological analysis unit 51 converts these four IDs into four phonetic character strings of “AAVIE”, “SEUDIE”, “IOFKA”, and “Zikiech”.

一致音片決定部52は、表音文字列を形態素解析部51より供給されると、この表音文字列に合致する表音文字列が対応付けられている圧縮音片データをすべて索出するよう、検索部6に指示する。   When the phonetic character string is supplied from the morphological analysis unit 51, the coincident phone piece determination unit 52 searches for all the compressed phoneme data associated with the phonetic character string that matches the phonetic character string. The search unit 6 is instructed.

検索部6は、一致音片決定部52の指示に応答して音片データベース7を検索し、該当する圧縮音片データと、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データとを索出し、索出された圧縮音片データを伸長部43へと供給する。複数の圧縮音片データが共通の表音文字ないし表音文字列に該当する場合も、該当する圧縮音片データすべてが、音声合成に用いられるデータの候補として索出される。一方、圧縮音片データを索出できなかった音片があった場合、検索部6は、該当する音片を識別するデータ(以下、欠落部分識別データと呼ぶ)を生成する。   The search unit 6 searches the sound piece database 7 in response to an instruction from the matching sound piece determination unit 52, and reads the corresponding compressed sound piece data and the above-described sound piece reading associated with the corresponding compressed sound piece data. Data, speed initial value data, and pitch component data are retrieved, and the retrieved compressed sound piece data is supplied to the decompression unit 43. Even when a plurality of compressed speech piece data corresponds to a common phonetic character or phonetic character string, all the corresponding compressed speech piece data are searched for as data candidates used for speech synthesis. On the other hand, when there is a sound piece for which compressed sound piece data could not be found, the search unit 6 generates data for identifying the corresponding sound piece (hereinafter referred to as missing portion identification data).

伸長部43は、検索部6より供給された圧縮音片データを、圧縮される前の音片データへと復元し、検索部6へと返送する。検索部6は、伸長部43より返送された音片データと、索出された音片読みデータ、スピード初期値データ及びピッチ成分データとを、検索結果として一致音片決定部52へと供給する。また、欠落部分識別データを生成した場合は、この欠落部分識別データも一致音片決定部52へと供給する。   The decompression unit 43 restores the compressed sound piece data supplied from the search unit 6 to the sound piece data before being compressed, and returns it to the search unit 6. The search unit 6 supplies the sound piece data returned from the decompression unit 43 and the searched sound piece reading data, speed initial value data, and pitch component data to the matching sound piece determination unit 52 as search results. . When missing part identification data is generated, this missing part identification data is also supplied to the matching sound piece determination unit 52.

一致音片決定部52は、検索部6より音片データ、音片読みデータ及びピッチ成分データを供給されると、供給された音片データのうちから、定型メッセージを構成する音片の波形に近似できる波形を表す音片データを、音片1個につき1個ずつ選択する。ただし、一致音片決定部52は、いかなる条件を満たす波形を定型メッセージの音片に近い波形とするかを、音片編集部5に供給された照合レベルデータに従って設定する。   When the sound piece data, the sound piece reading data, and the pitch component data are supplied from the search unit 6, the coincidence sound piece determination unit 52 converts the sound piece data from the supplied sound piece data into the waveform of the sound piece constituting the standard message. One piece of sound piece data representing a waveform that can be approximated is selected for each piece of sound piece. However, the matching sound piece determination unit 52 sets, according to the collation level data supplied to the sound piece editing unit 5, what kind of waveform is to be a waveform close to the sound piece of the standard message.

具体的には、まず、一致音片決定部52は、例えば定型メッセージデータを韻律予測部53に供給し、韻律予測部53に、この定型メッセージデータが表す定型メッセージの韻律を予測するよう指示する。韻律予測部53はこの指示に従い、上述した韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測し、予測結果を表す韻律予測データを生成して、一致音片決定部52に返送する。なお、韻律予測部53はIDの韻律も予測する。   Specifically, first, the matching sound piece determination unit 52 supplies, for example, fixed message data to the prosody prediction unit 53, and instructs the prosody prediction unit 53 to predict the prosody of the fixed message represented by the fixed message data. . In accordance with this instruction, the prosody prediction unit 53 performs analysis based on the above-described prosodic prediction method, predicts the prosody of this fixed message, generates prosodic prediction data representing the prediction result, and matches the speech piece determination unit Return to 52. The prosody prediction unit 53 also predicts the ID prosody.

韻律予測データを取得すると、一致音片決定部52は、例えば、
(1) 照合レベルデータの値が「1」である場合は、検索部6より供給された音片データ(すなわち、定型メッセージ内の音片と読みが合致する音片データ)をすべて、定型メッセージ内の音片の波形に近いものとして選択する。
When the prosody prediction data is acquired, the matching sound piece determination unit 52, for example,
(1) When the value of the collation level data is “1”, all the speech piece data supplied from the search unit 6 (that is, speech piece data whose reading matches the speech piece in the standard message) Select the one that is close to the waveform of the sound piece inside.

(2) 照合レベルデータの値が「2」である場合は、(1)の条件(つまり、読みを表す表音文字の合致という条件)を満たし、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容と定型メッセージに含まれる音片の韻律(例えばアクセント)の予測結果との間に所定量以上の強い相関がある場合(例えば、アクセントの位置の時間差が所定量以下である場合)に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。なお、定型メッセージ内の音片のアクセントの予測結果は、定型メッセージの韻律の予測結果より特定できるものであり、一致音片決定部52は、例えば、ピッチ成分の周波数が最も高いと予測されている位置をアクセントの予測位置であると解釈すればよい。一方、音片データが表す音片のアクセントの位置については、例えば、ピッチ成分の周波数が最も高い位置を上述のピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。また、韻律予測は、文章全体に対して行ってもよいし、文章を所定の単位に分割し、それぞれの単位に対して行ってもよい。 (2) When the value of the collation level data is “2”, the condition of (1) (that is, the condition that the phonetic character representing the reading is matched) is satisfied, and the frequency of the pitch component frequency of the sound piece data is further satisfied. When there is a strong correlation of a predetermined amount or more between the content of the pitch component data representing the time change and the prediction result of the prosody of the speech piece (for example, accent) included in the fixed message (for example, the time difference between the accent positions is a predetermined amount) (If it is the following), the sound piece data is selected as being close to the waveform of the sound piece in the standard message. Note that the prediction result of the accent of the sound piece in the standard message can be specified from the prediction result of the prosody of the standard message, and the matching sound piece determination unit 52 is predicted to have the highest frequency of the pitch component, for example. What is necessary is just to interpret the position which is the predicted position of the accent. On the other hand, for the position of the accent of the sound piece represented by the sound piece data, for example, the position where the frequency of the pitch component is the highest is specified based on the above-described pitch component data, and this position is interpreted as the position of the accent. Good. The prosody prediction may be performed on the entire sentence, or the sentence may be divided into predetermined units and performed on each unit.

(3) 照合レベルデータの値が「3」である場合は、(2)の条件(つまり、読みを表す表音文字及びアクセントの合致という条件)を満たし、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形に近いものとして選択する。一致音片決定部52は、音片データが表す音声の鼻濁音化や無声化の有無を、検索部6より供給されたピッチ成分データに基づいて判別すればよい。 (3) When the value of the collation level data is “3”, the condition of (2) (that is, the condition of coincidence of phonetic characters and accents indicating reading) is satisfied, and further, The sound piece data is selected as being close to the waveform of the sound piece in the fixed message only when the presence or absence of nasal muffler or devoicing matches the prosodic prediction result of the fixed message. The coincident sound piece determination unit 52 may determine whether or not the voice represented by the sound piece data is made nasalized or unvoiced based on the pitch component data supplied from the search unit 6.

なお、一致音片決定部52は、自ら設定した条件に合致する音片データが1個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って1個に絞り込むものとする。   In addition, when there are a plurality of pieces of sound piece data that match the conditions set by itself, the matching sound piece determination unit 52 sets the pieces of sound piece data to 1 according to conditions that are stricter than the set conditions. We shall narrow down to pieces.

具体的には、例えば、設定した条件が照合レベルデータの値「1」に相当するものであって、該当する音片データが複数あった場合は、照合レベルデータの値「2」に相当する検索条件にも合致するものを選択し、なお複数の音片データが選択された場合は、選択結果のうちから照合レベルデータの値「3」に相当する検索条件にも合致するものを更に選択する、等の操作を行う。照合レベルデータの値「3」に相当する検索条件で絞り込んでなお複数の音片データが残る場合は、残ったものを任意の基準で1個に絞り込めばよい。   Specifically, for example, when the set condition corresponds to the value “1” of the collation level data and there are a plurality of corresponding piece of piece data, it corresponds to the value “2” of the collation level data. If the search condition is also selected and multiple pieces of sound piece data are selected, the selection result that further matches the search condition corresponding to the collation level data value “3” is further selected. Perform operations such as If a plurality of pieces of sound piece data still remain after being narrowed down by the search condition corresponding to the value “3” of the collation level data, the remaining one may be narrowed down to one on an arbitrary basis.

そして、一致音片決定部52は、照合レベルデータの値に相当する条件を満たすものとして選択した音片データを、出力合成部54へと供給する。
ただし、一致音片決定部52は、検索部6より供給された音片データのうちから、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合、該当する音片を、検索部6が圧縮音片データを索出できなかった音片(つまり、上述の欠落部分識別データが示す音片)とみなして扱うことを決定するものとする。
Then, the matching sound piece determination unit 52 supplies the sound piece data selected as satisfying the condition corresponding to the value of the collation level data to the output composition unit 54.
However, the matching sound piece determination unit 52 corresponds to the case where there is a sound piece that cannot select sound piece data that satisfies the condition corresponding to the value of the collation level data from the sound piece data supplied from the search unit 6. The sound piece is determined to be treated as a sound piece for which the search unit 6 cannot find the compressed sound piece data (that is, the sound piece indicated by the above-described missing portion identification data).

一方、一致音片決定部52は、検索部6より欠落部分識別データも供給されている場合、又は、照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片があった場合には、欠落部分識別データが示す音片(照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片を含む)の読みを表す表音文字列を定型メッセージデータより抽出して音響処理部41に供給し、この音片の波形を合成するよう指示する。   On the other hand, the coincidence sound piece determination unit 52 has received a piece of sound for which no sound piece data satisfying the condition corresponding to the value of the collation level data has been selected when missing portion identification data is also supplied from the search unit 6. In the case, the phonetic character string representing the reading of the sound piece indicated by the missing part identification data (including the sound piece that could not select the sound piece data that satisfies the condition corresponding to the value of the collation level data) It is extracted and supplied to the sound processing unit 41, and an instruction is given to synthesize the waveform of this sound piece.

指示を受けた音響処理部41は、一致音片決定部52より供給された表音文字列を、配信文字列データが表す表音文字列と同様に扱う。この結果、この表音文字列に含まれる表音文字が表す音素を構成する素片を表す圧縮波形データが検索部42により索出され、圧縮される前の素片波形データが伸長部43により復元される。一方で、韻律予測部53により、この表音文字列が表す音片の韻律の予測結果を表す韻律予測データが生成される。そして音響処理部41が、この表音文字列に含まれるそれぞれの表音文字が表す音声の波形を表す音声波形データを、復元された各素片波形データと、韻律予測データとに基づいて生成し、生成された音声波形データを、出力合成部54へと供給する。   Upon receiving the instruction, the acoustic processing unit 41 treats the phonetic character string supplied from the matching sound piece determination unit 52 in the same manner as the phonetic character string represented by the distribution character string data. As a result, the compressed waveform data representing the segments constituting the phonemes represented by the phonetic characters included in the phonetic character string is retrieved by the search unit 42, and the segment waveform data before being compressed is expanded by the decompressing unit 43. Restored. On the other hand, the prosody prediction unit 53 generates prosody prediction data representing the prediction result of the prosody of the speech piece represented by the phonetic character string. Then, the acoustic processing unit 41 generates speech waveform data representing the speech waveform represented by each phonogram included in the phonogram string based on each restored unit waveform data and prosodic prediction data. Then, the generated speech waveform data is supplied to the output synthesis unit 54.

なお、一致音片決定部52は、韻律予測部53が既に生成して一致音片決定部52に供給した韻律予測データのうち、欠落部分識別データが示す音片に相当する部分を音響処理部41に供給するようにしてもよく、この場合、音響処理部41は、改めて韻律予測部53に当該音片の韻律予測を行わせる必要はない。このようにすれば、音片等の細かい単位毎に韻律予測を行う場合に比べて、より自然な発話が可能になる。   Note that the coincidence sound piece determination unit 52 generates a portion corresponding to the sound piece indicated by the missing part identification data from the prosodic prediction data already generated by the prosody prediction unit 53 and supplied to the coincidence sound piece determination unit 52. In this case, the acoustic processing unit 41 does not need to cause the prosody prediction unit 53 to perform prosody prediction of the sound piece again. In this way, it is possible to utter more naturally than when prosodic prediction is performed for each fine unit such as a sound piece.

出力合成部54は、一致音片決定部52より音片データを供給され、音響処理部41より、素片波形データより生成された音声波形データを供給されると、これらの音片データ及び音声波形データを、定型メッセージデータが示す定型メッセージ内での各音片ないし音素の並びに従った順序で互いに結合することにより合成音声データを生成し、この合成音声データが表す合成音声を再生し、あるいはこの合成音声データを外部に出力する。   When the output synthesizing unit 54 is supplied with the sound piece data from the coincidence sound piece determining unit 52 and the sound processing unit 41 is supplied with the sound waveform data generated from the unit waveform data, the sound piece data and the sound are supplied. Generating synthesized voice data by combining the waveform data with each other in the order of each sound piece or phoneme in the standard message indicated by the standard message data, and reproducing the synthesized voice represented by the synthetic voice data, or This synthesized voice data is output to the outside.

出力合成部54は、複数の音片データからなる合成音声データを生成する際、これらの各音片データ又は各音声波形データのデータ量が上述の上限を超えない場合には、まず最初の音片データ又は音声波形データをキャッシュメモリに記憶させ、所定の処理を施して、当該音片データ又は音声波形データが表す音声を再生し、あるいは外部に出力するものとする。そして引き続き、次に再生、出力すべき音片データ又は音声波形データをキャッシュメモリに記憶させ、以後上述と同様に音声の再生あるいは出力する。これを全ての音片データ又は音声波形データの再生、出力が終了するまで繰り返す。   When generating the synthesized speech data composed of a plurality of speech piece data, the output synthesis unit 54 first selects the first sound if the data amount of each piece of speech piece data or each piece of speech waveform data does not exceed the above upper limit. One piece of data or voice waveform data is stored in a cache memory, a predetermined process is performed, and a voice represented by the voice piece data or voice waveform data is reproduced or output to the outside. Subsequently, the sound piece data or audio waveform data to be reproduced and output next is stored in the cache memory, and thereafter the audio is reproduced or output in the same manner as described above. This is repeated until the reproduction and output of all sound piece data or audio waveform data is completed.

出力合成部54がキャッシュメモリの記憶領域内の音片データ又は音声波形データに対して施す所定の処理は、例えば、有声音を表す当該音片データ又は音声波形データを変換して、当該音片データ又は音声波形データが表す音片の時間長を、音片編集部5に供給された発声スピードデータが示すスピードに合致するようにする話速変換の処理を含むものである。   The predetermined process performed by the output synthesis unit 54 on the sound piece data or the sound waveform data in the storage area of the cache memory is, for example, converting the sound piece data or the sound waveform data representing voiced sound to This includes speech speed conversion processing in which the time length of the sound piece represented by the data or the sound waveform data matches the speed indicated by the utterance speed data supplied to the sound piece editing unit 5.

具体的な話速変換の処理として出力合成部54は、例えば以下(A1)〜(A3)として示す処理を行えばよい。
(A1) キャッシュメモリが記憶している音片データを構成するサンプルの時間間隔を変換することにより、この音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる。キャッシュメモリが記憶しているデータが音声波形データである場合は、例えば、直前に(A1)の処理を施した音片データのサンプリングレートの変換の比率と同一の比率で、サンプルの時間間隔の変換を行う。
(A2) 一方、キャッシュメモリが記憶している音片データが表す音片の韻律を表すピッチ成分データを一致音片決定部52より取得する。
(A3) 上述の(A1)の処理の結果時間長が変換された音片データを変換して、この音片データが表す音片のピッチ周波数を、(A2)の処理で取得したピッチ成分データが示す周波数に一致させる。キャッシュメモリが記憶しているデータが音声波形データである場合は、例えば、直前に(A3)の処理を施した音片データのピッチ周波数と同一のピッチ周波数を有する音声を表すように、変換を行う。
As a specific speech speed conversion process, the output composition unit 54 may perform processes shown as (A1) to (A3) below, for example.
(A1) By converting the time interval of the samples constituting the sound piece data stored in the cache memory, the time length of the sound piece represented by this sound piece data is matched with the speed indicated by the utterance speed data. When the data stored in the cache memory is speech waveform data, for example, the sampling time interval is set at the same rate as the sampling rate conversion rate of the sound piece data that has been subjected to the processing of (A1) immediately before. Perform conversion.
(A2) On the other hand, the pitch component data representing the prosody of the sound piece represented by the sound piece data stored in the cache memory is acquired from the matching sound piece determination unit 52.
(A3) Pitch component data obtained by converting the sound piece data whose time length is converted as a result of the process of (A1) and obtaining the pitch frequency of the sound piece represented by the sound piece data by the process of (A2). To match the frequency indicated by. When the data stored in the cache memory is voice waveform data, for example, conversion is performed so as to represent a voice having the same pitch frequency as that of the sound piece data subjected to the processing of (A3) immediately before. Do.

上述の(A3)の処理として出力合成部54は、具体的には例えば以下(A3a)〜(A3d)として示す処理を行えばよい。
(A3a) (A1)の処理を経た音片データと、振幅及び周波数が一定である第1の局部発振信号との混合を行う。すなわち、(A1)の処理を経た音片データが表す音片の波形の瞬時値と当該第1の局部発振信号の瞬時値との積を表すデータを生成する。
(A3b) (A3a)の処理の結果得られたデータをフィルタリング等することにより、当該データのうち、(A1)の処理を経た音片データの周波数と第1の局部発振信号の周波数との和にあたる周波数を有する成分を抽出する。
(A3c) (A3b)の処理の結果得られた成分と、振幅及び周波数が一定である第2の局部発振信号との混合を行う。ただし、第2の局部発振信号の周波数は、当該混合により得られるデータのうち、(A3b)の処理で得られた成分の周波数と当該第2の局部発振信号の周波数との差にあたる周波数を有する成分が表す音片が、(A2)の処理で取得したピッチ成分データが示すピッチ周波数を有するものとなるよう、当該ピッチ成分データに基づいて決定されるものとする。
(A3d) (A3c)の処理の結果得られたデータをフィルタリング等することにより、当該データのうち、(A3b)の処理で得られた成分の周波数と第2の局部発振信号の周波数との差にあたる周波数を有する成分を抽出する。(A3d)の処理の結果抽出されるこの成分が、上述の(A3)の処理を経た音片データに相当するものである。
Specifically, for example, the output combining unit 54 may perform the following processes (A3a) to (A3d) as the process (A3).
(A3a) The sound piece data that has undergone the processing of (A1) is mixed with the first local oscillation signal having a constant amplitude and frequency. That is, data representing the product of the instantaneous value of the waveform of the sound piece represented by the sound piece data subjected to the processing of (A1) and the instantaneous value of the first local oscillation signal is generated.
(A3b) By filtering the data obtained as a result of the processing of (A3a), among the data, the sum of the frequency of the sound piece data that has undergone the processing of (A1) and the frequency of the first local oscillation signal A component having a frequency corresponding to that is extracted.
(A3c) The component obtained as a result of the processing of (A3b) is mixed with the second local oscillation signal whose amplitude and frequency are constant. However, the frequency of the second local oscillation signal has a frequency corresponding to the difference between the frequency of the component obtained by the processing of (A3b) and the frequency of the second local oscillation signal in the data obtained by the mixing. It is assumed that the sound piece represented by the component is determined based on the pitch component data so as to have the pitch frequency indicated by the pitch component data acquired in the process (A2).
(A3d) By filtering the data obtained as a result of the processing of (A3c), the difference between the frequency of the component obtained by the processing of (A3b) and the frequency of the second local oscillation signal among the data A component having a frequency corresponding to that is extracted. This component extracted as a result of the process (A3d) corresponds to the sound piece data subjected to the process (A3) described above.

なお、出力合成部54は、合成音声データを生成する際、これらの音片データ又は音声波形データのデータ量が上述の上限を超える場合は、この上限を超えない分をキャッシュメモリに記憶させるものとする。そして、キャッシュメモリに記憶された分に所定の処理を施した後、この処理を経た音片データ又は音声波形データをメインメモリの記憶領域内に格納し、残りの音片データ又は音声波形データのうち、上述の上限を超えない分をキャッシュメモリの記憶領域へと記憶させた後、当該所定の処理を続行するものとする。そして出力合成部54は、当該所定の処理を経た音片データ又は音声波形データを、メインメモリの記憶領域内に、互いに連続するようにして順次格納する。そして、これらの音片データ及び音声波形データがすべて当該所定の処理を経ると、この時点でメインメモリに記憶されている音片データ及び音声波形データの連続(すなわち合成音声データ)が表す音声を再生し、あるいは外部に出力するものとする。
しかし上述のように、出力ないし音声再生の対象である各音片データのそれぞれのデータ量は上述の上限を超えないので、出力合成部54は、メインメモリへの一時記憶を経ることなく、音片データ又は音声波形データのそれぞれについて順次、音声再生ないし出力を行う。このため、再生出力を得るまでに遅延が生じてしまうことがない。
When generating the synthesized voice data, the output synthesis unit 54 stores in the cache memory the amount not exceeding the upper limit if the amount of the piece data or the voice waveform data exceeds the upper limit. And Then, after performing predetermined processing on the amount stored in the cache memory, the sound piece data or voice waveform data subjected to this processing is stored in the storage area of the main memory, and the remaining sound piece data or voice waveform data is stored. Of these, the predetermined processing is continued after storing the amount not exceeding the upper limit in the storage area of the cache memory. Then, the output synthesizer 54 sequentially stores the sound piece data or the sound waveform data that has undergone the predetermined processing in the storage area of the main memory so as to be continuous with each other. Then, when all of the sound piece data and the sound waveform data have undergone the predetermined processing, the sound represented by the continuation of the sound piece data and the sound waveform data (that is, the synthesized sound data) stored in the main memory at this time is obtained. It shall be played back or output to the outside.
However, as described above, since the data amount of each piece of sound piece data that is the target of output or sound reproduction does not exceed the above-described upper limit, the output composition unit 54 does not go through temporary storage in the main memory and Audio reproduction or output is sequentially performed for each piece of data or audio waveform data. For this reason, there is no delay before the reproduction output is obtained.

なお、検索部6より供給されたデータに欠落部分識別データが含まれていない場合は、音響処理部41に波形の合成を指示することなく直ちに、音片編集部5が選択した音片データを、定型メッセージデータが示す定型メッセージ内での表音文字列の並びに従った順序で互いに結合し、合成音声を表すデータとして出力すればよい。   If the missing part identification data is not included in the data supplied from the search unit 6, the sound piece data selected by the sound piece editing unit 5 is immediately selected without instructing the sound processing unit 41 to synthesize the waveform. The phonogram strings in the standard message indicated by the standard message data may be combined with each other in the order in accordance with the data and output as data representing the synthesized speech.

以上説明した、この発明の第1の実施の形態の音声合成システムでは、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。音片データベース7の記憶容量は、音素毎に波形を記憶する場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成システムは小型軽量に構成することができ、また高速な処理にも追随できる。   In the speech synthesis system according to the first embodiment of the present invention described above, the speech piece data representing the waveform of a speech piece that may be a unit larger than a phoneme is naturally converted by the recording and editing method based on the prosodic prediction result. The voice that reads out the standard message is synthesized. The storage capacity of the sound piece database 7 can be reduced as compared with the case of storing a waveform for each phoneme, and can be searched at high speed. Therefore, the speech synthesis system can be configured to be small and light, and can follow high-speed processing.

また、データ量が上限を超える音片データは、上限を超えないデータ量の複数の音片データへと予め分割されているので、音片データをメインメモリの記憶領域に格納するために出力合成部54が音声合成を一時中断する、という事態が起きにくい。すなわち、例えば、定型メッセージ(又はその一部)として上述の長い文章「リストをスクロールして、1ページ前を表示します。最初のページを表示中には、押せません。」を定型メッセージとして本体ユニットMに読み上げさせたい場合は、定型メッセージデータに、上述の4個のID「AアBイ」、「CウDエ」、「EオFカ」及び「GキHク」を互いに連続した形で含ませることにより、この長い文章を読み上げる音声が、途切れることなく即座に再生される。   In addition, the sound piece data whose data amount exceeds the upper limit is divided in advance into a plurality of sound piece data whose data amount does not exceed the upper limit, so that output synthesis is performed to store the sound piece data in the storage area of the main memory. It is difficult for the unit 54 to temporarily suspend speech synthesis. That is, for example, as a standard message (or part of it), the above long sentence “scroll the list to display the previous page. You cannot press while displaying the first page.” If you want the main unit M to read aloud, the above-mentioned four IDs “A AB”, “C UD D”, “E OF F” and “G KI H KU” are added to the standard message data. By including it in a continuous form, the voice that reads out this long sentence is immediately reproduced without interruption.

また、この音声合成システムは、IDに対しても他の表意文字列と区別することなく形態素解析を施すという構成をとりながらも、正常に音声合成を行う。このため、時間長が長い合成音声を簡単な処理で短時間に得ることができる。   In addition, this speech synthesis system performs speech synthesis normally while adopting a configuration in which morphological analysis is performed on IDs without distinguishing them from other ideographic character strings. For this reason, a synthesized speech having a long time length can be obtained in a short time by a simple process.

一方、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。圧縮波形データが素片の波形を表すものであるため、波形データベース44の記憶容量は、圧縮波形データが音素の波形を表すものである場合に比べて小さくでき、また、高速に検索できる。このため、この音声合成システムは小型軽量に構成することができ、また高速な処理にも追随できる。   On the other hand, a sound piece for which appropriate sound piece data could not be selected is synthesized in accordance with a rule synthesis method using compressed waveform data representing a piece that is a unit smaller than a phoneme. Since the compressed waveform data represents the waveform of the segment, the storage capacity of the waveform database 44 can be reduced as compared with the case where the compressed waveform data represents the waveform of the phoneme and can be searched at high speed. Therefore, the speech synthesis system can be configured to be small and light, and can follow high-speed processing.

また、素片を用いて規則合成を行えば、音素を用いて規則合成を行う場合と異なり、音素の端の部分に現れる特殊な波形の影響を受けることなく音声合成を行うことができるため、少ない種類の素片で自然な音声を得ることができる。
すなわち、人が発声する音声では、先行する音素から後続の音素へと遷移する境界で、これらの音素双方の影響を受けた特殊な波形が現れることが知られており、一方、規則合成に用いられる音素は、採取した段階で既にその端部にこの特殊な波形を含んでいるため、音素を用いて規則合成を行う場合は、音素間の境界の波形の様々なパターンを再現可能とするために膨大な種類の音素を用意するか、あるいは、音素間の境界の波形が自然な音声とは異なった合成音声を合成することで満足する必要がある。しかし、素片を用いて規則合成を行う場合は、音素の端部以外の部分から素片を採取するようにすれば、音素間の境界の特殊な波形の影響をあらかじめ排除することができる。このため、膨大な種類の素片を用意することを要せず、自然な音声を得ることができる。
Also, if rule synthesis is performed using segments, unlike the case where rule synthesis is performed using phonemes, speech synthesis can be performed without being affected by special waveforms that appear at the end of phonemes. Natural sounds can be obtained with a small number of segments.
In other words, it is known that in speech uttered by humans, a special waveform affected by both of these phonemes appears at the boundary where the preceding phoneme transitions to the subsequent phoneme. The phonemes already contain this special waveform at the end when they are collected, so when regular synthesis is performed using phonemes, it is possible to reproduce various patterns of waveforms at the boundaries between phonemes. It is necessary to be satisfied by preparing a huge number of phonemes or by synthesizing synthesized speech in which the waveform at the boundary between phonemes is different from natural speech. However, when performing rule synthesis using segments, if the segments are collected from portions other than the end portions of phonemes, the influence of a special waveform at the boundary between phonemes can be eliminated in advance. For this reason, it is not necessary to prepare enormous kinds of segments, and natural speech can be obtained.

なお、この音声合成システムの構成は上述のものに限られない。
例えば、素片波形データはPCM形式のデータである必要はなく、データ形式は任意である。また、波形データベース44は素片波形データや音片データを必ずしもデータ圧縮された状態で記憶している必要はない。波形データベース44が素片波形データをデータ圧縮されていない状態で記憶している場合、本体ユニットMは伸長部43を備えている必要はない。
Note that the configuration of this speech synthesis system is not limited to that described above.
For example, the segment waveform data does not have to be PCM format data, and the data format is arbitrary. Further, the waveform database 44 does not necessarily store the unit waveform data and sound piece data in a compressed state. When the waveform database 44 stores the segment waveform data in a state where the data is not compressed, the main body unit M does not need to include the decompression unit 43.

また、一致音片決定部52は、特定の音片の韻律を表す韻律登録データをあらかじめ記憶し、定型メッセージにこの特定の音片が含まれている場合は、この韻律登録データが表す韻律を、韻律予測の結果として扱うようにしてもよい。
また、一致音片決定部52は、過去の韻律予測の結果を韻律登録データとして新たに記憶するようにしてもよい。
The coincidence sound piece determination unit 52 stores prosody registration data representing the prosody of a specific sound piece in advance, and if this specific sound piece is included in the standard message, the prosody represented by this prosody registration data is stored. Alternatively, it may be handled as a result of prosodic prediction.
The coincidence piece determining unit 52 may newly store the results of past prosody prediction as prosodic registration data.

また、一致音片決定部52は、例えば、言語処理部1と共にフリーテキストデータを取得し、このフリーテキストデータが表すフリーテキストに含まれる音声(表音文字列)の少なくとも一部に合致する音片データを、定型メッセージの音片データの選択処理と実質的に同一の処理を行うことによって選択して、音声の合成に用いてもよい。
この場合、音響処理部41は、一致音片決定部52が選択した音片については、この音片の素片の波形を表す圧縮波形データを検索部42に索出させなくてもよい。なお、一致音片決定部52は、音響処理部41が合成しなくてよい音片を音響処理部41に通知し、音響処理部41はこの通知に応答して、この音片を構成する単位音声の素片の波形の検索を中止するようにすればよい。
For example, the matching sound piece determination unit 52 acquires free text data together with the language processing unit 1, and sounds that match at least a part of the speech (phonetic character string) included in the free text represented by the free text data. The piece data may be selected by performing substantially the same process as the sound piece data selection process of the standard message, and used for voice synthesis.
In this case, for the sound piece selected by the matching sound piece determination unit 52, the acoustic processing unit 41 does not have to search the search unit 42 for compressed waveform data representing the waveform of the piece of the sound piece. Note that the matching sound piece determination unit 52 notifies the sound processing unit 41 of a sound piece that the sound processing unit 41 does not need to synthesize, and the sound processing unit 41 responds to the notification to form a unit constituting this sound piece. The search for the waveform of the speech segment may be stopped.

また、一致音片決定部52は、例えば、音響処理部41と共に配信文字列データを取得し、この配信文字列データが表す配信文字列に含まれる表音文字列を表す音片データを、定型メッセージの音片データの選択処理と実質的に同一の処理を行うことによって選択して、音声の合成に用いてもよい。この場合、音響処理部41は、一致音片決定部52が選択した音片データが表す音片については、この音片を構成する単位音声の素片の波形を表す圧縮波形データを検索部42に索出させなくてもよい。   For example, the matching sound piece determination unit 52 acquires the distribution character string data together with the acoustic processing unit 41, and converts the sound piece data representing the phonetic character string included in the distribution character string represented by the distribution character string data into the fixed form. Selection may be made by performing substantially the same process as the process for selecting the message piece data of the message and used for speech synthesis. In this case, for the sound piece represented by the sound piece data selected by the matching sound piece determining unit 52, the acoustic processing unit 41 searches the compressed waveform data representing the waveform of the unit speech element constituting this sound piece. You don't have to search.

また、波形データベース44が記憶する圧縮波形データは、必ずしも素片を表すものである必要はなく、例えば、波形データベース44が記憶する表音文字が表す単位音声の波形を表す単位音声波形データ、あるいは当該単位音声波形波形データをエントロピー符号化して得られるデータであってもよい。なお、単位音声は、規則合成方式の手法で用いられる程度の短い音声であり、具体的には、音素や、VCV(Vowel-Consonant-Vowel)音節などの単位で区切られる音声である。   Further, the compressed waveform data stored in the waveform database 44 is not necessarily required to represent a segment, and for example, unit speech waveform data representing a unit speech waveform represented by a phonetic character stored in the waveform database 44, or Data obtained by entropy encoding the unit speech waveform data may be used. The unit speech is speech that is short enough to be used in the rule synthesis method, and specifically, speech that is divided in units such as phonemes and VCV (Vowel-Consonant-Vowel) syllables.

波形データベース44が素片波形データ(又は素片波形データをエントロピー符号化して得られれる圧縮波形データ)に代えて単位音声の波形を表す単位音声波形データ(又は単位音声波形データをエントロピー符号化して得られれるデータ)を記憶している場合、音響処理部41は、素片波形データを用いて音声波形データを生成する代わりに、単位音声波形データを音声波形データとして扱い、言語処理部1より供給された表音文字列内での各表音文字の並びに従った順序で、単位音声波形データを出力合成部54へと供給すればよい。   The waveform database 44 replaces the unit waveform data (or the compressed waveform data obtained by entropy encoding the unit waveform data), and entropy encodes the unit speech waveform data (or unit speech waveform data) representing the unit speech waveform. (Data obtained) is stored, the acoustic processing unit 41 treats unit speech waveform data as speech waveform data instead of generating speech waveform data using the segment waveform data, and from the language processing unit 1 The unit speech waveform data may be supplied to the output synthesizer 54 in the order in which the phonograms are arranged in the supplied phonogram string.

また、波形データベース44は、素片の波形を表すデータと、音素の波形を表すデータとを、両方記憶していてもよい。この場合、音響処理部41は、配信文字列等に含まれる表音文字が表す音素のデータを検索部42に索出させ、該当する音素が索出されなかった表音文字について、当該表音文字が表す音素を構成する素片を表すデータを検索部42に索出させ、索出された、素片を表すデータを用いて、音素を表すデータを生成するようにしてもよい。   The waveform database 44 may store both data representing the waveform of the segment and data representing the waveform of the phoneme. In this case, the acoustic processing unit 41 causes the search unit 42 to search for phoneme data represented by the phonetic character included in the distribution character string and the like for the phonetic character for which the corresponding phoneme has not been found. Data representing the phoneme represented by the character may be retrieved by the search unit 42, and data representing the phoneme may be generated using the retrieved data representing the segment.

また、韻律予測部53が発話スピードを予測し、一致音片決定部52は、検索部6が取得した音片データのうち、所定の判別条件下で発話スピードが韻律予測部53による予測の結果に合致するものを選択し、一方、発話スピードが当該予測の結果に合致しないものを選択の対象から除外するものとしてもよい。なお、音片データベース7は、音片の読みが共通で発話スピードが互いに異なる複数の音片データを記憶していてもよい。   The prosody prediction unit 53 predicts the utterance speed, and the coincidence sound piece determination unit 52 is a result of the prediction by the prosody prediction unit 53 of the speech piece data acquired by the search unit 6 under a predetermined discrimination condition. On the other hand, it is also possible to select those that do not match the prediction result and exclude those that match the prediction result. Note that the sound piece database 7 may store a plurality of pieces of sound piece data in which the reading of the sound pieces is common and the utterance speeds are different from each other.

また、出力合成部54が、音声波形データが表す音素の時間長を、音片データが表す音片の発声スピードと整合させる手法も任意である。従って、出力合成部54は、例えば、一致音片決定部52より音片データに含まれる各区間が表す音素の時間長が元の時間長に対して増減した比率を特定した上、音声波形データをリサンプリングして、音声波形データのサンプル数を、一致音片決定部52の指示した発声スピードと整合する時間長に相当する数へと増減させてもよい。   Further, the output synthesizing unit 54 may arbitrarily set the time length of the phoneme represented by the speech waveform data to match the utterance speed of the speech piece represented by the speech piece data. Therefore, the output synthesis unit 54 specifies, for example, the ratio by which the time length of the phoneme represented by each section included in the speech piece data from the coincidence speech piece determination unit 52 is increased or decreased with respect to the original time length, and then the speech waveform data May be resampled to increase or decrease the number of samples of the speech waveform data to a number corresponding to the length of time that matches the utterance speed indicated by the matching sound piece determination unit 52.

また、発声スピードは音片毎に異なっていてもよい。(従って、発声スピードデータは、音片毎に異なる発声スピードを指定するものであってもよい。)そして、出力合成部54は、互いに発声スピードが異なる2個の音片の間に位置する各音声の音声波形データについては、当該2個の音片の発声スピードを補間(例えば、直線補間)することにより、当該2個の音片の間にあるこれらの音声の発声スピードを決定し、決定した発声スピードに合致するように、これらの音声を表す音声波形データを変換するようにしてもよい。   Moreover, the utterance speed may be different for each sound piece. (Therefore, the utterance speed data may specify different utterance speeds for each sound piece.) Then, the output synthesizer 54 has each sound piece positioned between two sound pieces having different utterance speeds. For speech waveform data of speech, the speech speed of these voices between the two speech pieces is determined by interpolation (for example, linear interpolation) of the speech speeds of the two speech pieces. The voice waveform data representing these voices may be converted so as to match the utterance speed.

また、出力合成部54は、音響処理部41より返送された音声波形データが、フリーテキストや配信文字列を読み上げる音声を構成する音声を表すものであっても、これらの音声波形データを変換して、これらの音声の時間長を、例えば一致音片決定部52に供給されている発声スピードデータが示すスピードに合致させるようにしてもよい。   Further, the output synthesizer 54 converts the speech waveform data even if the speech waveform data returned from the acoustic processing unit 41 represents speech that constitutes speech that reads free text or a distributed character string. Thus, the time lengths of these voices may be matched with the speed indicated by the utterance speed data supplied to the matching sound piece determination unit 52, for example.

また、上述の音声合成システムでは、例えば韻律予測部53が、文章全体に対して韻律予測(発話スピードの予測も含む)を行ってもよいし、所定の単位ごとに韻律予測を行ってもよい。また、文章全体に対して韻律予測を行った場合、読みが一致する音片があれば更に韻律が所定条件内で一致するか否かを判別し、一致していれば当該音片を採用するようにしてもよい。一致する音片が存在しなかった部分については、規則合成処理部4が素片を基に音声を生成するものとし、ただし、素片を基に合成する部分のピッチやスピードを、文章全体若しくは所定の単位ごとに行われた韻律予測の結果に基づいて調整するものとしてもよい。これによって、音片と、素片を基に生成する音声とを組み合わせて合成する場合でも、自然な発話が行われる。   In the speech synthesis system described above, for example, the prosody prediction unit 53 may perform prosody prediction (including prediction of speech speed) on the entire sentence, or may perform prosody prediction for each predetermined unit. . Also, when prosodic prediction is performed on the entire sentence, if there is a sound piece that matches the reading, it is further determined whether or not the prosody matches within a predetermined condition, and if it matches, the sound piece is adopted. You may do it. For the part where no matching sound piece exists, the rule synthesis processing unit 4 generates speech based on the segment, provided that the pitch or speed of the part synthesized based on the segment is set to the whole sentence or It is good also as what adjusts based on the result of the prosodic prediction performed for every predetermined unit. As a result, even when a speech piece and a voice generated based on a segment are combined and synthesized, natural speech is performed.

また、言語処理部1に入力される文字列が表音文字列である場合、言語処理部1は、韻律予測とは別に公知の自然言語解析処理を行い、一致音片決定部52が、自然言語解析処理の結果に基づいて音片の選択を行ってもよい。これによって、単語(名詞や動詞等の品詞)毎に文字列を解釈した結果を用いて音片選択を行うことが可能になり、単に表音文字列と一致する音片を選択する場合に比べて自然な発話を行うことができる。   When the character string input to the language processing unit 1 is a phonetic character string, the language processing unit 1 performs a known natural language analysis process separately from the prosodic prediction, and the matching sound piece determination unit 52 The sound piece may be selected based on the result of the language analysis process. This makes it possible to select a sound piece using the result of interpreting a character string for each word (part of speech such as a noun or verb), compared to simply selecting a sound piece that matches the phonetic character string. Can speak naturally.

また、音片データベース作成部11は、マイクロフォン、増幅器、サンプリング回路、A/D(Analog-to-Digital)コンバータ及びPCMエンコーダなどを備えていてもよい。この場合、音片データベース作成部11は、収録音片データセット記憶部10より音片データを取得する代わりに、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音片データを作成してもよい。   The sound piece database creation unit 11 may include a microphone, an amplifier, a sampling circuit, an A / D (Analog-to-Digital) converter, a PCM encoder, and the like. In this case, instead of obtaining the sound piece data from the recorded sound piece data set storage unit 10, the sound piece database creating unit 11 amplifies a sound signal representing the sound collected by its own microphone, samples it, and performs A / After D conversion, the piece data may be created by performing PCM modulation on the sampled audio signal.

また、音片データベース作成部11は、図示しない記録媒体ドライブ装置にセットされた記録媒体から、この記録媒体ドライブ装置を介して、音片データベース7に追加する新たな圧縮音片データの材料となる音片データや表音文字列を読み取ってもよい。
また、音片登録ユニットRは、必ずしも収録音片データセット記憶部10を備えている必要はない。
The sound piece database creation unit 11 becomes a material for new compressed sound piece data to be added to the sound piece database 7 from the recording medium set in the recording medium drive device (not shown) via the recording medium drive device. Sound piece data and phonetic character strings may be read.
The sound piece registration unit R does not necessarily need to include the recorded sound piece data set storage unit 10.

また、ピッチ成分データは音片データが表す音片のピッチ長の時間変化を表すデータであってもよい。この場合、一致音片決定部52は、ピッチ長が最も短い位置(つまり、周波数がもっとも高い位置)をピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。   Further, the pitch component data may be data representing a time change of the pitch length of the sound piece represented by the sound piece data. In this case, the matching sound piece determination unit 52 may identify a position having the shortest pitch length (that is, a position having the highest frequency) based on the pitch component data, and interpret this position as an accent position.

また、IDが特殊な読みを有する文字列からなっており、人による発話の際に通常用いられる語句の読みと当該IDの読みとの間での混同のおそれがないような場合は、検索部6が当該IDの読みを表す表音文字列を検索キーとして音片データベース7を検索すれば、当該IDに相当する音声を表す圧縮音片データが1個に特定される。このため、音片データベース7は、当該IDが対応付けられた圧縮音片データについては、ピッチ成分データを対応付けて記憶していなくてもよい。
また、韻律予測部53は、ピッチ成分データが対応付けられていない圧縮音片データに対応付けられているIDについては、韻律予測を省略してもよい。このような構成をとっていれば、無駄な韻律予測の処理が行われず、本体ユニットMが行う処理が全体として効率的になる。
Further, when the ID is composed of a character string having a special reading and there is no possibility of confusion between the reading of a word ordinarily used in speech by a person and the reading of the ID, the search unit When the speech piece database 7 is searched using the phonetic character string 6 representing the reading of the ID as a search key, one piece of compressed speech piece data representing the voice corresponding to the ID is specified. For this reason, the sound piece database 7 does not have to store the pitch component data in association with the compressed sound piece data associated with the ID.
The prosody prediction unit 53 may omit prosody prediction for IDs associated with compressed speech piece data that is not associated with pitch component data. If such a configuration is adopted, useless prosody prediction processing is not performed, and processing performed by the main unit M becomes efficient as a whole.

(第2の実施の形態)
次に、この発明の第2の実施の形態に係る音声合成システムを説明する。
この発明の第2の実施の形態の音声合成システムの構成は、第1の実施の形態における音声合成システムの構成と実質的に同一である。ただし、音片データベース7が記憶する圧縮音片データの圧縮前のデータ量は、必ずしも第1の実施の形態における上述の上限(具体的には、キャッシュメモリの記憶容量)より小さな量とはなっていないものとする。
(Second Embodiment)
Next explained is a speech synthesis system according to the second embodiment of the invention.
The configuration of the speech synthesis system according to the second embodiment of the present invention is substantially the same as the configuration of the speech synthesis system according to the first embodiment. However, the data amount before compression of the compressed sound piece data stored in the sound piece database 7 is not necessarily smaller than the above-described upper limit (specifically, the storage capacity of the cache memory) in the first embodiment. Shall not.

(第2の実施の形態:本体ユニットの動作)
次に、第2の実施の形態の音声合成ユニットの動作を説明する。
まず、第2の実施の形態の音声合成システムの音片登録ユニットRの動作は、第1の実施の形態におけるものと実質的に同一である。
また、本体ユニットMがフリーテキストデータ又は配信文字列データを取得した場合の動作は、第1の実施の形態における本体ユニットMの動作と実質的に同一である。
(Second Embodiment: Operation of Main Unit)
Next, the operation of the speech synthesis unit according to the second embodiment will be described.
First, the operation of the sound piece registration unit R of the speech synthesis system according to the second embodiment is substantially the same as that in the first embodiment.
The operation when the main unit M acquires the free text data or the distribution character string data is substantially the same as the operation of the main unit M in the first embodiment.

次に、本体ユニットMの音片編集部5が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得した場合の動作を説明する。   Next, the operation when the sound piece editing unit 5 of the main unit M acquires the standard message data, the utterance speed data, and the collation level data will be described.

音片編集部5が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得してから、定型メッセージを構成する音片の波形に近似できる波形を表す音片データを一致音片決定部52が選択するまでの本体ユニットMの各部の動作は、第1の実施の形態の本体ユニットMの各部の動作と実質的に同一である。
また、検索部6より供給された音片データのうちから照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合の一致音片決定部52の動作も、第1の実施の形態におけるものと実質的に同一である。
After the sound piece editing unit 5 obtains the standard message data, the utterance speed data, and the collation level data, the sound piece data representing the waveform that can be approximated to the waveform of the sound piece constituting the standard message is obtained as the matching sound piece determination unit 52. The operation of each part of the main body unit M until selection is substantially the same as the operation of each part of the main body unit M of the first embodiment.
The operation of the matching sound piece determination unit 52 when there is a sound piece that cannot select sound piece data that satisfies the condition corresponding to the value of the collation level data from the sound piece data supplied from the search unit 6 is also as follows. This is substantially the same as in the first embodiment.

一致音片決定部52は、照合レベルデータの値に相当する条件を満たすものとして選択したそれぞれの音片データについて、当該音片データのデータ量が、上述の上限(具体的には、キャッシュメモリの記憶容量)を超えているか否かを判別する。   For each piece of speech piece data selected as satisfying the condition corresponding to the value of the collation level data, the coincidence piece determination unit 52 sets the amount of the piece of speech piece data to the above-described upper limit (specifically, cache memory). It is determined whether or not the storage capacity is exceeded.

そして、一致音片決定部52は、データ量が上限を超えていないと判別した音片データはそのまま出力合成部54に供給し、上限を超えていると判別した音片データを、上限を超えない複数の音片データへと分割してから出力合成部54に供給する。   Then, the matching sound piece determination unit 52 supplies the sound piece data determined that the data amount does not exceed the upper limit to the output synthesis unit 54 as it is, and the sound piece data determined to exceed the upper limit exceeds the upper limit. After being divided into a plurality of non-speech piece data, it is supplied to the output synthesis unit 54.

なお、一致音片決定部52は、音片データを分割する場合、音片のうち実質的に無音である区間に相当する位置を特定し、この位置でこの音片データを分割するものとする。
音片データの分割が行われる場合であっても、このように無音区間に相当する位置で音片データが分割されれば、出力合成部54が再生する音声が不自然な部分で途切れることがなく、本体ユニットMは自然な音声出力を行うことができる。
なお、人が発声する音声には一定長以上の無音区間が含まれる場合がほとんどであるので、分割する対象の音片データには、通常、無音区間に相当する位置が存在する。
When the sound piece data is divided, the matching sound piece determination unit 52 specifies a position corresponding to a substantially silent section of the sound pieces and divides the sound piece data at this position. .
Even when the sound piece data is divided, if the sound piece data is divided at a position corresponding to the silent section in this way, the sound reproduced by the output synthesis unit 54 may be interrupted at an unnatural portion. In addition, the main unit M can perform natural sound output.
In addition, since the voice uttered by a person includes a silent section of a certain length or more in most cases, the sound piece data to be divided usually has a position corresponding to the silent section.

一方、一致音片決定部52は、検索部6より欠落部分識別データも供給されている場合、又は、照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片があった場合には、欠落部分識別データが示す音片(照合レベルデータの値に相当する条件を満たす音片データを選択できなかった音片を含む)の読みを表す表音文字列を定型メッセージデータより抽出して音響処理部41に供給し、この音片の波形を合成するよう指示する。指示を受けた音響処理部41が行う動作は、第1の実施の形態におけるものと実質的に同一である。   On the other hand, the coincidence sound piece determination unit 52 has received a piece of sound for which no sound piece data satisfying the condition corresponding to the value of the collation level data has been selected when missing portion identification data is also supplied from the search unit 6. In the case, the phonetic character string representing the reading of the sound piece indicated by the missing part identification data (including the sound piece that could not select the sound piece data that satisfies the condition corresponding to the value of the collation level data) It is extracted and supplied to the sound processing unit 41, and an instruction is given to synthesize the waveform of this sound piece. The operation performed by the sound processing unit 41 receiving the instruction is substantially the same as that in the first embodiment.

そして、出力合成部54は、音響処理部41より音声波形データを供給され、一致音片決定部52より音片データを供給されると、第1の実施の形態におけるものと実質的に同一の動作を行うことにより合成音声データを生成し、この合成音声データが表す合成音声を再生し、あるいはこの合成音声データを外部に出力する。一致音片決定部52が音片データの分割を行っていた場合、出力合成部54は、分割により得られた音片データのうちまず最初の分割音片データをキャッシュメモリに供給して所定の処理(例えば上述の話速変換の処理)を施し、この音片データが表す音声を再生し、あるいはこの音片データを外部に出力する。以後、分割により得られた最後の音片データが表す音声の再生、あるいは当該音片データの出力を行うまで、次の順番の音片データに対して上述の処理を順次実行する。   Then, when the sound waveform data is supplied from the acoustic processing unit 41 and the sound piece data is supplied from the matching sound piece determination unit 52, the output synthesis unit 54 is substantially the same as that in the first embodiment. By performing the operation, synthesized voice data is generated, and the synthesized voice represented by the synthesized voice data is reproduced, or the synthesized voice data is output to the outside. If the matching sound piece determination unit 52 has divided sound piece data, the output composition unit 54 first supplies the first divided sound piece data of the sound piece data obtained by the division to the cache memory to obtain a predetermined value. Processing (for example, the above-described speech speed conversion processing) is performed, and the voice represented by the sound piece data is reproduced, or the sound piece data is output to the outside. Thereafter, the above-described processing is sequentially performed on the next sound piece data until the sound represented by the last sound piece data obtained by the division is reproduced or the sound piece data is output.

第2の実施の形態の出力合成部54は、第1の実施の形態におけるものと実質的に同一の動作を行うものであるから、すなわち第2の実施の形態の出力合成部54も、合成音声データを生成する際、自己に供給された音片データ又は音声波形データのデータ量が上述の上限を超える場合は、この上限を超えない分をキャッシュメモリに記憶させるものとする。そして、キャッシュメモリに記憶された分に所定の処理を施した後、この処理を経た音片データ又は音声波形データをメインメモリの記憶領域内に格納し、残りの音片データ又は音声波形データのうち、上述の上限を超えない分をキャッシュメモリの記憶領域へと記憶させた後、当該所定の処理を続行するものとする。そして、当該所定の処理を経た音片データ又は音声波形データを、メインメモリの記憶領域内に、互いに連続するようにして順次格納する。そして、これらの音片データ及び音声波形データがすべて当該所定の処理を経ると、この時点でメインメモリに記憶されている音片データ及び音声波形データの連続(すなわち合成音声データ)が表す音声を再生し、あるいは外部に出力するものとする。
しかし上述のように、出力ないし音声再生の対象である各音片データのそれぞれのデータ量は上述の上限を超えないので、出力合成部54は、メインメモリへの一時記憶を経ることなく、音片データ又は音声波形データのそれぞれについて順次、音声再生ないし出力を行う。このため、再生出力を得るまでに遅延が生じてしまうことがない。ただし、一致音片決定部52が、実質的に無音である区間に相当する位置が存在しない音片データについては分割を行わないものとする場合などにおいては、出力合成部54に供給される音片データのデータ量が上述の上限を超える場合があり得る。
Since the output combining unit 54 of the second embodiment performs substantially the same operation as that in the first embodiment, that is, the output combining unit 54 of the second embodiment is also combined. When the audio data is generated, if the data amount of the speech piece data or the audio waveform data supplied to the audio data exceeds the above upper limit, the amount not exceeding the upper limit is stored in the cache memory. Then, after performing predetermined processing on the amount stored in the cache memory, the sound piece data or voice waveform data subjected to this processing is stored in the storage area of the main memory, and the remaining sound piece data or voice waveform data is stored. Of these, the predetermined processing is continued after storing the amount not exceeding the upper limit in the storage area of the cache memory. Then, the sound piece data or the sound waveform data that has undergone the predetermined processing is sequentially stored in the storage area of the main memory so as to be continuous with each other. Then, when all of the sound piece data and the sound waveform data have undergone the predetermined processing, the sound represented by the continuation of the sound piece data and the sound waveform data (that is, the synthesized sound data) stored in the main memory at this time is obtained. It shall be played back or output to the outside.
However, as described above, since the data amount of each piece of sound piece data that is the target of output or sound reproduction does not exceed the above-described upper limit, the output composition unit 54 does not go through temporary storage in the main memory and Audio reproduction or output is sequentially performed for each piece of data or audio waveform data. For this reason, there is no delay before the reproduction output is obtained. However, when the matching sound piece determination unit 52 does not divide sound piece data that does not have a position corresponding to a substantially silent section, the sound supplied to the output composition unit 54 There is a case where the data amount of one piece of data exceeds the upper limit described above.

以上説明した、この発明の第2の実施の形態の音声合成システムでも、音素より大きな単位であり得る音片の波形を表す音片データが、韻律の予測結果に基づいて、録音編集方式により自然につなぎ合わせられ、定型メッセージを読み上げる音声が合成される。ただし、適切な音片データを選択することができなかった音片は、音素より小さな単位である素片を表す圧縮波形データを用いて、規則合成方式の手法に従って合成される。   In the speech synthesis system according to the second embodiment of the present invention described above, the speech piece data representing the waveform of the speech piece that can be a unit larger than the phoneme is naturally converted by the recording editing method based on the prosodic prediction result. The voice that reads out the standard message is synthesized. However, a sound piece for which appropriate sound piece data could not be selected is synthesized in accordance with a rule synthesis method using compressed waveform data representing a piece that is a unit smaller than a phoneme.

また、この音声合成システムは、データ量が上限を超える音片データを、上限を超えない時間長の音片を表す複数の音片データへと分割するので、音片データをメインメモリの記憶領域に格納するために出力合成部54が音声合成を一時中断する、という事態が起きにくい。   In addition, since this speech synthesis system divides sound piece data whose data amount exceeds the upper limit into a plurality of sound piece data representing sound pieces having a time length not exceeding the upper limit, the sound piece data is stored in the storage area of the main memory. Therefore, it is difficult for the output synthesizer 54 to temporarily suspend speech synthesis.

また、この音声合成システムも、IDに対しても他の表意文字列と区別することなく形態素解析を施すという構成をとりながらも、正常に音声合成を行う。このため、時間長が長い合成音声を簡単な処理で短時間に得ることができる。   In addition, this speech synthesis system also performs speech synthesis normally while adopting a configuration in which morphological analysis is performed on IDs without distinguishing them from other ideographic character strings. For this reason, a synthesized speech having a long time length can be obtained in a short time by a simple process.

以上、この発明の実施の形態を説明したが、この発明にかかる音声合成装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。   Although the embodiment of the present invention has been described above, the speech synthesizer according to the present invention can be realized using a normal computer system, not a dedicated system.

例えば、音片データベース7を構成する外部の不揮発性メモリに接続されたパーソナルコンピュータに上述の収録音片データセット記憶部10、音片データベース作成部11及び圧縮部12の動作を実行させるためのプログラムを格納した記録媒体(CD−ROM、フレキシブルディスク等)から該プログラムをインストールすることにより、上述の処理を実行する音片登録ユニットRを構成することができる。   For example, a program for causing a personal computer connected to an external nonvolatile memory constituting the sound piece database 7 to execute the operations of the recorded sound piece data set storage unit 10, the sound piece database creation unit 11, and the compression unit 12 described above. By installing the program from a recording medium (CD-ROM, flexible disk, etc.) that stores the sound piece, the sound piece registration unit R that executes the above-described processing can be configured.

そして、このプログラムを実行し音片登録ユニットRとして機能するパーソナルコンピュータが、図1の音声合成システムの音片登録ユニットRの動作に相当する処理として、図3に示す処理を行うようにすることもできる。
図3は、音片登録ユニットRの機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。
A personal computer that executes this program and functions as the sound piece registration unit R performs the process shown in FIG. 3 as a process corresponding to the operation of the sound piece registration unit R of the speech synthesis system of FIG. You can also.
FIG. 3 is a flowchart showing processing executed by the personal computer that performs the function of the sound piece registration unit R.

すなわち、このパーソナルコンピュータが音片データベース7に音片を登録する場合、まず、収録音片データセット記憶部10より、互いに対応付けられている表音文字列及び音片データを読み出し、又は、互いに対応付けられている表音文字列及び音片データを外部より取得して(図3、ステップS001)、得られた音片データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する(ステップS002)。   That is, when the personal computer registers a sound piece in the sound piece database 7, first, the recorded sound piece data set storage unit 10 reads the phonogram string and the sound piece data associated with each other, or The associated phonetic character string and speech piece data are acquired from the outside (FIG. 3, step S001), and the time change of the frequency of the pitch component of the voice represented by the obtained speech piece data and the utterance speed are obtained. Specify (step S002).

なお、このパーソナルコンピュータは、ステップS002における発声スピードの特定は、例えば、この音片データのサンプル数を数えることにより行えばよい。
また、ピッチ成分の周波数の時間変化は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分のケプストラムを求め、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定すればよい。なお、ピッチ成分の周波数の時間変化は、上述したように、例えば特開2003−108172号公報に開示された手法に従って音片データをピッチ波形データへと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。
In this personal computer, the utterance speed in step S002 may be specified by, for example, counting the number of samples of the sound piece data.
Moreover, what is necessary is just to identify the time change of the frequency of a pitch component, for example by performing a cepstrum analysis to this sound piece data. Specifically, for example, the waveform represented by the sound piece data is divided into a large number of small parts on the time axis, the cepstrum of each obtained small part is obtained, and the minimum of the frequencies giving the maximum value of this cepstrum is obtained. The value may be specified as the frequency of the pitch component in this small portion. As described above, the time change of the frequency of the pitch component is based on the pitch waveform data after the sound piece data is converted into the pitch waveform data according to the method disclosed in, for example, Japanese Patent Laid-Open No. 2003-108172. If you specify it, you can expect good results.

一方、このパーソナルコンピュータは、取得した音片データをエントロピー符号化することにより圧縮音片データを作成し(ステップS003)、データ部DATを構成するデータとして、音片データベース7の記憶領域に書き込む(ステップS004)。   On the other hand, this personal computer creates compressed sound piece data by entropy encoding the obtained sound piece data (step S003), and writes it in the storage area of the sound piece database 7 as data constituting the data portion DAT (step S003). Step S004).

また、ステップS004でこのパーソナルコンピュータは、書き込んだ圧縮音片データが表す音片の読みを示すものとしてステップS001で取得した表音文字を、音片読みデータとして音片データベース7の記憶領域に書き込む。
また、書き込んだ圧縮音片データの、音片データベース7の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の(B)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データのデータ長を特定し、特定したデータ長を、(C)のデータとして音片データベース7の記憶領域に書き込む。
また、この圧縮音片データが表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデータを生成し、スピード初期値データ及びピッチ成分データとして音片データベース7の記憶領域に書き込む。
In step S004, the personal computer writes the phonetic character acquired in step S001 as the sound piece reading data in the storage area of the sound piece database 7 as indicating the reading of the sound piece represented by the written compressed sound piece data. .
Further, the head address of the written compressed sound piece data in the storage area of the sound piece database 7 is specified, and this address is written in the storage area of the sound piece database 7 as the data (B) described above.
Further, the data length of the compressed sound piece data is specified, and the specified data length is written in the storage area of the sound piece database 7 as data (C).
In addition, data indicating the result of specifying the time variation of the voice generation speed and pitch component frequency represented by the compressed sound piece data is generated and stored in the storage area of the sound piece database 7 as speed initial value data and pitch component data. Write.

また、パーソナルコンピュータに上述の言語処理部1、一般単語辞書2、ユーザ単語辞書3、規則合成処理部4、音片編集部5、検索部6、音片データベース7及び伸長部8の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述したこの発明の第1の実施の形態に係る本体ユニットMを構成することができる。   Further, the operations of the language processing unit 1, the general word dictionary 2, the user word dictionary 3, the rule synthesis processing unit 4, the sound piece editing unit 5, the search unit 6, the sound piece database 7, and the decompression unit 8 are executed on the personal computer. The main unit M according to the first embodiment of the present invention described above can be configured by installing the program from the recording medium storing the program for causing the program to be executed.

そして、このプログラムを実行し本体ユニットMとして機能するパーソナルコンピュータが、図1の音声合成システムの本体ユニットMの動作に相当する処理として、図4〜図6に示す処理を行うようにすることもできる。
図4は、この発明の第1及び第2の実施の形態に係る本体ユニットMの機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。
図5は、この発明の第1及び第2の実施の形態に係る本体ユニットMの機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。
図6は、この発明の第1の実施の形態に係る本体ユニットMの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
Then, a personal computer that executes this program and functions as the main unit M may perform the processes shown in FIGS. 4 to 6 as the process corresponding to the operation of the main unit M of the speech synthesis system of FIG. it can.
FIG. 4 is a flowchart showing processing when the personal computer that performs the function of the main unit M according to the first and second embodiments of the present invention acquires free text data.
FIG. 5 is a flowchart showing the processing when the personal computer that performs the function of the main unit M according to the first and second embodiments of the present invention acquires the distribution character string data.
FIG. 6 is a flowchart showing processing when the personal computer that performs the function of the main unit M according to the first embodiment of the present invention acquires the fixed message data and the utterance speed data.

すなわち、このパーソナルコンピュータが、外部より、上述のフリーテキストデータを取得すると(図4、ステップS101)、このフリーテキストデータが表すフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書2やユーザ単語辞書3を検索することにより特定し、この表意文字を、特定した表音文字へと置換する(ステップS102)。なお、このパーソナルコンピュータがフリーテキストデータを取得する手法は任意である。   That is, when the personal computer obtains the above-mentioned free text data from the outside (step S101 in FIG. 4), the phonogram representing the reading of each ideographic character included in the free text represented by the free text data. Is identified by searching the general word dictionary 2 and the user word dictionary 3, and the ideogram is replaced with the identified phonogram (step S102). Note that the method of acquiring free text data by this personal computer is arbitrary.

そして、このパーソナルコンピュータは、フリーテキスト内の表意文字をすべて表音文字へと置換した結果を表す表音文字列が得られると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を波形データベース44より検索し、表音文字列に含まれるそれぞれの表音文字が表す音素を構成する素片の波形を表す圧縮波形データを索出し(ステップS103)、索出された圧縮波形データを、圧縮される前の素片波形データへと復元する(ステップS104)。   And when this personal computer obtains a phonetic character string representing the result of replacing all ideographic characters in the free text with phonetic characters, for each phonetic character contained in this phonetic character string, The waveform of the unit speech represented by the phonetic character is searched from the waveform database 44, and compressed waveform data representing the waveform of the segment constituting the phoneme represented by each phonetic character included in the phonetic character string is retrieved (step S103). ), The retrieved compressed waveform data is restored to the segment waveform data before being compressed (step S104).

一方で、このパーソナルコンピュータは、フリーテキストデータに韻律予測の手法に基づいた解析を加えることにより、フリーテキストが表す音声の韻律を予測する(ステップS105)。そして、ステップS104で復元された素片波形データと、ステップS105における韻律の予測結果とに基づいて音声波形データを生成し(ステップS106)、得られた音声波形データを、表音文字列内での各表音文字の並びに従った順序で互いに結合することにより合成音声データを生成し、この合成音声データが表す合成音声を、上述の出力合成部54が行う処理と同様の処理を行うことにより再生し、あるいはこの合成音声データを外部に出力する(ステップS107)。なお、このパーソナルコンピュータが合成音声データを出力する手法は任意である。   On the other hand, the personal computer predicts the prosody of the speech represented by the free text by adding analysis based on the prosody prediction method to the free text data (step S105). Then, speech waveform data is generated based on the segment waveform data restored in step S104 and the prosodic prediction result in step S105 (step S106), and the obtained speech waveform data is generated in the phonetic character string. The synthesized speech data is generated by combining the phonetic characters in the order in which they are arranged, and the synthesized speech represented by the synthesized speech data is subjected to the same processing as the processing performed by the output synthesis unit 54 described above. It reproduces or outputs this synthesized voice data to the outside (step S107). Note that the method by which the personal computer outputs the synthesized voice data is arbitrary.

また、このパーソナルコンピュータが、外部より、上述の配信文字列データを任意の手法で取得すると(図5、ステップS201)、この配信文字列データが表す表音文字列に含まれるそれぞれの表音文字について、上述のステップS103〜S104と同様に、当該表音文字が表す音素を構成する素片の波形を表す圧縮波形データを索出する処理、及び、索出された圧縮波形データを素片波形データへと復元する処理を行う(ステップS202)。   When this personal computer obtains the above-mentioned distribution character string data from the outside by an arbitrary method (FIG. 5, step S201), each phonogram included in the phonogram string represented by this distribution character string data In the same manner as in steps S103 to S104 described above, the process of searching for compressed waveform data representing the waveform of the segment constituting the phoneme represented by the phonetic character, and the retrieved compressed waveform data as the segment waveform A process of restoring data is performed (step S202).

一方でこのパーソナルコンピュータは、配信文字列に韻律予測の手法に基づいた解析を加えることにより、配信文字列が表す音声の韻律を予測し(ステップS203)、ステップS202で復元された素片波形データと、ステップS203における韻律の予測結果とに基づいて音声波形データを生成し(ステップS204)、得られた音声波形データを、表音文字列内での各表音文字の並びに従った順序で互いに結合することにより合成音声データを生成し、上述のステップS107の処理と同様、この合成音声データが表す合成音声を再生し、あるいはこの合成音声データを外部に出力する(ステップS205)。   On the other hand, this personal computer predicts the prosody of the speech represented by the distribution character string by adding an analysis based on the prosody prediction method to the distribution character string (step S203), and the segment waveform data restored in step S202. And speech waveform data is generated based on the prosodic prediction result in step S203 (step S204), and the obtained speech waveform data is exchanged with each other in the order in which the phonograms are arranged in the phonogram string. By combining these, synthesized speech data is generated, and the synthesized speech represented by the synthesized speech data is reproduced or the synthesized speech data is output to the outside (step S205) in the same manner as in step S107 described above.

一方、このパーソナルコンピュータが、外部より、上述の定型メッセージデータ、照合レベルデータ及び発声スピードデータを任意の手法により取得すると(図6、ステップS301)、まず、定型メッセージデータに公知の手法による形態素解析を施すことにより、定型メッセージデータを構成する表意文字列を、表音文字列へと変換する(ステップS302)。   On the other hand, when this personal computer obtains the above-mentioned fixed message data, collation level data, and utterance speed data from the outside by any method (FIG. 6, step S301), first, morphological analysis is performed on the fixed message data by a known method. Is applied to convert the ideographic character string constituting the standard message data into a phonetic character string (step S302).

次に、このパーソナルコンピュータは、ステップS302の処理で得られた表音文字列に合致する表音文字列が対応付けられている圧縮音片データをすべて索出する(ステップS303)。   Next, the personal computer searches for all the compressed speech piece data associated with the phonetic character string that matches the phonetic character string obtained in the process of step S302 (step S303).

また、ステップS303では、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データも索出する。なお、1個の音片につき複数の圧縮音片データが該当する場合は、該当する圧縮音片データすべてを索出する。一方、圧縮音片データを索出できなかった音片があった場合は、上述の欠落部分識別データを生成する。
そしてこのパーソナルコンピュータは、索出された圧縮音片データを、圧縮される前の音片データへと復元する(ステップS304)。
In step S303, the above-described sound piece reading data, speed initial value data, and pitch component data associated with the corresponding compressed sound piece data are also retrieved. In addition, when a plurality of compressed sound piece data corresponds to one sound piece, all the corresponding compressed sound piece data are searched. On the other hand, if there is a sound piece for which compressed sound piece data could not be found, the above-described missing portion identification data is generated.
The personal computer then restores the retrieved compressed sound piece data to the sound piece data before being compressed (step S304).

次に、このパーソナルコンピュータは、定型メッセージデータが表す定型メッセージに韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測する(ステップS305)。そして、音片の時間長が変換された音片データのうちから、定型メッセージを構成する音片の波形に最も近い波形を表す音片データを、上述の一致音片決定部52が行う処理と同様の処理を行うことにより、外部より取得した照合レベルデータが示す基準に従って、音片1個につき1個ずつ選択する(ステップS306)。   Next, the personal computer predicts the prosody of the standard message by adding an analysis based on the prosody prediction method to the standard message represented by the standard message data (step S305). Then, the above-mentioned matching piece determination unit 52 performs the piece piece data representing the waveform closest to the waveform of the piece constituting the standard message from the piece pieces data in which the time length of the piece is converted, By performing the same process, one piece is selected for each sound piece according to the reference indicated by the collation level data acquired from the outside (step S306).

具体的には、ステップS306でこのパーソナルコンピュータは、例えば、上述した(1)〜(3)の条件に従って音片データを特定する。すなわち、照合レベルデータの値が「1」である場合は、定型メッセージ内の音片と読みが合致する音片データをすべて、定型メッセージ内の音片の波形を表しているとみなす。また、照合レベルデータの値が「2」である場合は、読みを表す表音文字が合致し、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容が定型メッセージに含まれる音片のアクセントの予測結果に合致する場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。また、照合レベルデータの値が「3」である場合は、読みを表す表音文字及びアクセントが合致し、更に、音片データが表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。
なお、照合レベルデータが示す基準に合致する音片データが1個の音片につき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って1個に絞り込むものとする。また、照合レベルデータの値に相当する条件を満たす音片データを選択できない音片があった場合は、該当する音片を、圧縮音片データを索出できなかった音片として扱うことと決定し、例えば欠落部分識別データを生成するものとする。
Specifically, in step S306, the personal computer specifies sound piece data in accordance with, for example, the above conditions (1) to (3). That is, when the value of the collation level data is “1”, all of the piece data whose reading matches the sound piece in the standard message is regarded as representing the waveform of the sound piece in the standard message. When the value of the collation level data is “2”, the phonetic character representing the reading matches, and the content of the pitch component data representing the time change of the frequency of the pitch component of the sound piece data is displayed in the standard message. Only when the predicted result of the accent of the included speech piece matches, this speech piece data is considered to represent the waveform of the speech piece in the standard message. When the value of the collation level data is “3”, the phonetic character and the accent representing the reading match, and whether or not the voice represented by the speech piece data is nasalized or unvoiced is determined by the prosody of the standard message. The sound piece data is regarded as representing the waveform of the sound piece in the standard message only when the result matches the predicted result.
If there are a plurality of pieces of sound piece data that match the criteria indicated by the collation level data for one piece of sound, the plurality of pieces of sound piece data are narrowed down to one according to conditions that are stricter than the set conditions. . In addition, when there is a sound piece that cannot select sound piece data that satisfies the condition corresponding to the value of the collation level data, it is determined that the corresponding sound piece is treated as a sound piece for which compressed sound piece data could not be found. For example, it is assumed that missing part identification data is generated.

一方、このパーソナルコンピュータは、欠落部分識別データを生成した場合、欠落部分識別データが示す音片の読みを表す表音文字列を定型メッセージデータより抽出し、この表音文字列につき、音素毎に、配信文字列データが表す表音文字列と同様に扱って上述のステップS202〜S204の処理と同様の処理を行うことにより、この表音文字列内の各表音文字が示す音声の波形を表す音声波形データを生成する(ステップS307)。
ただし、ステップS307でこのパーソナルコンピュータは、ステップS203の処理に相当する処理を行う代わりに、ステップS305における韻律予測の結果を用いて音声波形データを生成するようにしてもよい。
On the other hand, when the personal computer generates the missing part identification data, the personal computer extracts a phonetic character string representing the reading of the sound piece indicated by the missing part identification data from the standard message data. By processing the phonetic character string represented by the delivery character string data in the same manner as the processing in steps S202 to S204 described above, the waveform of the voice indicated by each phonetic character in the phonetic character string is obtained. The voice waveform data to be represented is generated (step S307).
However, in step S307, the personal computer may generate speech waveform data using the result of prosody prediction in step S305 instead of performing the process corresponding to the process in step S203.

そして、このパーソナルコンピュータは、ステップS307で生成された音声波形データと、ステップS306で選択した音片データとを、定型メッセージデータが示す定型メッセージ内での表音文字列の並びに従った順序で互いに結合することにより合成音声データを生成し、この合成音声データが表す合成音声を再生し、あるいはこの合成音声データを外部に出力する(ステップS308)。   Then, the personal computer mutually connects the speech waveform data generated in step S307 and the speech piece data selected in step S306 in the order in which the phonetic character strings in the standard message indicated by the standard message data are arranged. The synthesized voice data is generated by the combination, and the synthesized voice represented by the synthesized voice data is reproduced, or the synthesized voice data is output to the outside (step S308).

なお、ステップS308でこのパーソナルコンピュータは、複数の音片データからなる合成音声データを生成する際、これらの各音片データ又は各音声波形データのデータ量が上述の上限(具体的には、例えばこのパーソナルコンピュータが備えるキャッシュメモリ)を超えない場合には、まず最初の音片データ又は音声波形データをこのキャッシュメモリに記憶させ、所定の処理を施して、当該音片データ又は音声波形データのが表す音声を再生し、あるいは外部に出力するものとする。そして引き続き、次に再生、出力すべき音片データ又は音声波形データをこのキャッシュメモリに記憶させ、以後上述と同様に音声の再生あるいは出力する。これを全ての音片データ又は音声波形データの再生、出力が終了するまで繰り返す。   In step S308, when the personal computer generates synthesized speech data composed of a plurality of speech piece data, the data amount of each piece of speech piece data or each piece of speech waveform data is the above-described upper limit (specifically, for example, If the cache memory included in the personal computer is not exceeded, the first piece of speech data or speech waveform data is first stored in the cache memory, subjected to predetermined processing, and the speech piece data or speech waveform data is updated. It is assumed that the voice represented is reproduced or output to the outside. Subsequently, the sound piece data or audio waveform data to be reproduced and output next is stored in the cache memory, and thereafter the audio is reproduced or output in the same manner as described above. This is repeated until the reproduction and output of all sound piece data or audio waveform data is completed.

ステップS308における上述の所定の処理は、例えば上述した話速変換の処理に相当する処理であればよい。すなわち、ステップS308でこのパーソナルコンピュータは、当該所定の処理として、例えば、以下(B1)及び(B2)として示す処理を行えばよい。
(B1) キャッシュメモリが記憶している、有声音を表す音片データを構成するサンプルの時間間隔を変換することにより、この音片データが表す音片の時間長を、発声スピードデータが示すスピードに合致させる。キャッシュメモリが記憶しているデータが音声波形データである場合は、例えば、直前に(B1)の処理を施した音片データのサンプリングレートの変換の比率と同一の比率で、サンプルの時間間隔の変換を行う。
(B2) 上述の(B1)の処理の結果サンプリングレートが変換された音片データを変換して、この音片データが表す音片のピッチ周波数を、ステップS303で索出されたピッチ成分データが示す周波数のうち、(B1)の処理を経る前のこの音片データが表す音片のピッチ周波数に一致させる。キャッシュメモリが記憶しているデータが音声波形データである場合は、例えば、直前に(B2)の処理を施した音片データのピッチ周波数と同一のピッチ周波数を有する音声を表すように、変換を行う。
The predetermined process in step S308 may be a process corresponding to, for example, the speech speed conversion process described above. That is, in step S308, the personal computer may perform the following processing as (B1) and (B2), for example.
(B1) The speed indicated by the utterance speed data indicates the time length of the sound piece represented by the sound piece data by converting the time interval of the samples constituting the sound piece data representing the voiced sound stored in the cache memory. To match. When the data stored in the cache memory is audio waveform data, for example, the sampling time interval is set at the same rate as the conversion rate of the sampling rate of the sound piece data that has been subjected to the processing of (B1) immediately before. Perform conversion.
(B2) The sound piece data in which the sampling rate has been converted as a result of the processing of (B1) described above is converted, and the pitch frequency of the sound piece represented by the sound piece data is calculated as the pitch component data retrieved in step S303. Of the frequencies shown, it is made to coincide with the pitch frequency of the sound piece represented by this sound piece data before the processing of (B1). When the data stored in the cache memory is voice waveform data, for example, conversion is performed so as to represent a voice having the same pitch frequency as the pitch frequency of the sound piece data subjected to the processing (B2) immediately before. Do.

上述の(B2)の処理としてこのパーソナルコンピュータは、具体的には、例えば以下(B2a)〜(B2d)として示す処理を行えばよい。
(B2a) (B1)の処理を経た音片データと、振幅及び周波数が一定である第1の局部発振信号との混合を行う。
(B2b) (B2a)の処理の結果得られたデータをフィルタリング等することにより、当該データのうち、(1)の処理を経た音片データの周波数と第1の局部発振信号の周波数との和にあたる周波数を有する成分を抽出する。
(B2c) (B2b)の処理の結果得られた成分と、振幅及び周波数が一定である第2の局部発振信号との混合を行う。ただし、第2の局部発振信号の周波数は、当該混合により得られるデータのうち、(B2b)の処理で得られた成分の周波数と当該第2の局部発振信号の周波数との差にあたる周波数を有する成分が表す音片が、(B1)の処理を経る前の音片データが表す音片のピッチ周波数に一致するピッチ周波数を有するものとなるよう、ステップS303で索出されたピッチ成分データに基づいて決定されるものとする。
(B2d) (B2c)の処理の結果得られたデータをフィルタリング等することにより、当該データのうち、(B2b)の処理で得られた成分の周波数と第2の局部発振信号の周波数との差にあたる周波数を有する成分を抽出する。(B2d)の処理の結果抽出されるこの成分が、上述の(B2)の処理を経た音片データに相当するものである。
Specifically, the personal computer may perform, for example, the following processes (B2a) to (B2d) as the process (B2) described above.
(B2a) The sound piece data that has undergone the processing of (B1) is mixed with the first local oscillation signal having a constant amplitude and frequency.
(B2b) By filtering the data obtained as a result of the process (B2a), the sum of the frequency of the sound piece data subjected to the process (1) and the frequency of the first local oscillation signal among the data A component having a frequency corresponding to that is extracted.
(B2c) The component obtained as a result of the processing of (B2b) is mixed with the second local oscillation signal whose amplitude and frequency are constant. However, the frequency of the second local oscillation signal has a frequency corresponding to the difference between the frequency of the component obtained by the processing of (B2b) and the frequency of the second local oscillation signal in the data obtained by the mixing. Based on the pitch component data retrieved in step S303 so that the sound piece represented by the component has a pitch frequency that matches the pitch frequency of the sound piece represented by the sound piece data before the processing of (B1). Shall be determined.
(B2d) By filtering the data obtained as a result of the process of (B2c), the difference between the frequency of the component obtained by the process of (B2b) and the frequency of the second local oscillation signal among the data A component having a frequency corresponding to that is extracted. This component extracted as a result of the process (B2d) corresponds to the sound piece data subjected to the process (B2) described above.

なお、このパーソナルコンピュータは、ステップS308の処理を行う際、ステップS307で生成された音声波形データやステップS306で選択した音片データのデータ量が上述の上限を超える場合は、この上限を超えない分をキャッシュメモリに記憶させるものとする。そして、キャッシュメモリに記憶された分に所定の処理を施した後、この処理を経た音片データ又は音声波形データを、このパーソナルコンピュータが備える他の記憶装置(例えば、メインメモリ)の記憶領域内に格納し、残りの音片データ又は音声波形データのうち、上述の上限を超えない分をキャッシュメモリの記憶領域へと記憶させた後、当該所定の処理を続行するものとする。そして、当該所定の処理を経た音片データ又は音声波形データを、メインメモリ等の記憶領域内に、互いに連続するようにして順次格納して、これらの音片データ及び音声波形データがすべて当該所定の処理を経ると、この時点でメインメモリ等に記憶されている音片データ及び音声波形データの連続(すなわち合成音声データ)が表す音声を再生し、あるいは外部に出力するものとする。
もっとも、上述のように、出力ないし音声再生の対象である各音片データのそれぞれのデータ量は上述の上限を超えないので、このパーソナルコンピュータは、メインメモリへの一時記憶を経ることなく、音片データ又は音声波形データのそれぞれについて順次、音声再生ないし出力を行う。
When performing the process of step S308, this personal computer does not exceed this upper limit if the data amount of the speech waveform data generated in step S307 or the sound piece data selected in step S306 exceeds the above upper limit. The minutes are stored in the cache memory. Then, after performing predetermined processing on the amount stored in the cache memory, the sound piece data or voice waveform data that has undergone this processing is stored in the storage area of another storage device (for example, main memory) provided in the personal computer. , The remaining sound piece data or voice waveform data that does not exceed the above-mentioned upper limit is stored in the storage area of the cache memory, and then the predetermined processing is continued. Then, the sound piece data or the sound waveform data that has undergone the predetermined processing is sequentially stored in a storage area such as a main memory so as to be continuous with each other. After the above processing, the voice represented by the continuation of the speech piece data and the voice waveform data (that is, synthesized voice data) stored in the main memory or the like at this time is reproduced or output to the outside.
However, as described above, since the data amount of each piece of sound piece data that is the target of output or sound reproduction does not exceed the above upper limit, this personal computer does not go through temporary storage in the main memory, Audio reproduction or output is sequentially performed for each piece of data or audio waveform data.

また、パーソナルコンピュータに、上述したこの発明の第2の実施の形態における言語処理部1、一般単語辞書2、ユーザ単語辞書3、規則合成処理部4、音片編集部5、検索部6、音片データベース7及び伸長部8の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、この発明の第2の実施の形態に係る本体ユニットMを構成することができる。   In addition, the language processing unit 1, the general word dictionary 2, the user word dictionary 3, the rule synthesis processing unit 4, the sound piece editing unit 5, the search unit 6, the sound in the second embodiment of the present invention described above are connected to a personal computer. The main unit M according to the second embodiment of the present invention can be configured by installing the program from a recording medium storing the program for executing the operations of the fragment database 7 and the decompression unit 8.

そして、このプログラムを実行するパーソナルコンピュータが、この発明の第2の実施の形態に係る本体ユニットMの動作に相当する処理として、図4及び図5に示す処理と実質的に同一の処理を行うほか、加えて図7に示す処理を行うようにすることもできる。
図7は、この発明の第2の実施の形態に係る本体ユニットMの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。
The personal computer that executes this program performs substantially the same processing as the processing shown in FIGS. 4 and 5 as processing corresponding to the operation of the main unit M according to the second embodiment of the present invention. In addition, the processing shown in FIG. 7 can also be performed.
FIG. 7 is a flowchart showing a process when a personal computer that performs the function of the main unit M according to the second embodiment of the present invention acquires standard message data and utterance speed data.

すなわち、このプログラムを実行するパーソナルコンピュータは、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得すると、まず、上述のステップS301〜S306の処理と実質的に同一の処理を行うことにより、定型メッセージデータが表す定型メッセージを構成する音片の波形に最も近い波形を表す音片データを、音片1個につき1個ずつ選択する(図7、ステップS401〜S406)。   That is, when the personal computer that executes this program acquires the standard message data, the utterance speed data, and the collation level data, first, by performing substantially the same processing as the above-described steps S301 to S306, One piece of sound piece data representing the waveform closest to the waveform of the sound piece constituting the standard message represented by the message data is selected for each piece of sound (FIG. 7, steps S401 to S406).

そして、このパーソナルコンピュータは、欠落部分識別データを生成した場合、上述のステップS307の処理と実質的に同一の処理を行うことにより、欠落部分識別データが示す部分の音声の波形を表す音声波形データを生成する(ステップS407)。   When the personal computer generates missing part identification data, the personal computer performs substantially the same process as the process in step S307 described above, thereby generating voice waveform data representing the waveform of the voice of the part indicated by the missing part identification data. Is generated (step S407).

一方、このパーソナルコンピュータは、照合レベルデータの値に相当する条件を満たすものとして選択したそれぞれの音片データについて、当該音片データのデータ量が、所定の上限(具体的には、例えばこのパーソナルコンピュータが備えるキャッシュメモリの記憶容量)を超えているか否かを判別する(ステップS408)。そして、データ量が上限を超えていると判別した音片データを、上限を超えない複数の音片データへと分割する(ステップS409)。
なお、このパーソナルコンピュータは、ステップS409で音片データを分割する場合、音片のうち実質的に無音である区間に相当する位置を特定し、この位置でこの音片データを分割するものとする。
On the other hand, for each piece of sound piece data selected as satisfying the condition corresponding to the value of the collation level data, the data amount of the piece of piece data has a predetermined upper limit (specifically, for example, this personal computer It is determined whether or not the storage capacity of the cache memory provided in the computer is exceeded (step S408). Then, the sound piece data determined that the data amount exceeds the upper limit is divided into a plurality of sound piece data that does not exceed the upper limit (step S409).
When dividing the piece data in step S409, the personal computer specifies a position corresponding to a substantially silent section of the piece, and divides the piece data at this position. .

そして、このパーソナルコンピュータは、ステップS407の処理で生成された音声波形データと、ステップS406で選択した音片データ(ステップS409での分割により得られた音片データを含む)を、ステップS308の処理と実質的に同一の処理を行うことによって互いに結合することで合成音声データを生成し、この合成音声データが表す合成音声を再生し、あるいはこの合成音声データを外部に出力する(ステップS410)。ステップS409で音片データの分割を行っていた場合、ステップS410では、分割により得られた音片データのうちまず最初の分割音片データをキャッシュメモリに供給して所定の処理を施し、この音片データが表す音声を再生し、あるいはこの音片データを外部に出力する。以後、分割により得られた最後の音片データが表す音声の再生、あるいは当該音片データの出力を行うまで、次の順番の音片データに対して上述の処理を順次実行する。   Then, the personal computer uses the speech waveform data generated in step S407 and the speech piece data selected in step S406 (including the speech piece data obtained by the division in step S409) in step S308. The synthesized speech data is generated by combining with each other by performing substantially the same processing as described above, and the synthesized speech represented by the synthesized speech data is reproduced, or the synthesized speech data is output to the outside (step S410). If the sound piece data is divided in step S409, in step S410, the first divided sound piece data among the sound piece data obtained by the division is first supplied to the cache memory, and predetermined processing is performed. The sound represented by the piece data is reproduced or the sound piece data is output to the outside. Thereafter, the above-described processing is sequentially performed on the next sound piece data until the sound represented by the last sound piece data obtained by the division is reproduced or the sound piece data is output.

なお、このパーソナルコンピュータは、ステップS410の処理を行う際も、ステップS407の処理で生成された音声波形データやステップS406で選択した音片データのデータ量が上述の上限を超える場合は、この上限を超えない分をキャッシュメモリに記憶させるものとする。そして、キャッシュメモリに記憶された分に所定の処理を施した後、この処理を経た音片データ又は音声波形データを、このパーソナルコンピュータが備える他の記憶装置(例えば、メインメモリ)の記憶領域内に格納し、残りの音片データ又は音声波形データのうち、上述の上限を超えない分をキャッシュメモリの記憶領域へと記憶させた後、当該所定の処理を続行するものとする。そして、当該所定の処理を経た音片データ又は音声波形データを、メインメモリ等の記憶領域内に、互いに連続するようにして順次格納して、これらの音片データ及び音声波形データがすべて当該所定の処理を経ると、この時点でメインメモリ等に記憶されている音片データ及び音声波形データの連続(すなわち合成音声データ)が表す音声を再生し、あるいは外部に出力するものとする。
もっとも、上述のように、出力ないし音声再生の対象である各音片データのそれぞれのデータ量は上述の上限を超えないので、このパーソナルコンピュータは、メインメモリへの一時記憶を経ることなく、音片データ又は音声波形データのそれぞれについて順次、音声再生ないし出力を行う。ただし、実質的に無音である区間に相当する位置が存在しない音片データについては分割を行わないものとする場合などにおいては、ステップS410の処理に用いる音片データのデータ量が上述の上限を超える場合があり得る。
Even when the personal computer performs the process of step S410, if the data amount of the speech waveform data generated by the process of step S407 or the sound piece data selected in step S406 exceeds the upper limit, the upper limit is set. It is assumed that the amount not exceeding 1 is stored in the cache memory. Then, after performing predetermined processing on the amount stored in the cache memory, the sound piece data or voice waveform data that has undergone this processing is stored in the storage area of another storage device (for example, main memory) provided in the personal computer. , The remaining sound piece data or voice waveform data that does not exceed the above-mentioned upper limit is stored in the storage area of the cache memory, and then the predetermined processing is continued. Then, the sound piece data or the sound waveform data that has undergone the predetermined processing is sequentially stored in a storage area such as a main memory so as to be continuous with each other. After the above processing, the voice represented by the continuation of the speech piece data and the voice waveform data (that is, synthesized voice data) stored in the main memory or the like at this time is reproduced or output to the outside.
However, as described above, since the data amount of each piece of sound piece data that is the target of output or sound reproduction does not exceed the above upper limit, this personal computer does not go through temporary storage in the main memory, Audio reproduction or output is sequentially performed for each piece of data or audio waveform data. However, in the case of not dividing the sound piece data that does not have a position corresponding to a substantially silent section, the data amount of the sound piece data used for the processing in step S410 exceeds the above upper limit. It may be exceeded.

なお、パーソナルコンピュータに本体ユニットMや音片登録ユニットRの機能を行わせるプログラムは、例えば、通信回線の掲示板(BBS)にアップロードし、これを通信回線を介して配信してもよく、また、これらのプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。
そして、これらのプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
The program that causes the personal computer to perform the functions of the main unit M and the sound piece registration unit R may be uploaded to a bulletin board (BBS) of a communication line and distributed via the communication line. The carrier wave may be modulated with a signal representing these programs, the obtained modulated wave may be transmitted, and a device that receives the modulated wave may demodulate the modulated wave to restore these programs.
The above-described processing can be executed by starting up these programs and executing them under the control of the OS in the same manner as other application programs.

なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。   When the OS shares a part of the processing, or when the OS constitutes a part of one component of the present invention, a program excluding the part is stored in the recording medium. May be. Also in this case, in the present invention, it is assumed that the recording medium stores a program for executing each function or step executed by the computer.

この発明の第1及び第2の実施の形態に係る音声合成システムの構成を示すブロック図である。It is a block diagram which shows the structure of the speech synthesis system which concerns on 1st and 2nd embodiment of this invention. 音片データベースのデータ構造を模式的に示す図である。It is a figure which shows typically the data structure of a sound piece database. この発明の第1及び第2の実施の形態に係る音片登録ユニットの機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。It is a flowchart which shows the process which the personal computer which performs the function of the sound piece registration unit which concerns on the 1st and 2nd embodiment of this invention performs. この発明の第1及び第2の実施の形態に係る本体ユニットの機能を行うパーソナルコンピュータがフリーテキストデータを取得した場合の処理を示すフローチャートである。It is a flowchart which shows a process when the personal computer which performs the function of the main body unit which concerns on 1st and 2nd embodiment of this invention acquires free text data. この発明の第1及び第2の実施の形態に係る本体ユニットの機能を行うパーソナルコンピュータが配信文字列データを取得した場合の処理を示すフローチャートである。It is a flowchart which shows a process when the personal computer which performs the function of the main body unit which concerns on 1st and 2nd embodiment of this invention acquires delivery character string data. この発明の第1の実施の形態に係る本体ユニットの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。It is a flowchart which shows a process when the personal computer which performs the function of the main body unit which concerns on 1st Embodiment of this invention acquires fixed message data and utterance speed data. この発明の第2の実施の形態に係る本体ユニットの機能を行うパーソナルコンピュータが定型メッセージデータ及び発声スピードデータを取得した場合の処理を示すフローチャートである。It is a flowchart which shows a process when the personal computer which performs the function of the main body unit which concerns on 2nd Embodiment of this invention acquires fixed form message data and utterance speed data.

符号の説明Explanation of symbols

M 本体ユニット
1 言語処理部
2 一般単語辞書
3 ユーザ単語辞書
41 音響処理部
42 検索部
43,8 伸長部
44 波形データベース
5 音片編集部
51 形態素解析部
52 一致音片決定部
53 韻律予測部
54 出力合成部
6 検索部
7 音片データベース
R 音片登録ユニット
10 収録音片データセット記憶部
11 音片データベース作成部
12 圧縮部
HDR ヘッダ部
IDX インデックス部
DIR ディレクトリ部
DAT データ部
M Main unit 1 Language processing unit 2 General word dictionary 3 User word dictionary 41 Acoustic processing unit 42 Search units 43 and 8 Expansion unit 44 Waveform database 5 Sound piece editing unit 51 Morphological analysis unit 52 Matched sound piece determination unit 53 Prosody prediction unit 54 Output synthesis unit 6 Search unit 7 Sound piece database R Sound piece registration unit 10 Recorded sound piece data set storage unit 11 Sound piece database creation unit 12 Compression unit HDR Header unit IDX Index unit DIR Directory unit DAT Data unit

Claims (13)

音片を表す、データ量が所定量以下である音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶する音片記憶手段と、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換する形態素解析部と、
前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択する選択手段と、
前記選択手段により選択された音片データのうち、前記所定量以下の分を一時記憶する一時記憶手段と、
前記一時記憶手段が一時記憶する音片データに所定の処理を施す処理手段と、
前記処理手段が処理した音片データが表す音声を再生する再生手段と、を備える、
ことを特徴とする音声合成装置。
The speech piece data representing the speech piece and having the data amount equal to or smaller than the predetermined amount is associated with the phonogram representing the reading of the speech piece data or the phonogram representing the reading of the ID for identifying the speech piece data. Sound piece storage means for storing;
A morpheme analyzer that converts an ideogram or ID supplied from the outside into a phonogram string representing the reading of the ideogram or ID;
Selection means for selecting speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit;
Temporary storage means for temporarily storing the predetermined amount or less of the piece data selected by the selection means;
Processing means for performing predetermined processing on the sound piece data temporarily stored by the temporary storage means;
Replaying means for playing back the sound represented by the sound piece data processed by the processing means,
A speech synthesizer characterized by the above.
前記表意文字又はIDの韻律を予測する韻律予測手段を更に備え、
前記音片記憶手段は、前記音片データが表す音片のピッチの時間変化、又は、当該音片データに対応付けられたIDを読み上げる音声のピッチの時間変化を表す韻律データを、当該音片データに対応付けて記憶しており、
前記選択手段は、前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データのうちから、前記韻律予測手段が予測した韻律に所定の範囲で合致する韻律を表す韻律データが対応付けられている音片データを選択するものである、
ことを特徴とする請求項1に記載の音声合成装置。
Prosody prediction means for predicting the prosody of the ideogram or ID is further provided,
The sound piece storage means stores the prosody data representing the time change of the pitch of the sound piece represented by the sound piece data or the time change of the pitch of the voice that reads out the ID associated with the sound piece data. Stored in association with the data,
The selection means has a predetermined range of prosody predicted by the prosody prediction means from the speech piece data associated with the phonetic character string that matches the phonetic character string obtained as a result of the conversion by the morphological analysis unit. Is to select the piece data associated with the prosody data representing the prosody that matches.
The speech synthesizer according to claim 1.
前記選択手段は、前記韻律予測手段が予測した韻律に所定の範囲で合致しない韻律を表す韻律データが対応付けられたる音片データを、選択の対象から除外するものである、
ことを特徴とする請求項2に記載の音声合成装置。
The selection means excludes the speech piece data associated with the prosody data representing the prosody that does not match the prosody predicted by the prosody prediction means within a predetermined range from the selection target.
The speech synthesizer according to claim 2.
音片記憶手段は、IDの読みを表す表音文字が対応付けられた音片データについては、当該音片データに対応付けられた韻律データを記憶しておらず、
前記選択手段は、前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データのうちから、韻律データが対応付けられていない音片データを選択するものである、
ことを特徴とする請求項2又は3に記載の音声合成装置。
The speech piece storage means does not store the prosodic data associated with the speech piece data for the speech piece data associated with the phonetic character representing the ID reading,
The selecting means selects speech piece data not associated with prosodic data from speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit. To choose,
The speech synthesizer according to claim 2 or 3.
前記所定の処理は、前記一時記憶手段が一時記憶する音片データが表す音片の時間長が所定の時間長に合致するよう、当該音片データを変換する処理を含む、
ことを特徴とする請求項2、3又は4に記載の音声合成装置。
The predetermined process includes a process of converting the sound piece data so that the time length of the sound piece represented by the sound piece data temporarily stored in the temporary storage unit matches a predetermined time length.
The speech synthesizer according to claim 2, 3, or 4.
前記所定の処理は、前記一時記憶手段が一時記憶する音片データが表す音片の時間長が所定の時間長に合致し、且つ、当該音片データが表す音片のピッチ周波数が所定の条件に合致するよう、当該音片データを変換する処理を含む、
ことを特徴とする請求項2、3又は4に記載の音声合成装置。
In the predetermined processing, the time length of the sound piece represented by the sound piece data temporarily stored by the temporary storage unit matches the predetermined time length, and the pitch frequency of the sound piece represented by the sound piece data is a predetermined condition. Including processing to convert the sound piece data to match
The speech synthesizer according to claim 2, 3, or 4.
前記所定の処理は、
前記一時記憶手段が一時記憶する音片データが表す音片の時間長が所定の時間長に合致するよう、当該音片データを変換する第1の処理と、
前記第1の処理を経た音片データが表す音片の波形の瞬時値と第1の局部発振信号の瞬時値との積を表すデータを生成する第2の処理と、
前記第2の処理により生成されたデータのうち、前記一時記憶手段が一時記憶する音片データの周波数と前記第1の局部発振信号の周波数との和にあたる周波数を有する成分を抽出する第3の処理と、
前記第3の処理により得られた成分が表す音片の波形の瞬時値と第2の局部発振信号の瞬時値との積を表すデータを生成する第4の処理と、
前記第4の処理により生成されたデータのうち、前記第3の処理により得られた成分の周波数と前記第2の局部発振信号の周波数との差にあたる周波数を有する成分を抽出する第5の処理と、からなっており、
前記第4の処理は、当該第4の処理により得られるデータのうち、前記第3の処理により得られた成分の周波数と前記第2の局部発振信号の周波数との差にあたる周波数を有する成分が表す音片のピッチ周波数が、前記第1の処理を経る前の音片データが表す音片のピッチ周波数に合致するように、前記韻律データに基づいて、前記第2の局部発振信号の周波数を決定する処理を含む、
ことを特徴とする請求項2、3又は4に記載の音声合成装置。
The predetermined process is:
A first process for converting the sound piece data so that the time length of the sound piece represented by the sound piece data temporarily stored by the temporary storage means matches a predetermined time length;
A second process for generating data representing the product of the instantaneous value of the waveform of the sound piece represented by the sound piece data that has undergone the first process and the instantaneous value of the first local oscillation signal;
A third component that extracts a component having a frequency corresponding to the sum of the frequency of the sound piece data temporarily stored by the temporary storage unit and the frequency of the first local oscillation signal from the data generated by the second process Processing,
A fourth process for generating data representing the product of the instantaneous value of the waveform of the sound piece represented by the component obtained by the third process and the instantaneous value of the second local oscillation signal;
Fifth processing for extracting a component having a frequency corresponding to the difference between the frequency of the component obtained by the third processing and the frequency of the second local oscillation signal from the data generated by the fourth processing And consists of
The fourth process includes a component having a frequency corresponding to a difference between the frequency of the component obtained by the third process and the frequency of the second local oscillation signal in the data obtained by the fourth process. Based on the prosodic data, the frequency of the second local oscillation signal is set so that the pitch frequency of the sound piece to be represented matches the pitch frequency of the sound piece represented by the sound piece data before the first processing. Including processing to determine,
The speech synthesizer according to claim 2, 3, or 4.
音片を表す音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶する音片記憶手段と、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換する形態素解析部と、
前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択する選択手段と、
前記選択手段により選択された音片データのうち、データ量が所定量を超える音片データを、データ量が当該所定量以下である複数の音片データへと分割する分割手段と、
前記選択手段により選択された、データ量が前記所定量以下である音片データ、又は、前記分割手段による分割の結果得られた音片データのうち、前記所定量以下の分を一時記憶する一時記憶手段と、
前記一時記憶手段が一時記憶する音片データに所定の処理を施す処理手段と、
前記処理手段が処理した音片データが表す音声を再生する再生手段と、を備える、
ことを特徴とする音声合成装置。
Sound piece storage means for storing sound piece data representing a sound piece in association with a phonetic character representing a reading of the sound piece data or a phonetic character representing an ID reading identifying the sound piece data;
A morpheme analyzer that converts an ideogram or ID supplied from the outside into a phonogram string representing the reading of the ideogram or ID;
Selection means for selecting speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit;
Dividing means for dividing, among the sound piece data selected by the selecting means, sound piece data whose data amount exceeds a predetermined amount into a plurality of sound piece data whose data amount is equal to or less than the predetermined amount;
Temporary storage temporarily stored for the piece of piece data selected by the selection unit and having the data amount equal to or less than the predetermined amount or the piece of piece data obtained as a result of division by the dividing unit. Storage means;
Processing means for performing predetermined processing on the sound piece data temporarily stored by the temporary storage means;
Replaying means for playing back the sound represented by the sound piece data processed by the processing means,
A speech synthesizer characterized by the above.
前記分割手段は、データ量が所定量を超える音片データを、当該音片データが表す音片のうち実質的に無音である区間に相当する位置で分割する、
ことを特徴とする請求項8に記載の音声合成装置。
The dividing means divides sound piece data whose data amount exceeds a predetermined amount at a position corresponding to a substantially silent section of sound pieces represented by the sound piece data.
The speech synthesizer according to claim 8.
音片を表す、データ量が所定量以下である音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶し、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換し、
変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択し、
選択された音片データのうち、前記所定量以下の分を一時記憶し、
一時記憶された音片データに所定の処理を施し、
処理済みの音片データが表す音声を再生する、
ことを特徴とする音声合成方法。
The speech piece data representing the speech piece and having the data amount equal to or smaller than the predetermined amount is associated with the phonogram representing the reading of the speech piece data or the phonogram representing the reading of the ID for identifying the speech piece data. Remember,
The ideogram or ID supplied from the outside is converted into a phonogram string representing the reading of the ideogram or ID,
Select the speech piece data associated with the phonetic character string that matches the phonetic character string obtained as a result of the conversion,
Of the selected piece data, the portion below the predetermined amount is temporarily stored,
Apply predetermined processing to the temporarily stored sound piece data,
Play the sound represented by the processed piece data,
A speech synthesis method characterized by the above.
音片を表す音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶し、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換し、
変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択し、
選択された音片データのうち、データ量が所定量を超える音片データを、データ量が当該所定量以下である複数の音片データへと分割し、
選択された、データ量が前記所定量以下である音片データ、又は、分割の結果得られた音片データのうち、前記所定量以下の分を一時記憶し、
一時記憶された音片データに所定の処理を施し、
処理済みの音片データが表す音声を再生する、
ことを特徴とする音声合成方法。
Storing the speech piece data representing the speech piece in association with the phonogram representing the reading of the speech piece data or the phonogram representing the reading of the ID identifying the speech piece data;
The ideogram or ID supplied from the outside is converted into a phonogram string representing the reading of the ideogram or ID,
Select the speech piece data associated with the phonetic character string that matches the phonetic character string obtained as a result of the conversion,
Of the selected sound piece data, the sound piece data whose data amount exceeds a predetermined amount is divided into a plurality of sound piece data whose data amount is equal to or less than the predetermined amount,
Of the selected piece of piece data whose data amount is less than or equal to the predetermined amount, or of the piece of piece data obtained as a result of the division, temporarily store the amount less than or equal to the predetermined amount,
Apply predetermined processing to the temporarily stored sound piece data,
Play the sound represented by the processed piece data,
A speech synthesis method characterized by the above.
コンピュータを、
音片を表す、データ量が所定量以下である音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶する音片記憶手段と、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換する形態素解析部と、
前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択する選択手段と、
前記選択された音片データのうち、前記所定量以下の分を一時記憶する一時記憶手段と、
前記一時記憶手段が記憶する音片データに所定の処理を施す処理手段と、
前記処理手段が処理した音片データが表す音声を再生する再生手段と、
して機能させるためのプログラム。
Computer
The speech piece data representing the speech piece and having the data amount equal to or smaller than the predetermined amount is associated with the phonogram representing the reading of the speech piece data or the phonogram representing the reading of the ID for identifying the speech piece data. Sound piece storage means for storing;
A morpheme analyzer that converts an ideogram or ID supplied from the outside into a phonogram string representing the reading of the ideogram or ID;
Selection means for selecting speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit;
Temporary storage means for temporarily storing less than the predetermined amount of the selected sound piece data;
Processing means for performing predetermined processing on the sound piece data stored in the temporary storage means;
Playback means for playing back the sound represented by the sound piece data processed by the processing means;
Program to make it function.
コンピュータを、
音片を表す音片データを、当該音片データの読みを表す表音文字、又は当該音片データを識別するIDの読みを表す表音文字と対応付けて記憶する音片記憶手段と、
外部より供給された表意文字又はIDを、当該表意文字又はIDの読みを表す表音文字列に変換する形態素解析部と、
前記形態素解析部による変換の結果得られた表音文字列と一致する表音文字に対応付けられた音片データを選択する選択手段と、
前記選択手段により選択された音片データのうち、データ量が所定量を超える音片データを、データ量が当該所定量以下である複数の音片データへと分割する分割手段と、
前記選択手段により選択された、データ量が前記所定量以下である音片データ、又は、前記分割手段による分割の結果得られた音片データのうち、前記所定量以下の分を一時記憶する一時記憶手段と、
前記一時記憶手段が記憶する音片データに所定の処理を施す処理手段と、
前記処理手段が処理した音片データが表す音声を再生する再生手段と、
して機能させるためのプログラム。
Computer
Sound piece storage means for storing sound piece data representing a sound piece in association with a phonetic character representing a reading of the sound piece data or a phonetic character representing an ID reading identifying the sound piece data;
A morpheme analyzer that converts an ideogram or ID supplied from the outside into a phonogram string representing the reading of the ideogram or ID;
Selection means for selecting speech piece data associated with a phonetic character string that matches a phonetic character string obtained as a result of conversion by the morphological analysis unit;
Dividing means for dividing, among the sound piece data selected by the selecting means, sound piece data whose data amount exceeds a predetermined amount into a plurality of sound piece data whose data amount is equal to or less than the predetermined amount;
Temporary storage temporarily stored for the piece of piece data selected by the selection unit and having the data amount equal to or less than the predetermined amount or the piece of piece data obtained as a result of division by the dividing unit. Storage means;
Processing means for performing predetermined processing on the sound piece data stored in the temporary storage means;
Playback means for playing back the sound represented by the sound piece data processed by the processing means;
Program to make it function.
JP2005007166A 2005-01-14 2005-01-14 Device and method for synthesizing voice, and program therefor Pending JP2006195207A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005007166A JP2006195207A (en) 2005-01-14 2005-01-14 Device and method for synthesizing voice, and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005007166A JP2006195207A (en) 2005-01-14 2005-01-14 Device and method for synthesizing voice, and program therefor

Publications (1)

Publication Number Publication Date
JP2006195207A true JP2006195207A (en) 2006-07-27

Family

ID=36801335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005007166A Pending JP2006195207A (en) 2005-01-14 2005-01-14 Device and method for synthesizing voice, and program therefor

Country Status (1)

Country Link
JP (1) JP2006195207A (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61290499A (en) * 1985-06-18 1986-12-20 日本電気株式会社 Enunciation speed varying voice synthesizer
JPH01284898A (en) * 1988-05-11 1989-11-16 Nippon Telegr & Teleph Corp <Ntt> Voice synthesizing device
JPH11249679A (en) * 1998-03-04 1999-09-17 Ricoh Co Ltd Voice synthesizer
JP2000305582A (en) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd Speech synthesizing device
JP2001312300A (en) * 2000-05-02 2001-11-09 Sony Corp Voice synthesizing device
JP2002358091A (en) * 2001-06-01 2002-12-13 Matsushita Electric Ind Co Ltd Method and device for synthesizing voice
JP2004246227A (en) * 2003-02-17 2004-09-02 Matsushita Electric Ind Co Ltd Text speech synthesis system and method
JP2004326367A (en) * 2003-04-23 2004-11-18 Sharp Corp Text analysis device, text analysis method and text audio synthesis device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61290499A (en) * 1985-06-18 1986-12-20 日本電気株式会社 Enunciation speed varying voice synthesizer
JPH01284898A (en) * 1988-05-11 1989-11-16 Nippon Telegr & Teleph Corp <Ntt> Voice synthesizing device
JPH11249679A (en) * 1998-03-04 1999-09-17 Ricoh Co Ltd Voice synthesizer
JP2000305582A (en) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd Speech synthesizing device
JP2001312300A (en) * 2000-05-02 2001-11-09 Sony Corp Voice synthesizing device
JP2002358091A (en) * 2001-06-01 2002-12-13 Matsushita Electric Ind Co Ltd Method and device for synthesizing voice
JP2004246227A (en) * 2003-02-17 2004-09-02 Matsushita Electric Ind Co Ltd Text speech synthesis system and method
JP2004326367A (en) * 2003-04-23 2004-11-18 Sharp Corp Text analysis device, text analysis method and text audio synthesis device

Similar Documents

Publication Publication Date Title
JP4516863B2 (en) Speech synthesis apparatus, speech synthesis method and program
KR101076202B1 (en) Speech synthesis device speech synthesis method and recording media for program
JP4620518B2 (en) Voice database manufacturing apparatus, sound piece restoration apparatus, sound database production method, sound piece restoration method, and program
JP4287785B2 (en) Speech synthesis apparatus, speech synthesis method and program
JP4264030B2 (en) Audio data selection device, audio data selection method, and program
JP4411017B2 (en) SPEED SPEED CONVERTER, SPEED SPEED CONVERSION METHOD, AND PROGRAM
JP2005018036A (en) Device and method for speech synthesis and program
JP4407305B2 (en) Pitch waveform signal dividing device, speech signal compression device, speech synthesis device, pitch waveform signal division method, speech signal compression method, speech synthesis method, recording medium, and program
JP4574333B2 (en) Speech synthesis apparatus, speech synthesis method and program
JP4209811B2 (en) Voice selection device, voice selection method and program
JP2006195207A (en) Device and method for synthesizing voice, and program therefor
JP4620517B2 (en) Voice database manufacturing apparatus, sound piece restoration apparatus, sound database production method, sound piece restoration method, and program
JP2007108450A (en) Voice reproducing device, voice distributing device, voice distribution system, voice reproducing method, voice distributing method, and program
JP2006145690A (en) Speech synthesizer, method for speech synthesis, and program
JP2006145848A (en) Speech synthesizer, speech segment storage device, apparatus for manufacturing speech segment storage device, method for speech synthesis, method for manufacturing speech segment storage device, and program
JP4184157B2 (en) Audio data management apparatus, audio data management method, and program
JP4816067B2 (en) Speech database manufacturing apparatus, speech database, sound piece restoration apparatus, sound database production method, sound piece restoration method, and program
KR20100003574A (en) Appratus, system and method for generating phonetic sound-source information
JP4780188B2 (en) Audio data selection device, audio data selection method, and program
JP2007240987A (en) Voice synthesizer, voice synthesizing method, and program
JP2007240988A (en) Voice synthesizer, database, voice synthesizing method, and program
JP2007240989A (en) Voice synthesizer, voice synthesizing method, and program
JP2007240990A (en) Voice synthesizer, voice synthesizing method, and program
JP2004361944A (en) Voice data selecting device, voice data selecting method, and program
JP2001109489A (en) Voice information processing method, voice information processor and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100413

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100803