JP2001312291A - Method for generating numeral voice waveform and method and device for synthesizing numerical voice - Google Patents
Method for generating numeral voice waveform and method and device for synthesizing numerical voiceInfo
- Publication number
- JP2001312291A JP2001312291A JP2000133181A JP2000133181A JP2001312291A JP 2001312291 A JP2001312291 A JP 2001312291A JP 2000133181 A JP2000133181 A JP 2000133181A JP 2000133181 A JP2000133181 A JP 2000133181A JP 2001312291 A JP2001312291 A JP 2001312291A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- digit
- voice
- numeric
- digits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】この発明は数字音声波形の作
成方法、数字音声の合成方法および装置に関し、特に、
複数の数字音声を連続して発生させる場合に、自然な抑
揚をもつ数字音声を発生させることができるようにした
数字音声波形の作成方法、数字音声の合成方法および装
置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for forming a numeric voice waveform, a method and an apparatus for synthesizing a numeric voice,
The present invention relates to a method of generating a numeric voice waveform, a method of synthesizing a numeric voice, and a device capable of generating a numeric voice having a natural intonation when a plurality of numeric voices are continuously generated.
【0002】[0002]
【従来の技術】従来から、電話番号の案内サービス等に
見られるように、数字音声を合成して顧客に電話番号を
提供するサービスが実用化されている。このようなサー
ビスでは、数字が一つずつ独立的に発音されており、全
体を通して聞くと、不自然な感じがする。2. Description of the Related Art Conventionally, a service for synthesizing numeral voices and providing a telephone number to a customer has been put to practical use as seen in a telephone number guidance service and the like. In such a service, numbers are pronounced independently one by one, and when heard throughout, it feels unnatural.
【0003】また、従来から、複数桁の数字、例えば4
桁の数字を連続的に発声した場合に自然に聞こえる基本
周波数パターンは、図7のように、最初の2桁、例えば
「ゼロ」と「イチ」は一つの尾根を形成し、また、次の
2桁、例えば「ニー」と「ヨン」が他の尾根を形成し、
1つ目の尾根の高さは「高」程度、2つ目の尾根の高さ
は「中」程度であることが知られている。また、3桁の
数字の場合には、最初の2桁は図7の最初の2桁と同じ
尾根形状および高さを示し、3桁目は図7の後の2桁と
同じ尾根形状で高さが「中」または「低」となることが
知られている。Conventionally, a plurality of digits, for example, 4
As shown in FIG. 7, the fundamental frequency pattern that sounds natural when the digits of a digit are continuously uttered is such that the first two digits, for example, “zero” and “one” form one ridge, and Two digits, for example "Knee" and "Yon" form another ridge,
It is known that the height of the first ridge is “high” and the height of the second ridge is “medium”. In the case of a three-digit number, the first two digits have the same ridge shape and height as the first two digits in FIG. 7, and the third digit has the same ridge shape and height as the last two digits in FIG. Is known to be "medium" or "low".
【0004】[0004]
【発明が解決しようとする課題】前記した電話番号の案
内サービス等の従来技術では、提供される数字音声が不
自然に聞こえるため、顧客はこの不自然さに気を取られ
て正しい数字音声を聞き逃すことが生ずるという問題、
換言すれば情報の伝達にミスが生じやすいという問題が
あった。In the prior art such as the telephone number guidance service described above, the provided numeric voice sounds unnatural, and the customer pays attention to this unnaturalness and plays a correct numeric voice. The problem of oversight
In other words, there has been a problem that errors are likely to occur in information transmission.
【0005】また、複数桁の数字、例えば4桁の数字の
自然に聞こえる発声パターンを予め全部用意しておき、
発声の要求があった都度、該要求のあった発声パターン
を再生して発声させようとすると、0000から999
9までの発声パターン、すなわち104 個のデータを用
意しなければならず、メモリに記憶させるデータ量が非
常に大きくなるという問題があった。またこの問題は、
発声させる数字の桁数が増えると、10のべき乗で増加
するという問題があった。[0005] Also, a naturally utterable utterance pattern of a plurality of digits, for example, a four-digit number, is prepared in advance,
Whenever an utterance request is made, the requested utterance pattern is reproduced and uttered.
Up to 9 utterance patterns, that is, 10 4 data must be prepared, and there is a problem in that the amount of data stored in the memory becomes very large. The problem is
When the number of digits to be uttered increases, there is a problem that the number increases by a power of 10.
【0006】この発明の目的は、前記した従来技術の問
題点を解消し、複数桁の数字を連続発声した場合、自然
な抑揚のある数字音声で聞こえる数字音声の合成方法お
よび装置を提供することにある。また、他の目的は、メ
モリに記憶させるデータ量が少なくても自然な抑揚のあ
る複数桁の数字音声を再生する数字音声波形の作成方
法、数字音声の合成方法および装置を提供することにあ
る。SUMMARY OF THE INVENTION It is an object of the present invention to provide a method and an apparatus for synthesizing a numeric voice which can be heard as a numeric voice with natural inflections when a plurality of digits are continuously uttered. It is in. It is another object of the present invention to provide a method of creating a numeric voice waveform for reproducing a numeric voice of a plurality of digits with natural inflections even if the amount of data stored in the memory is small, and a method and apparatus for synthesizing numeric voices. .
【0007】[0007]
【課題を解決するための手段】前記した目的を達成する
ために、本発明は、0から9まで変化させて単独で発声
した波形と、3桁または4桁数字の後半1桁または2桁
を任意の1桁または2桁の数字に固定した状態で、前半
の2桁を00(ゼロゼロ)から99(キューキュー)ま
で変化させて3桁または4桁数字を連続発声した波形と
を、基本周波数の高い数字音声波形として記録するよう
にした点、および3桁または4桁数字の前半2桁を任意
の2桁の数字に固定した状態で、後半の1桁を0から9
まで変化させて3桁数字を連続発声した波形と、該後半
の2桁を00(ゼロゼロ)から99(キューキュー)ま
で変化させて4桁数字を連続発声した波形とを、基本周
波数の低い数字音声波形として記録するようにした点に
第1の特徴がある。この特徴によれば、数字の音声合成
の基となる、メモリに記憶させる数字音声波形のデータ
量を、大幅に低減することができる。In order to achieve the above-mentioned object, the present invention relates to a method in which a single uttered waveform varying from 0 to 9 is combined with the last one or two digits of a three- or four-digit number. A waveform in which the first two digits are changed from 00 (zero zero) to 99 (cue queue) while the first two digits are fixed to an arbitrary one or two digits, and a three- or four-digit number is continuously uttered, is a fundamental frequency. The first two digits of a three- or four-digit number are fixed to an arbitrary two-digit number, and the second digit is set to 0 to 9
The waveform in which the three digits are continuously uttered while changing the second digit and the waveform in which the last two digits are continuously uttered by changing the two digits from 00 (zero zero) to 99 (cue cue) are converted into a low fundamental frequency number. A first feature is that the sound waveform is recorded. According to this feature, it is possible to greatly reduce the data amount of the numeric voice waveform stored in the memory, which is the basis of the voice synthesis of the numbers.
【0008】また、本発明は、基本周波数の高い数字音
声波形と、基本周波数の低い数字音声波形とを結合し
て、3桁または4桁の数字音声を合成するようにした点
に第2の特徴がある。この特徴によれば、自然な抑揚の
ある数字音声を再生することができるようになる。Further, the present invention is characterized in that a numeral voice waveform having a high fundamental frequency and a numeral voice waveform having a low fundamental frequency are combined to synthesize a three- or four-digit numeral voice. There are features. According to this feature, it is possible to reproduce a numeric voice with natural intonation.
【0009】また、本発明は、数字列を先頭から2桁ず
つの区間に分割し、奇数区間の数字には基本周波数の高
い数字音声波形を指定し、偶数区間の数字には基本周波
数の低い数字音声波形を指定し、これらの数字音声波形
を結合して前記数字列の音声を合成するようにした点に
第3の特徴がある。この特徴によれば、自然な抑揚のあ
る多数桁の数字音声を再生することができるようにな
る。Further, according to the present invention, a numeral string is divided into intervals of two digits from the beginning, a numeral voice waveform having a high fundamental frequency is designated for a numeral in an odd period, and a low-frequency sound waveform having a low fundamental frequency is designated for a numeral in an even period. A third feature is that a numeral voice waveform is designated and these numeral voice waveforms are combined to synthesize the voice of the numeral string. According to this feature, it is possible to reproduce a multi-digit numeric voice with natural intonation.
【0010】また、本発明は、基本周波数の高い数字音
声波形と、基本周波数の低い数字音声波形とを記憶する
音声波形蓄積部と、数字列を先頭から2桁ずつの区間に
分割する数字列分割部と、該区間毎に、基本周波数の高
さ指定を行う基本周波数高さ指定部と、該基本周波数高
さ指定部で指定された高さの数字音声波形を前記音声波
形蓄積部から抽出する音声波形抽出部と、該音声波形抽
出部から抽出された数字音声波形を結合して出力する音
声信号出力部とを具備した点に第4の特徴がある。この
特徴によれば、自然な抑揚のある多数桁の数字音声を再
生する数字音声の合成装置を提供できるようになる。The present invention also provides a voice waveform storage unit for storing a numeric voice waveform having a high fundamental frequency and a numeric voice waveform having a low fundamental frequency, and a numeric string for dividing the numeric string into two-digit sections from the beginning. A dividing unit, a fundamental frequency height designating unit for designating a fundamental frequency height for each section, and a numeric speech waveform having a height designated by the fundamental frequency height designating unit are extracted from the speech waveform accumulating unit. A fourth characteristic lies in that an audio waveform extracting unit for performing the above-mentioned operations and an audio signal output unit for combining and outputting the numeric audio waveforms extracted from the audio waveform extracting unit are provided. According to this feature, it is possible to provide a digit voice synthesizing apparatus that reproduces a multi-digit numeric voice with natural intonation.
【0011】[0011]
【発明の実施の形態】以下に、図面を参照して、本発明
を詳細に説明する。まず、本発明の数字音声波形の作成
方法について説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below in detail with reference to the drawings. First, a method for producing a numeric voice waveform according to the present invention will be described.
【0012】4桁数字を連続発声すると、前半の2桁は
基本周波数が高程度の第1の尾根を形成し、後半の2桁
は基本周波数が中または低程度の第2の尾根を形成する
ことに着目し、本発明では、前半の2桁の数字発声の波
形と、後半の2桁の数字発声の波形とを別々に作り、こ
れらの波形を任意に組み合わせて4桁の数字音声を合成
するようにする。When four-digit numbers are uttered continuously, the first two digits form a first ridge having a high fundamental frequency, and the second two digits form a second ridge having a medium or low fundamental frequency. Focusing on this, in the present invention, the waveform of the first two digits of the numeric utterance and the waveform of the second half of the two digits are separately generated, and these waveforms are arbitrarily combined to synthesize the four-digit numeric voice. To do it.
【0013】そこで、本発明では、図1に示されている
ように、後半2桁を任意の2桁または1桁の数字に固定
した状態で、前半の2桁XX' を00から99まで変化
させて4桁数字を連続発声し、該4桁数字の連続発声を
録音により、前半の2桁の数字発声波形として記憶す
る。例えば、後半2桁を「ニー」「ヨン」に固定して、
前半の2桁XX' を00(ゼロゼロ)から99(キュー
キュー)まで変化させて、4桁数字を連続発声する。す
なわち、「ゼロ」「ゼロ」「ニー」「ヨン」、「ゼロ」
「イチ」「ニー」「ヨン」、「ゼロ」「ニー」「ニー」
「ヨン」、…、「キュー」「キュー」「ニー」「ヨン」
と発声して録音する。これにより、100個の数字発声
波形が前半の2桁XX' の発声を含む波形として記憶さ
れる。Therefore, in the present invention, as shown in FIG. 1, the first two digits XX 'are changed from 00 to 99 while the latter two digits are fixed to any two or one digit. Then, the four-digit number is continuously uttered, and the continuous utterance of the four-digit number is recorded and stored as the first two-digit number utterance waveform. For example, fix the last two digits to "knee" and "yon"
The first two digits XX ′ are changed from 00 (zero zero) to 99 (cue queue), and four digits are uttered continuously. That is, "zero""zero""knee""yon","zero"
"Ichi""Knee""Yon","Zero""Knee""Knee"
“Yeon”,…, “Cue” “Cue” “Knee” “Yon”
And record. As a result, 100 numeric utterance waveforms are stored as waveforms including the first two digits of XX 'utterance.
【0014】次に、前記とは逆に、図2に示されている
ように、前半の2桁を任意の2桁の数字、例えば「ニ
ー」「ヨン」に固定して、後半2桁YY' を、「ゼロ」
「ゼロ」から「キュー」「キュー」まで変化させて、4
桁数字で連続発声し、これを録音することにより、後半
2桁YY' の数字発声を含む波形として記憶する。これ
により、100個の数字発声波形が後半2桁YY' の発
声を含む波形として記憶される。Next, on the contrary, as shown in FIG. 2, the first two digits are fixed to an arbitrary two-digit number, for example, "Knee" or "Yon", and the second half is YY. 'To "zero"
Change from "zero" to "queue""queue", 4
A continuous utterance is made with digit numbers, and the recorded utterance is stored as a waveform including the utterance of the last two digits YY '. As a result, 100 numeric utterance waveforms are stored as waveforms including the utterance of the last two digits YY '.
【0015】また、1桁の数字を発声する場合を想定し
て、1桁数字の「ゼロ」〜「キュー」までの10個の発
声波形を、前記100個の前半の2桁XX' の数字発声
波形に追加して記憶する。さらに、3桁の数字を発声す
る場合を想定して、前半の2桁を任意の2桁の数字に固
定して、後半1桁の数字を「ゼロ」〜「キュー」まで変
化させて3桁数字で連続発声し録音する。そして、この
10個の発声波形を、前記100個の後半2桁YY' の
数字発声波形に追加して記憶する。Further, assuming that a one-digit number is uttered, the ten uttered waveforms from the one-digit number “zero” to “cue” are converted into the first two half-digit numbers XX ′ of the 100 digits. It is stored in addition to the utterance waveform. Furthermore, assuming the case of uttering a three-digit number, the first two digits are fixed to an arbitrary two-digit number, and the last one digit is changed from “zero” to “cue” to three digits. Speak and record numbers continuously. Then, the ten utterance waveforms are stored in addition to the 100 latter two-digit YY 'numeral utterance waveforms.
【0016】したがって、本発明では、前半の数字発声
波形として110個、後半の数字発声波形として110
個の波形が、蓄積されることになる。Therefore, in the present invention, the first half number utterance waveform is 110 and the second half number utterance waveform is 110.
Individual waveforms will be accumulated.
【0017】次に、本発明の、数字音声の合成方法の一
実施形態について説明する。Next, an embodiment of the method of synthesizing a numeric voice according to the present invention will be described.
【0018】(1) 発声する数字が1桁の場合には、前記
の録音により得た前半の数字発声波形の中から、該当す
る1桁の数字発声波形を取り出して、再生する。(1) When the number to be uttered is one digit, the corresponding one-digit number utterance waveform is taken out of the first half number utterance waveform obtained by the above recording and reproduced.
【0019】(2) 発声する数字が2桁の場合には、前記
の録音により得た前半の数字発声波形の中から、該当す
る2桁の数字発声波形の断片を切り出して、再生する。(2) When the number to be uttered is two digits, a corresponding two-digit number utterance waveform fragment is cut out of the first half number utterance waveform obtained by the above-mentioned recording and reproduced.
【0020】(3) 発声する数字が3桁の場合には、前記
の録音により得た前半の数字発声波形の中から、該当す
る2桁の数字発声波形の断片を切り出し、さらに後半の
数字発声波形の中から、該当する1桁の数字発声波形の
断片を切り出して、両数字発声波形断片を結合して再生
する。この場合、前半の2桁と後半の1桁の音声区間の
前後に無音を付けずに切り出し、結合する。(3) When the number to be uttered is three digits, the corresponding two-digit number utterance waveform is cut out of the first half of the number utterance waveform obtained by the above recording, and the second half of the number utterance is further cut out. From the waveform, a corresponding one digit digit utterance waveform fragment is cut out, and the two digit utterance waveform fragments are combined and reproduced. In this case, the sound section is cut out without silence before and after the first two digits and the last one digit voice section and combined.
【0021】(4) 発声する数字が4桁の場合には、前記
の録音により得た前半の数字発声波形の中から、該当す
る2桁の数字発声波形の断片を切り出し、さらに後半の
数字発声波形の中から、該当する2桁の数字発声波形の
断片を切り出して、両数字発声波形断片を結合して再生
する。この場合、前の2桁と後の2桁の音声区間の前後
に無音を付けずに切り出し、結合する。例えば、図3に
示されているように、前半2桁XX' ,後半2桁YY'
の音声波形の断片を結合して、4桁(XX' YY' )の
音声を合成する。なお、該4桁の音声に不連続感が残る
場合には、前記前後2桁ずつの音声波形の結合部(図の
A点)に100m秒程度の無音期間を挿入するのが好ま
しい。前記(3) および後述の(5) の場合も同様である。(4) When the number to be uttered is four digits, a fragment of the corresponding two-digit number utterance waveform is cut out from the first half number utterance waveform obtained by the above recording, and the second half number utterance is further cut out. From the waveform, a corresponding two-digit number utterance waveform fragment is cut out, and the two-digit utterance waveform fragments are combined and reproduced. In this case, the sound section is cut out without any silence before and after the two-digit voice section before and after the two-digit voice section and combined. For example, as shown in FIG. 3, the first two digits XX 'and the last two digits YY'
Are combined to synthesize a 4-digit (XX'YY ') voice. If a discontinuity remains in the four-digit voice, it is preferable to insert a silent period of about 100 msec into the joint (point A in the figure) of the two preceding and following two-digit voice waveforms. The same applies to the case of (3) and (5) described later.
【0022】(5) 発声する数字が5桁以上の場合には、
先頭から4桁毎に区分けし、各区分けされた数字に対し
て、前記(1) 〜(4) の方法を適用して再生する。例え
ば、発声する数字が5桁の場合には、先頭から4桁まで
は(4) の方法で再生し、5桁目は(1) の方法で再生す
る。また、発声する数字が10桁の場合には、1桁〜4
桁、5桁〜8桁はそれぞれ(4) の方法で再生し、9、1
0桁目は(2) の方法で再生する。この場合には、先頭か
ら4桁ずつ独立に処理し、これらの4桁の間に300m
秒程度の無音を挟んで接続する。(5) If the number to be uttered is 5 digits or more,
The data is divided into four digits from the beginning, and the divided numbers are reproduced by applying the above-mentioned methods (1) to (4). For example, if the number to be uttered is five digits, the first four digits are reproduced by the method (4), and the fifth digit is reproduced by the method (1). If the number to be uttered is 10 digits, 1 digit to 4 digits
Digit, 5 to 8 digits are reproduced by the method of (4), respectively,
The 0th digit is reproduced by the method of (2). In this case, processing is performed independently for each four digits from the beginning, and 300 m is interposed between these four digits.
Connect with silence for about a second.
【0023】次に、本発明の、数字音声の合成装置の一
実施形態について説明する。この合成装置は、例えばコ
ンピュータを用いて実現することができる。図4は、本
発明の一実施形態の構成を示す機能ブロック図である。Next, an embodiment of the numeral speech synthesizing apparatus according to the present invention will be described. This synthesizing device can be realized using, for example, a computer. FIG. 4 is a functional block diagram showing the configuration of one embodiment of the present invention.
【0024】図において、1は、入力された数字列を、
先頭から2桁ずつに分割する数字列分割部、2は、該分
割された数字に基本周波数の高さ(すなわち、ピッチ)
を指定する基本周波数高さ指定部、3は、基本周波数パ
ターンの第1の尾根に対応する2桁数字および1桁数字
の音声波形、および第2の尾根に対応する2桁数字およ
び1桁数字の音声波形を蓄積する音声波形蓄積部、4
は、前記基本周波数高さ指定部2から指定された位置に
適した基本周波数をもつ音声波形を音声波形蓄積部3か
ら抽出する音声波形抽出部、5は、必要に応じて無音を
挿入しつつ、音声波形をスピーカまたは電話回線に出力
する音声信号出力部である。In the figure, reference numeral 1 denotes an input numeral string,
The digit string dividing unit 2 that divides each digit into two digits from the beginning adds the height (ie, pitch) of the fundamental frequency to the divided digits.
Is a two-digit and one-digit voice waveform corresponding to the first ridge and a two-digit and one-digit number corresponding to the second ridge of the fundamental frequency pattern. Voice waveform storage unit for storing voice waveforms of
The audio waveform extraction unit 5 extracts an audio waveform having a basic frequency suitable for the position designated by the fundamental frequency height designation unit 2 from the audio waveform storage unit 3, and the speech waveform extraction unit 5 inserts silence as necessary. And an audio signal output unit for outputting an audio waveform to a speaker or a telephone line.
【0025】前記基本周波数高さ指定部2は、前記数字
列分割部1で分割された区間の奇数番目に対しては高い
基本周波数を指定し、偶数番目に対しては低い基本周波
数を指定する。音声波形蓄積部3には、基本周波数の高
い波形である前半の2桁音声波形3aと、基本周波数の
低い波形である後半の2桁音声波形3bを含む波形とが
記憶されており、基本周波数高さ指定部2によって高い
基本周波数が指定されると、音声波形抽出部4からの音
声波形抽出信号aによって、前半の2桁音声波形3aか
ら音声波形が切出され、一方低い基本周波数が指定され
ると、後半の2桁音声波形3bから音声波形が切出され
る。The fundamental frequency height designating section 2 designates a high fundamental frequency for odd-numbered sections and a low fundamental frequency for even-numbered sections of the section divided by the digit string dividing section 1. . The audio waveform storage unit 3 stores a waveform including a first two-digit audio waveform 3a which is a waveform having a high basic frequency and a waveform including a second two-digit audio waveform 3b which is a waveform having a low basic frequency. When a high fundamental frequency is designated by the height designation unit 2, a speech waveform is cut out from the first two-digit speech waveform 3a by the speech waveform extraction signal a from the speech waveform extraction unit 4, while a low fundamental frequency is designated. Then, an audio waveform is cut out from the latter two-digit audio waveform 3b.
【0026】次に、本実施形態の動作を、図4と図5を
参照して説明する。図5は、本実施形態の動作を説明す
るためのフローチャートである。例えば電話番号の数字
列{an }(nは、正の整数)が数字列分割部1に入力
すると(ステップS1)、数字列分割部1は、該数字列
{an }を先頭から2桁ずつの区間に分割する(全部で
m区間とする)(ステップS2)。次に、m=1と置き
(ステップS3)、基本周波数高さ指定部2は、第m区
間の2桁数字(または、1桁数字)の基本周波数の高さ
(前半の音声波形または後半の音声波形)を指定する
(ステップS4)。次に、音声波形抽出部4は、第m区
間の2桁数字(または、1桁数字)の音声波形を、指定
された音声波形蓄積部3中の領域から抽出する(ステッ
プS5)。そして、音声信号出力部5は、該抽出された
音声波形を、スピーカまたは電話回線に出力する(ステ
ップS6)。ステップS7では、前記数字列{an }の
全部がスピーカまたは電話回線に出力されたか否かの判
断がなされ、この判断が否定の時にはステップS8に進
んで、mに1が加算される。そして、再度ステップS4
に戻って、前記と同様の動作が続けられる。前記の動作
が繰り返し行われ、ステップS7の判断が肯定になる
と、本実施形態の動作は終了する。なお、前記音声信号
出力部5は、必要に応じて、前半の2桁数字と後半の2
桁数字との間に無音を挿入して、自然な抑揚のある複数
桁の数字音声を生成するようにする。Next, the operation of this embodiment will be described with reference to FIGS. FIG. 5 is a flowchart for explaining the operation of the present embodiment. For example, when a numeral string {an} (n is a positive integer) of a telephone number is input to the numeral string division unit 1 (step S1), the numeral string division unit 1 converts the numeral string {an} into two digits from the beginning. (Step m2) (step S2). Next, setting m = 1 (step S3), the fundamental frequency height designation unit 2 determines the height of the fundamental frequency of the two-digit number (or one-digit number) of the m-th section (the first half voice waveform or the second half). (A voice waveform) (step S4). Next, the audio waveform extraction unit 4 extracts the two-digit number (or one-digit number) audio waveform of the m-th section from the designated area in the audio waveform storage unit 3 (step S5). Then, the audio signal output unit 5 outputs the extracted audio waveform to a speaker or a telephone line (Step S6). In step S7, it is determined whether or not all of the numeral string {an} has been output to the speaker or the telephone line. If the determination is negative, the process proceeds to step S8, where 1 is added to m. Then, again at step S4
And the same operation as described above is continued. The above operation is repeatedly performed, and when the determination in step S7 becomes positive, the operation of the present embodiment ends. The audio signal output unit 5 may output the first two digits and the second two digits as necessary.
A silence is inserted between the digits to generate a multi-digit voice with natural inflection.
【0027】以上のように、本実施形態によれば、前半
の2桁数字の音声波形断片と後半の2桁数字の音声波形
断片とを結合して複数桁の数字音声を再生させるように
したので、自然な抑揚をもち、聞き手に違和感を感じさ
せにくい自然な数字音声を発生することができるように
なる。また、音声波形蓄積部3に蓄積する数字音声波形
は、前半の1桁および2桁数字に対する110個と、後
半の1桁および2桁数字に対する110個の、合計で2
20個の波形で済むので、音声波形蓄積部3に蓄積する
データ量は従来のものに比べて大幅に低減することがで
きる。As described above, according to the present embodiment, the voice waveform fragment of the first two digits and the voice waveform fragment of the second half are combined to reproduce the numeric voice of a plurality of digits. Therefore, it is possible to generate a natural numeral sound having a natural intonation and making it difficult for a listener to feel uncomfortable. In addition, the number of numeral voice waveforms stored in the voice waveform storage unit 3 is 110 for the first half and one-digit number and 110 for the second half and two-digit number, for a total of two.
Since only 20 waveforms are required, the amount of data stored in the audio waveform storage unit 3 can be significantly reduced as compared with the conventional one.
【0028】次に、本発明の第2実施形態を、図6(a)
〜(c) を参照して説明する。図6(a) 〜(c) は本実施形
態の要部のみを示すブロック図であり、それ以外の構成
は図4と同一または同等である。同図(a) では、音声波
形蓄積部3に前半の1桁および2桁音声波形(110個
の波形)3aのみが記憶されている。変換器6は、該前
半の2桁音声波形3aを入力とし、該入力を後半の2桁
音声波形の高さに変換して出力する働きをする。そこ
で、音声波形抽出部4が、前半の2桁音声波形の指示を
受けるとスイッチ7は端子8aを選択し、一方後半の2
桁音声波形の指示を受けるとスイッチ7は端子8bを選
択する。この結果、音声波形蓄積部3には、前半の2桁
音声波形(110個の波形)3aのみを蓄積させればよ
く、蓄積データ量を削減することができる。Next, a second embodiment of the present invention will be described with reference to FIG.
This will be described with reference to FIGS. FIGS. 6A to 6C are block diagrams showing only main parts of the present embodiment, and the other configuration is the same as or equivalent to FIG. In FIG. 3A, only the first half and one-digit audio waveforms (110 waveforms) 3a are stored in the audio waveform storage unit 3. The converter 6 receives the first two-digit audio waveform 3a as an input, converts the input to the height of the second half two-digit audio waveform, and outputs the same. Then, when the audio waveform extracting unit 4 receives the instruction of the first two-digit audio waveform, the switch 7 selects the terminal 8a, while the second half 2
When receiving the instruction of the digit voice waveform, the switch 7 selects the terminal 8b. As a result, only the first two-digit audio waveform (110 waveforms) 3a needs to be stored in the audio waveform storage unit 3, and the amount of stored data can be reduced.
【0029】同図(b) は同図(a) の変形例を示し、音声
波形蓄積部3には後半の1桁および2桁音声波形(11
0個の波形)3bのみが記憶されている。変換器9は、
該後半の2桁音声波形3bを入力とし、該入力を前半の
2桁音声波形の高さに変換して出力する働きをする。そ
こで、音声波形抽出部4が、前半の2桁音声波形の指示
を受けるとスイッチ10は端子11bを選択し、一方後
半の2桁音声波形の指示を受けるとスイッチ10は端子
8aを選択する。この結果、音声波形蓄積部3には、後
半の2桁音声波形(110個の波形)3bのみを蓄積さ
せればよく、蓄積データ量を削減することができる。FIG. 3B shows a modification of FIG. 3A, in which the second half digit and second digit audio waveforms (11
Only zero waveforms) 3b are stored. The converter 9
The latter two-digit audio waveform 3b is used as an input, and the input is converted into the height of the first two-digit audio waveform and output. Therefore, when the audio waveform extraction unit 4 receives the instruction of the first two-digit audio waveform, the switch 10 selects the terminal 11b, and when it receives the instruction of the latter two-digit audio waveform, the switch 10 selects the terminal 8a. As a result, only the latter two-digit two-digit audio waveforms (110 waveforms) 3b need to be stored in the audio waveform storage unit 3, and the amount of stored data can be reduced.
【0030】同図(c) はさらに他の変形例を示し、音声
波形蓄積部3には前半と後半の1桁および2桁音声波形
の中間の高さの1桁および2桁の音声波形(110個の
波形)3cのみが記憶されている。第1の変換器12
は、該中間の2桁音声波形3cを入力とし、該入力を前
半の2桁音声波形の高さに変換して出力する働きをす
る。また、第2の変換器13は、該中間の2桁音声波形
3cを入力とし、該入力を後半の2桁音声波形の高さに
変換して出力する働きをする。そこで、音声波形抽出部
4が、前半の2桁音声波形の指示を受けるとスイッチ1
4は端子15aを選択し、一方後半の2桁音声波形の指
示を受けるとスイッチ14は端子15bを選択する。こ
の結果、音声波形蓄積部3には、中間の高さの2桁音声
波形(110個の波形)3cのみを蓄積させればよく、
蓄積データ量を削減することができる。FIG. 3C shows still another modified example, in which the audio waveform storage unit 3 stores a 1-digit and 2-digit audio waveform having a middle height between the first and second half 1-digit and 2-digit audio waveforms. Only 110 waveforms) 3c are stored. First converter 12
Has the function of taking the intermediate two-digit audio waveform 3c as an input, converting the input to the height of the first two-digit audio waveform, and outputting the same. The second converter 13 receives the intermediate two-digit audio waveform 3c, converts the input into the height of the latter two-digit audio waveform, and outputs the converted signal. Then, when the audio waveform extraction unit 4 receives the instruction of the first two-digit audio waveform, the switch 1
The switch 4 selects the terminal 15a, while the switch 14 selects the terminal 15b when receiving the instruction of the latter two-digit audio waveform. As a result, the audio waveform accumulating unit 3 only needs to accumulate only two-digit audio waveforms (110 waveforms) 3c having an intermediate height.
The amount of accumulated data can be reduced.
【0031】なお、前記の実施形態では、前記音声波形
蓄積部3に、図1または図2に示されているような、3
桁または4桁数字の連続発声波形を蓄積するようにした
が、本発明はこれに限定されず、該3桁または4桁数字
の連続発声した波形のうちの必要な前半1または2桁、
または後半1または2桁の波形のみを予め切出して、こ
れらのみを蓄積するようにしてもよい。そのようにすれ
ば、音声波形蓄積部3の記憶容量、合成時の計算量を削
減することができる。It should be noted that, in the above-described embodiment, the sound waveform accumulating section 3 stores, as shown in FIG.
Although the continuous utterance waveform of the digit or four-digit number is stored, the present invention is not limited to this, and the necessary first half or two of the continuous utterance waveform of the three- or four-digit number,
Alternatively, only the waveform of the last one or two digits may be cut out in advance, and only these waveforms may be stored. By doing so, it is possible to reduce the storage capacity of the audio waveform storage unit 3 and the amount of calculation at the time of synthesis.
【0032】[0032]
【発明の効果】以上の説明から明らかなように、本発明
によれば、基本周波数の高い数字音声波形と、基本周波
数の低い数字音声波形とを別個に蓄積するようにしたの
で、メモリに記憶するデータ量を、従来より大きく低減
できる。As is apparent from the above description, according to the present invention, the numeric voice waveform having a high fundamental frequency and the numeric voice waveform having a low fundamental frequency are separately stored, so that they are stored in the memory. The amount of data to be performed can be greatly reduced as compared with the related art.
【0033】また、本発明によれば、基本周波数の高い
数字音声波形断片と、基本周波数の低い数字音声波形断
片とを結合して、数字音声を合成するようにしたので、
自然な抑揚をもつ複数数字の数字音声を発生させること
ができるようになり、聞き手に違和感を感じさせない自
然な音声を合成することができるようになる。また、本
発明は、自動音声応答装置等に適用すると好適である。Further, according to the present invention, a numeric voice is synthesized by combining a numeric voice waveform fragment having a high fundamental frequency and a numeric voice waveform fragment having a low fundamental frequency.
A plurality of numeric voices having natural intonation can be generated, and a natural voice that does not make a listener feel uncomfortable can be synthesized. The present invention is preferably applied to an automatic voice response device or the like.
【図1】 4桁の数字音声の前半2桁の音声波形を作成
する方法の説明図である。FIG. 1 is an explanatory diagram of a method for creating a first two-digit voice waveform of a four-digit numeric voice.
【図2】 4桁の数字音声の後半2桁の音声波形を作成
する方法の説明図である。FIG. 2 is an explanatory diagram of a method of creating a voice waveform of the last two digits of a four-digit numeric voice.
【図3】 本発明の一実施形態の4桁の数字音声の合成
方法の説明図である。FIG. 3 is an explanatory diagram of a method for synthesizing a four-digit numeric voice according to an embodiment of the present invention.
【図4】 本発明の一実施形態の数字音声の合成装置の
構成を示すブロック図である。FIG. 4 is a block diagram showing a configuration of a numeral voice synthesizing apparatus according to an embodiment of the present invention.
【図5】 本実施形態の動作を示すフローチャートであ
る。FIG. 5 is a flowchart showing the operation of the embodiment.
【図6】 本発明の変形例の要部の構成を示すブロック
図である。FIG. 6 is a block diagram showing a configuration of a main part of a modified example of the present invention.
【図7】 従来技術の説明図である。FIG. 7 is an explanatory diagram of a conventional technique.
1…数字列分割部、2…基本周波数高さ指定部、3…音
声波形蓄積部、4…音声波形抽出部、5…音声信号出力
部、6、9、12、13…変換部。DESCRIPTION OF SYMBOLS 1 ... Numeric string division | segmentation part, 2 ... Basic frequency height designation | designated part, 3 ... Audio waveform accumulation part, 4 ... Audio waveform extraction part, 5 ... Audio signal output part, 6, 9, 12, 13 ... Conversion part.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 清水 徹 埼玉県上福岡市大原2−1−15 株式会社 ケイディディ研究所内 Fターム(参考) 5D045 AA09 ────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Toru Shimizu 2-1-15 Ohara, Kamifukuoka-shi, Saitama F-term in K.D. Laboratory Inc. (reference) 5D045 AA09
Claims (8)
波形と、3桁または4桁数字の後半1桁または2桁を任
意の1桁または2桁の数字に固定した状態で、前半の2
桁を00(ゼロゼロ)から99(キューキュー)まで変
化させて3桁または4桁数字を連続発声した波形とを、
基本周波数の高い数字音声波形として記録することを特
徴とする数字音声波形の作成方法。1. A waveform uttered independently by changing from 0 to 9 and a first half of a three- or four-digit number in a state where the last one or two digits are fixed to an arbitrary one or two-digit number. 2
A waveform in which the digits are changed from 00 (zero zero) to 99 (cue queue) and three or four digits are continuously uttered,
A method for creating a numeric voice waveform, characterized in that the waveform is recorded as a numeric voice waveform having a high fundamental frequency.
2桁の数字に固定した状態で、後半の1桁を0から9ま
で変化させて3桁数字を連続発声した波形と、該後半の
2桁を00(ゼロゼロ)から99(キューキュー)まで
変化させて4桁数字を連続発声した波形とを、基本周波
数の低い数字音声波形として記録することを特徴とする
数字音声波形の作成方法。2. A waveform in which the first two digits of a three-digit or four-digit number are fixed to an arbitrary two-digit number, and the second half is changed from 0 to 9 to continuously utter a three-digit number, A waveform in which the last two digits are changed from 00 (zero-zero) to 99 (cue queue) and a four-digit number is uttered continuously, and a numerical voice waveform having a low fundamental frequency is recorded. How to make.
片と、基本周波数の低い1桁または2桁の数字音声波形
断片とを結合して、3桁または4桁の数字音声を合成す
るようにしたことを特徴とする数字音声の合成方法。3. A three- or four-digit numeric speech is synthesized by combining a two-digit numeric speech waveform fragment having a high fundamental frequency and a one- or two-digit numeric speech waveform fragment having a low fundamental frequency. A method for synthesizing numeral voices, characterized in that:
し、奇数区間の数字には基本周波数の高い数字音声波形
を指定し、偶数区間の数字には基本周波数の低い数字音
声波形を指定し、これらの指定に基づいて切出された数
字音声波形断片を結合して数字音声を合成するようにし
たことを特徴とする数字音声の合成方法。4. A numeral string is divided into two-digit sections from the beginning, and a numeral voice waveform having a high fundamental frequency is designated for a number in an odd section, and a numeral speech waveform having a low fundamental frequency is designated for a number in an even section. A method for synthesizing a numeric voice, wherein the numeric voice is synthesized by combining designated numeric voice waveform fragments extracted based on these specifications.
および基本周波数の低い数字音声波形断片は、それぞ
れ、前記請求項1および請求項2の方法で作成された波
形の前半2桁部分および後半1桁または2桁部分である
ことを特徴とする請求項3または4に記載の数字音声の
合成方法。5. The numerical voice waveform fragment having a high fundamental frequency and the numerical voice waveform fragment having a low fundamental frequency are respectively composed of the first two digits and the second half of the waveform created by the method according to claim 1 or 2. The method according to claim 3 or 4, wherein the method is a digit or a two-digit part.
周波数の低い数字音声波形とを記憶する音声波形蓄積部
と、 数字列を先頭から2桁ずつの区間に分割する数字列分割
部と、 該区間毎に、基本周波数の高さ指定を行う基本周波数高
さ指定部と、 該基本周波数高さ指定部で指定された高さの数字音声波
形断片を前記音声波形蓄積部から抽出する音声波形抽出
部と、 該音声波形抽出部から抽出された数字音声波形断片を結
合して出力する音声信号出力部とを具備したことを特徴
とする数字音声の合成装置。6. A voice waveform storage unit for storing a numeric voice waveform having a high fundamental frequency and a numeric voice waveform having a low fundamental frequency, a numeric string dividing unit for dividing a numeric string into two-digit sections from the beginning, For each of the sections, a basic frequency height specifying unit for specifying a height of a basic frequency, and a voice waveform for extracting a numerical voice waveform fragment having a height specified by the basic frequency height specifying unit from the voice waveform storage unit. An apparatus for synthesizing a numeric voice, comprising: an extracting section; and an audio signal output section for combining and outputting the numeric audio waveform fragments extracted from the audio waveform extracting section.
波数の高い数字音声波形および基本周波数の低い数字音
声波形は、それぞれ、前記請求項1および請求項2の方
法により作成された数字音声波形であることを特徴とす
る請求項6に記載の数字音声の合成装置。7. A numerical voice waveform having a high basic frequency and a numerical voice waveform having a low basic frequency stored in the voice waveform storage section are respectively numerical voice waveforms created by the methods of claim 1 and 2. The numerical speech synthesizer according to claim 6, wherein
高い数字音声波形と、基本周波数の低い数字音声波形の
一方のみを記憶し、他方の数字音声波形は前記一方の音
声波形を基にこれを周波数変換して作成することを特徴
とする請求項6に記載の数字音声の合成装置。8. The voice waveform accumulating section stores only one of the numeric voice waveform having a high fundamental frequency and the numeric voice waveform having a low fundamental frequency, and the other numeric voice waveform is stored based on the one voice waveform. 7. The numerical speech synthesizer according to claim 6, wherein the numerical speech is created by frequency conversion.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000133181A JP3632901B2 (en) | 2000-05-02 | 2000-05-02 | Method for creating numeric speech waveform, method and apparatus for synthesizing numeric speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000133181A JP3632901B2 (en) | 2000-05-02 | 2000-05-02 | Method for creating numeric speech waveform, method and apparatus for synthesizing numeric speech |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001312291A true JP2001312291A (en) | 2001-11-09 |
JP3632901B2 JP3632901B2 (en) | 2005-03-30 |
Family
ID=18641729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000133181A Expired - Fee Related JP3632901B2 (en) | 2000-05-02 | 2000-05-02 | Method for creating numeric speech waveform, method and apparatus for synthesizing numeric speech |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3632901B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004302101A (en) * | 2003-03-31 | 2004-10-28 | Clarion Co Ltd | Information processing apparatus, method and programprocessing |
JP2007086644A (en) * | 2005-09-26 | 2007-04-05 | Oki Electric Ind Co Ltd | Speech guidance generating device and method |
CN109313249A (en) * | 2016-06-28 | 2019-02-05 | 微软技术许可有限责任公司 | Audio augmented reality system |
-
2000
- 2000-05-02 JP JP2000133181A patent/JP3632901B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004302101A (en) * | 2003-03-31 | 2004-10-28 | Clarion Co Ltd | Information processing apparatus, method and programprocessing |
JP2007086644A (en) * | 2005-09-26 | 2007-04-05 | Oki Electric Ind Co Ltd | Speech guidance generating device and method |
CN109313249A (en) * | 2016-06-28 | 2019-02-05 | 微软技术许可有限责任公司 | Audio augmented reality system |
CN109313249B (en) * | 2016-06-28 | 2023-06-27 | 微软技术许可有限责任公司 | Audio augmented reality system |
Also Published As
Publication number | Publication date |
---|---|
JP3632901B2 (en) | 2005-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4912768A (en) | Speech encoding process combining written and spoken message codes | |
JP3333022B2 (en) | Singing voice synthesizer | |
US5518408A (en) | Karaoke apparatus sounding instrumental accompaniment and back chorus | |
US5703311A (en) | Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques | |
US20050149330A1 (en) | Speech synthesis system | |
CN101578659A (en) | Voice tone converting device and voice tone converting method | |
JP2001215979A (en) | Karaoke device | |
WO2002054383A1 (en) | Text voice synthesis device and program recording medium | |
JP3089715B2 (en) | Speech synthesizer | |
JP4564416B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP2001312291A (en) | Method for generating numeral voice waveform and method and device for synthesizing numerical voice | |
JP3465734B2 (en) | Audio signal transformation connection method | |
JP3081300B2 (en) | Residual driven speech synthesizer | |
JP2008275836A (en) | Document processing method and device for reading aloud | |
JP5471138B2 (en) | Phoneme code converter and speech synthesizer | |
JPS587197A (en) | Singing voice generator | |
JP2009244790A (en) | Karaoke system with singing teaching function | |
JPS5880699A (en) | Voice synthesizing system | |
JPS6021098A (en) | Synthesization of voice | |
JPH04349499A (en) | Voice synthesis system | |
JP5481957B2 (en) | Speech synthesizer | |
JP3133347B2 (en) | Prosody control device | |
JP2861005B2 (en) | Audio storage and playback device | |
JPS6295595A (en) | Voice response system | |
JPH1078776A (en) | Chorus effect imparting device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041216 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110107 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110107 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140107 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |