JP2002366177A - Node extracting device for natural voice - Google Patents

Node extracting device for natural voice

Info

Publication number
JP2002366177A
JP2002366177A JP2001169140A JP2001169140A JP2002366177A JP 2002366177 A JP2002366177 A JP 2002366177A JP 2001169140 A JP2001169140 A JP 2001169140A JP 2001169140 A JP2001169140 A JP 2001169140A JP 2002366177 A JP2002366177 A JP 2002366177A
Authority
JP
Japan
Prior art keywords
node
curve
pattern
point
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001169140A
Other languages
Japanese (ja)
Other versions
JP4639532B2 (en
Inventor
Kazufumi Serio
一史 芹生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001169140A priority Critical patent/JP4639532B2/en
Publication of JP2002366177A publication Critical patent/JP2002366177A/en
Application granted granted Critical
Publication of JP4639532B2 publication Critical patent/JP4639532B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a node extracting device for a natural voice which stably and efficiently extract nodes needed to generate a pitch pattern by spline approximation. SOLUTION: A pattern extraction part 1 extracts a basic frequency pattern according to an inputted natural voice 102. An input part 2 inputs language information 101. A pattern sectioning part 3 sections the basic frequency pattern into access phrases according to the language information 101. A no-voice control part 4 corrects a voiceless section of an access phrase pattern curve into a smooth curve by interpolation. A differential arithmetic part 5 finds the primary differential curve and secondary differential curve of the access phrase pattern curve. A node extraction part 6 extracts nodes from the access phrase pattern curve according to the primary differential curve, secondary differential curve, and language information 101. A node information output part 7 outputs a node 103 as a final node to the outside.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声合成装置のた
めの節点抽出装置に関し、より詳細には、スプライン近
似でピッチパターンを生成するために、必要な節点を抽
出する自然音声の節点抽出装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a node extracting device for a speech synthesizer, and more particularly, to a natural speech node extracting device for extracting nodes necessary for generating a pitch pattern by spline approximation. It is about.

【0002】[0002]

【従来の技術】最近の音声合成装置は、規則合成方式に
従って、音声を合成する。規則合成方式では、規則合成
エンジンにパラメータとして節点を与えることで、音声
の基本周波数の時間的変化パターンを示すピッチパター
ンが生成されて、音声を合成する規則の1つとして利用
される。
2. Description of the Related Art Recent speech synthesizers synthesize speech according to a rule synthesis method. In the rule synthesis method, a pitch pattern indicating a temporal change pattern of a fundamental frequency of a voice is generated by giving a node as a parameter to the rule synthesis engine, and is used as one of rules for synthesizing the voice.

【0003】音声合成装置は、節点抽出装置が自然音声
から抽出した節点を予め記憶し、節点に基づいてスプラ
イン近似を行い、ピッチパターンを生成する。スプライ
ン近似は、節点と呼ばれる離散的な点を順に結び、スプ
ライン関数を用いて、全体が滑らかな曲線に近似する処
理である。
[0003] A speech synthesizer previously stores nodes extracted from natural speech by a node extractor, performs spline approximation based on the nodes, and generates a pitch pattern. The spline approximation is a process of connecting discrete points called nodes in order and using a spline function to approximate a smooth curve as a whole.

【0004】規則合成方式の音声合成装置では、音声合
成の規則の1つとして、生成されたピッチパターンを利
用し、別に入力される発音記号又は文字から、任意の語
彙の連続音声を直接合成する。節点抽出装置は、発話者
の性別や発話速度等の条件に左右されないで、節点を抽
出できることが重要になり、幾つかの提案がなされてい
る。
[0004] In a speech synthesis apparatus of the rule synthesis system, as one of the rules of speech synthesis, a continuous speech of an arbitrary vocabulary is directly synthesized from phonetic symbols or characters which are separately input, using a generated pitch pattern. . It is important for the node extraction device to be able to extract nodes without being influenced by conditions such as the gender of the speaker and the utterance speed, and some proposals have been made.

【0005】信学技法SP2000−29には、自然音
声の節点抽出装置で使用される節点抽出方法が記載され
ている(2000年7月発行の電子情報通信学会 信学
技法:20ページ、筆者:森川博由 坪井直宏 柳雄一
郎、題名:「平滑化スプライン関数による音声のピッチ
パターンのモデル化と分析」)。この節点抽出装置が行
う節点抽出方法(節点選択法)では、自然音声から基本
周波数を抽出し、この抽出した基本周波数を各時間毎に
プロットした複数のデータ点として求め、複数のデータ
点から下記に示す2つの方法を用いて節点を選択する。
[0005] The IEICE SP2000-29 describes a node extraction method used in a natural speech node extraction apparatus (IEICE IEICE Technical Report, July 2000, page 20, author: Hiroyoshi Morikawa Naohiro Tsuboi Yuichiro Yanagi, Title: "Modeling and Analysis of Speech Pitch Pattern Using Smoothing Spline Function"). In the node extraction method (node selection method) performed by the node extraction device, a fundamental frequency is extracted from natural speech, and the extracted fundamental frequency is obtained as a plurality of data points plotted for each time. A node is selected using the two methods shown in FIG.

【0006】図6は、第1の節点選択法のフローチャー
トである。複数のデータ点の始点及び終点を2つの節点
とし、始点から終点までの間を時間間隔dtで等分割
し、分割点毎に最も近いデータ点を抽出して節点候補に
する(ステップS81)。隣り合う節点候補間の傾きを
求め、傾きの大きさがしきい値TH2より小さければ、節
点候補から削除する(ステップS82)。
FIG. 6 is a flowchart of the first node selection method. The start point and the end point of the plurality of data points are set as two nodes, the interval from the start point to the end point is equally divided at a time interval dt, and the closest data point is extracted for each division point to be a node candidate (step S81). The inclination between adjacent node candidates is obtained, and if the magnitude of the inclination is smaller than the threshold value TH2, the candidate is deleted from the node candidates (step S82).

【0007】節点及び節点候補に基づいて、平滑スプラ
イン関数を求めて基本周波数パターン曲線との誤差を計
算する(ステップS83)。ここで、基本周波数パター
ン曲線とは、複数のデータ点の集まりを曲線として取り
扱うものである。ステップS83の誤差がしきい値TH3
より小さいと、傾きの大きさが最も小さい節点候補を削
除し、ステップS83から処理を実行する(ステップS
86)。ステップS83の誤差がしきい値TH3より大き
いと、最終的に残った節点候補を節点として決定する
(ステップS85)。
[0007] Based on the nodes and the node candidates, a smooth spline function is obtained to calculate an error from the fundamental frequency pattern curve (step S83). Here, the fundamental frequency pattern curve handles a group of a plurality of data points as a curve. The error in step S83 is equal to the threshold value TH3.
If it is smaller, the node candidate with the smallest inclination is deleted, and the processing is executed from step S83 (step S83).
86). If the error in step S83 is larger than the threshold value TH3, the finally remaining node candidate is determined as a node (step S85).

【0008】図7は、第2の節点選択法のフローチャー
トである。複数のデータ点の始点及び終点を2つの節点
とし、双方の節点を直線で結び、直線と最も遠いデータ
点を節点候補とする(ステップS91)。節点及び節点
候補に基づいて、平滑スプライン関数を求めて基本周波
数パターン曲線との誤差を計算する(ステップS9
2)。
FIG. 7 is a flowchart of the second node selection method. The start point and the end point of the plurality of data points are two nodes, and both nodes are connected by a straight line, and the data point farthest from the straight line is set as a node candidate (step S91). Based on the nodes and the node candidates, a smooth spline function is obtained to calculate an error from the fundamental frequency pattern curve (step S9).
2).

【0009】ステップS92の誤差がしきい値TH3より
大きいと、スプライン関数から最も遠いデータ点を新た
な節点候補として追加し、ステップS92から処理を実
行する(ステップS95)。ステップS92の誤差がし
きい値TH3より小さいと、最終的に残った節点候補を節
点として決定する(ステップS94)。
If the error in step S92 is larger than the threshold value TH3, the data point furthest from the spline function is added as a new node candidate, and the process is executed from step S92 (step S95). If the error in step S92 is smaller than the threshold value TH3, the finally remaining node candidate is determined as a node (step S94).

【0010】[0010]

【発明が解決しようとする課題】上記従来の自然音声の
節点抽出装置では、第1の節点選択法は、分割する時間
間隔dtが発話速度に依存するので、時間間隔dtを経
験的に決定しなければならない。また、誤差と比較され
るしきい値TH2又はTH3を発話速度に応じて変更し、経
験的に決定する必要があり、節点を安定して求められな
い。第2の節点選択方法も、第1の節点選択方法と同様
に、しきい値TH2又はTH3を使用するので、発話速度に
依存し経験的に決定する必要がある。
In the above-described conventional natural speech node extraction device, the first node selection method empirically determines the time interval dt because the time interval dt to be divided depends on the speech speed. There must be. Further, it is necessary to change the threshold value TH2 or TH3 to be compared with the error according to the utterance speed and to determine the threshold value empirically, so that a node cannot be obtained stably. Similarly to the first node selection method, the second node selection method uses the threshold value TH2 or TH3, and thus needs to be determined empirically depending on the speech speed.

【0011】一般に、自然音声の基本周波数パターン曲
線について、その形状を考慮せずに節点を抽出すると、
この節点に基づくスプライン近似で生成されたピッチパ
ターンには、波打ち現象等のような影響が現れ、自然音
声の基本周波数パターンと異なる形状やパターンが生成
されることがある。
In general, if a node is extracted from a fundamental frequency pattern curve of natural speech without considering its shape,
The pitch pattern generated by the spline approximation based on the node has an effect such as a waving phenomenon, and a shape or pattern different from the fundamental frequency pattern of the natural voice may be generated.

【0012】上記従来の自然音声の節点抽出装置では、
節点及び節点候補に基づく誤差がしきい値内であるか否
かの比較により節点を選択するので、自然音声の基本周
波数パターンと異なるピッチパターンが生成されること
があり、基本周波数パターン曲線の形状を十分に考慮し
ているとはいえない。
In the above-described conventional natural speech node extraction device,
Since a node is selected by comparing whether or not the error based on the node and the node candidate is within a threshold value, a pitch pattern different from the fundamental frequency pattern of natural speech may be generated, and the shape of the fundamental frequency pattern curve may be generated. Is not considered enough.

【0013】本発明は、上記したような従来の技術が有
する問題点を解決するためになされたものであり、スプ
ライン近似でピッチパターンを生成するために、必要な
節点を安定して効率よく抽出する自然音声の節点抽出装
置を提供する。
SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems of the prior art, and stably and efficiently extracts necessary nodes in order to generate a pitch pattern by spline approximation. The present invention provides a natural speech node extraction device.

【0014】[0014]

【課題を解決するための手段】上記目的を達成するた
め、本発明の自然音声の節点抽出装置は、自然発生音の
基本周波数パターンを抽出するパターン抽出部と、前記
基本周波数パターンをアクセント句毎に区分するパター
ン区分部と、前記区分された基本周波数パターンの1次
微分曲線及び2次微分曲線を求める微分演算部と、前記
区分された基本周波数パターン、1次微分曲線及び2次
微分曲線に基づいて、前記基本周波数パターンの節点を
抽出する節点抽出部とを備えることを特徴とする。
To achieve the above object, a natural sound node extraction device according to the present invention comprises a pattern extraction unit for extracting a fundamental frequency pattern of a naturally occurring sound, and a method for extracting the fundamental frequency pattern for each accent phrase. And a differential operation unit for obtaining a first derivative curve and a second derivative curve of the divided fundamental frequency pattern; and a differentiator for the divided fundamental frequency pattern, the first derivative curve and the second derivative curve. And a node extracting unit for extracting a node of the fundamental frequency pattern based on the information.

【0015】本発明の自然音声の節点抽出装置は、自然
音声をアクセント句で区切って基本周波数を抽出した基
本周波数パターン曲線、その1次微分曲線及び2次微分
曲線に基づいて節点を抽出することにより、基本周波数
パターン曲線の形状を特徴づける変化点等を節点として
抽出し、この節点は発話速度とは無関係に抽出されるの
で、安定して効率のよい節点抽出を行うことができる。
The natural speech node extraction device of the present invention extracts nodes based on a fundamental frequency pattern curve obtained by extracting a fundamental frequency by dividing a natural speech by an accent phrase, and its first and second derivative curves. As a result, a change point or the like characterizing the shape of the fundamental frequency pattern curve is extracted as a node, and this node is extracted independently of the speech speed, so that stable and efficient node extraction can be performed.

【0016】本発明の自然音声の節点抽出装置では、前
記節点抽出部は、前記1次微分曲線のゼロ点を節点とし
て抽出すること、また、前記2次微分曲線の最高点及び
最低点を夫々節点として抽出することが好ましい。この
場合、節点抽出が基本周波数パターン曲線の形状を特徴
づける変化点等で確実に行える。
In the natural sound node extraction device according to the present invention, the node extraction unit extracts a zero point of the primary differential curve as a node, and extracts a maximum point and a minimum point of the secondary differential curve, respectively. It is preferable to extract it as a node. In this case, node extraction can be reliably performed at a change point or the like that characterizes the shape of the fundamental frequency pattern curve.

【0017】また、本発明の自然音声の節点抽出装置で
は、前記自然音声が、疑問文であるか否か、及び、アク
セント位置を含むか否かを指定するための入力部を更に
備えることが好ましい。この場合、前記節点抽出部は、
自然音声が疑問文である場合に、前記区分された基本周
波数パターンの終了点の直前の周波数最低点を節点とし
て抽出すること、自然音声がアクセント位置を含む場合
には、前記1次微分曲線のゼロ点以降の2次微分曲線の
最高点及び最低点を夫々節点として抽出することができ
る。この場合、アクセント位置等の言語情報を用いて、
基本周波数パターン曲線の形状を十分に考慮できるの
で、節点抽出が基本周波数パターン曲線の形状を特徴づ
ける変化点等でより確実に行える。
Further, the natural speech node extraction device of the present invention may further comprise an input unit for designating whether the natural speech is a question sentence and whether or not the natural speech includes an accent position. preferable. In this case, the node extraction unit includes:
When natural speech is a question sentence, the lowest frequency point immediately before the end point of the divided fundamental frequency pattern is extracted as a node. When natural speech includes an accent position, the first derivative curve of the primary differential curve is extracted. The highest point and the lowest point of the second derivative curve after the zero point can be extracted as nodes. In this case, using language information such as accent positions,
Since the shape of the fundamental frequency pattern curve can be sufficiently considered, node extraction can be performed more reliably at a change point or the like that characterizes the shape of the fundamental frequency pattern curve.

【0018】前記節点抽出部は、先に求められた2つの
隣り合う節点の中間点を新たに節点として抽出すること
も本発明の好ましい態様である。この場合、節点に基づ
いてピッチパターンを生成することが確実になる。
It is also a preferred embodiment of the present invention that the node extracting unit newly extracts an intermediate point between two adjacent nodes obtained earlier as a node. In this case, it is ensured that the pitch pattern is generated based on the nodes.

【0019】[0019]

【発明の実施の形態】以下、本発明の実施形態例に基づ
いて、本発明の自然音声の節点抽出装置について図面を
参照して説明する。図1は、本発明の一実施形態例の自
然音声の節点抽出装置のブロック図である。自然音声の
節点抽出装置は、パターン抽出部1、パターン区分部
3、入力部2、無声制御部4、微分演算部5、節点抽出
部6、及び、節点情報出力部7で構成される。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing a natural speech node extracting apparatus according to an embodiment of the present invention. FIG. 1 is a block diagram of a natural speech node extraction device according to an embodiment of the present invention. The natural speech node extraction device includes a pattern extraction unit 1, a pattern classification unit 3, an input unit 2, an unvoiced control unit 4, a differential operation unit 5, a node extraction unit 6, and a node information output unit 7.

【0020】パターン抽出部1は、入力される自然音声
102に基づいて、基本周波数パターンを抽出し、パタ
ーン区分部3に入力する。基本周波数パターンは、短い
時間間隔の抽出時点で、基本周波数を抽出した複数のデ
ータ点である。データ点は、抽出時刻及び基本周波数で
構成される。
The pattern extracting unit 1 extracts a fundamental frequency pattern based on the input natural speech 102 and inputs the pattern to the pattern dividing unit 3. The fundamental frequency pattern is a plurality of data points from which the fundamental frequency has been extracted at the point in time when the short time interval is extracted. A data point is composed of an extraction time and a fundamental frequency.

【0021】入力部2は、入力される言語情報101を
パターン区分部3に入力する。言語情報101は、アク
セント句の開始時刻と終了時刻、アクセント位置時刻、
アクセント句に含まれる子音母音の開始時刻と終了時
刻、及び、疑問文か平叙文かを示す文タイプ等から成る
情報である。パターン区分部3は、言語情報101に基
づいて、基本周波数パターンをアクセント句ごとに区切
り、無声制御部4に入力する。
The input unit 2 inputs the input linguistic information 101 to the pattern classification unit 3. The language information 101 includes a start time and an end time of an accent phrase, an accent position time,
This is information including a start time and an end time of a consonant vowel included in the accent phrase, and a sentence type indicating whether the sentence is a question sentence or a declarative sentence. The pattern classification unit 3 divides the fundamental frequency pattern into accent phrases based on the linguistic information 101 and inputs the same to the unvoiced control unit 4.

【0022】図2は、自然音声の「よろしいですか」に
関する情報を示す。自然音声は、各時刻毎に発生された
周波数が点としてプロットされる。図中の黒い影部分
は、自然音声の周波数特性(スペクトル表示)を示す。
同図(a)に示すように、自然音声の基本周波数は、2
00Hzから400Hzまでの黒い影部分の中に、白抜
き線*として示される。
FIG. 2 shows information about "Is it OK?" The natural sound is plotted as points at frequencies generated at each time. The black shaded portions in the figure indicate the frequency characteristics (spectral display) of natural speech.
As shown in FIG. 2A, the fundamental frequency of natural speech is 2
It is shown as a white line * in the black shaded region from 00 Hz to 400 Hz.

【0023】無声制御部4は、言語情報101に基づい
て、基本周波数パターン曲線に含まれる無声区間を調べ
る。基本周波数パターン曲線は、無声区間が存在する
と、スプライン近似に必要な節点を抽出する際に誤りを
起こし易いので、補間して滑らかなアクセント句パター
ン曲線として修正される。
The unvoiced control section 4 examines unvoiced sections included in the fundamental frequency pattern curve based on the linguistic information 101. If there is an unvoiced section, the fundamental frequency pattern curve is likely to cause an error when extracting nodes required for spline approximation. Therefore, the fundamental frequency pattern curve is interpolated and corrected as a smooth accent phrase pattern curve.

【0024】図2(b)に示すように、子音を含む無声
区間(“sh”)がある場合には、近くの有声区間
(“o”又は“i−”)から引き伸ばし、直線又は曲線
で補間する。アクセント句の開始点又は終了点が無声で
ある場合には、近くの有声区間の値から数Hz小さい値
を開始点又は終了点として補間する。無声制御部4は、
アクセント句パターン曲線を白丸で示される各節点(B
1、P1、E1、E2)を通るように連続的で滑らかにし
て、節点抽出部6に入力する。
As shown in FIG. 2B, when there is a unvoiced section (“sh”) including a consonant, it is stretched from a nearby voiced section (“o” or “i−”) and is drawn by a straight line or a curve. Interpolate. If the start point or the end point of the accent phrase is unvoiced, a value smaller by several Hz than the value of the nearby voiced section is interpolated as the start point or the end point. The silent control unit 4
Each accent phrase pattern curve is represented by a node (B
1, P1, E1, E2), and is input to the node extractor 6 after being smoothed continuously.

【0025】図3は、図1の自然音声の節点抽出装置が
行う節点抽出方法のフローチャートである。微分演算部
5は、アクセント句パターン曲線の1次微分曲線及び2
次微分曲線を求めて、節点抽出部6に入力する。節点抽
出部6は、1次微分曲線、2次微分曲線、及び、言語情
報101に基づいて、節点抽出を行う。
FIG. 3 is a flowchart of a node extraction method performed by the natural speech node extraction apparatus of FIG. The differential operation unit 5 includes a first-order differential curve of the accent phrase pattern curve and 2
The next differential curve is obtained and input to the node extraction unit 6. The node extraction unit 6 extracts nodes based on the primary differential curve, the secondary differential curve, and the language information 101.

【0026】図4(a)、(b)、及び、(c)は、平
叙文のアクセント句パターン曲線、その1次微分曲線、
及び、2次微分曲線を夫々示す。アクセント句パターン
曲線は、アクセント句パターンの開始点B1、及び、ア
クセント句パターンの終了点E1を有する。1次微分曲
線は、符号が正から負に変わるゼロ交差点P1を有す
る。2次微分曲線は、ゼロ交差点P1以前の最高点A1と
ゼロ交差点P1以後の最高点C2、及び、ゼロ交差点P1
以前の最低点A2とゼロ交差点P1以後の最低点C1を有
する。
FIGS. 4A, 4B and 4C show an accent phrase pattern curve of a declarative sentence, its first derivative curve,
And second derivative curves are shown. The accent phrase pattern curve has a start point B1 of the accent phrase pattern and an end point E1 of the accent phrase pattern. The first derivative curve has a zero crossing point P1 whose sign changes from positive to negative. The second derivative curve includes the highest point A1 before the zero crossing point P1, the highest point C2 after the zero crossing point P1, and the zero crossing point P1.
It has the previous lowest point A2 and the lowest point C1 after the zero crossing point P1.

【0027】アクセント句パターン曲線の開始点である
データ点B1を節点B1として抽出し、アクセント句パタ
ーン曲線の終了点であるデータ点E1を節点E1として抽
出する(ステップS11)。アクセント句パターン曲線
を一階微分し、1次微分曲線を求める(ステップS1
2)。
The data point B1 which is the start point of the accent phrase pattern curve is extracted as the node B1, and the data point E1 which is the end point of the accent phrase pattern curve is extracted as the node E1 (step S11). First-order differentiation of the accent phrase pattern curve is performed to obtain a first-order differential curve (step S1)
2).

【0028】1次微分曲線の符号が正から負に変わるゼ
ロ交差点P1を求め、ゼロ交差点P1に対応するアクセ
ント句パターン曲線上のデータ点P1である節点P1を抽
出する。ゼロ交差点が複数ある場合には、アクセント句
パターン曲線の最高周波数点に最も近い交差点をゼロ交
差点P1とする(ステップS13)。言語情報101の
文タイプが疑問文でなければ(ステップS14)、ステ
ップS16に進み次の処理を実行する。
A zero-crossing point P1 at which the sign of the primary differential curve changes from positive to negative is obtained, and a node P1 which is a data point P1 on the accent phrase pattern curve corresponding to the zero-crossing point P1 is extracted. If there are a plurality of zero-crossing points, the crossing point closest to the highest frequency point of the accent phrase pattern curve is set as the zero-crossing point P1 (step S13). If the sentence type of the linguistic information 101 is not a question sentence (step S14), the process proceeds to step S16 to execute the next process.

【0029】図5(a)、(b)、及び、(c)は、疑
問文のアクセント句パターン曲線、その1次微分曲線、
及び、2次微分曲線を夫々示す。アクセント句パターン
曲線は、アクセント句パターンの開始点B1、周波数最
低点E1、及び、アクセント句パターンの終了点E2を有
する。1次微分曲線は、ゼロ交差点P1を有する。2次
微分曲線は、ゼロ交差点P1以前の最高点A1とゼロ交差
点P1以後の最高点C2、及び、ゼロ交差点P1以後の最
低点C1を有する。
FIGS. 5A, 5B, and 5C show an accent phrase pattern curve of a question sentence, its first derivative curve,
And second derivative curves are shown. The accent phrase pattern curve has a start point B1 of the accent phrase pattern, a lowest frequency point E1, and an end point E2 of the accent phrase pattern. The first derivative curve has a zero crossing point P1. The second derivative curve has the highest point A1 before the zero crossing point P1, the highest point C2 after the zero crossing point P1, and the lowest point C1 after the zero crossing point P1.

【0030】ステップS14で疑問文であれば、アクセ
ント句パターン曲線の周波数最低点であるデータ点E1
を節点E1として抽出し、アクセント句パターン曲線の
終了点であるデータ点E2を節点E2として抽出する(ス
テップS15)。また、1次微分曲線の符号が負から正
に変わるゼロ交差点E1を調べ、1次微分曲線のゼロ交
差点E1に対応するアクセント句パターン曲線上のデー
タ点E1を周波数最低点E1としてもよい。
If it is a question sentence in step S14, the data point E1 which is the lowest frequency point of the accent phrase pattern curve
Is extracted as the node E1, and the data point E2, which is the end point of the accent phrase pattern curve, is extracted as the node E2 (step S15). Further, the zero-crossing point E1 at which the sign of the primary differential curve changes from negative to positive may be examined, and the data point E1 on the accent phrase pattern curve corresponding to the zero-crossing point E1 of the primary differential curve may be set as the lowest frequency point E1.

【0031】図4(c)に示すように、アクセント句パ
ターン曲線を二階微分し、2次微分曲線を求める(ステ
ップS16)。アクセント句パターン曲線の節点B1か
ら節点P1までの区間にある2次微分曲線の頂点を調
べ、ゼロ交差点P1以前の最高点A1に対応するアクセン
ト句パターン曲線上のデータ点A1である節点A1を抽出
し、節点A1から節点P1までの区間で、ゼロ交差点P1
以前の最低点A2に対応するアクセント句パターン曲線
上のデータ点A2である節点A2を抽出する(ステップS
17)。
As shown in FIG. 4C, the accent phrase pattern curve is second-order differentiated to obtain a second derivative curve (step S16). The vertex of the second derivative curve in the section from the node B1 to the node P1 of the accent phrase pattern curve is examined, and the node A1 which is the data point A1 on the accent phrase pattern curve corresponding to the highest point A1 before the zero crossing point P1 is extracted. Then, in the section from the node A1 to the node P1, the zero-crossing point P1
The node A2, which is the data point A2 on the accent phrase pattern curve corresponding to the previous lowest point A2, is extracted (step S2).
17).

【0032】次に、言語情報101のアクセント位置時
刻を調べ、アクセント位置を含まなければ(ステップS
18)、ステップS20に進み次の処理を実行する。ア
クセント位置は、アクセントのある位置を表わすもので
ある。例えば、「アンケート」は、「ア」の次の音で下
がるので、「ア」にアクセントがあり、「ア」の音の終
了位置がアクセント位置である。
Next, the accent position time of the language information 101 is checked, and if the accent position is not included (step S
18) Go to step S20 to execute the next process. The accent position indicates an accent position. For example, since "questionnaire" goes down with the sound following "a", "a" has an accent, and the end position of the sound of "a" is the accent position.

【0033】アクセント位置を含めば、アクセント句パ
ターン曲線の節点P1から節点E1までの区間にある2
次微分曲線の頂点を調べ、ゼロ交差点P1以後の最高点
C2に対応するアクセント句パターン曲線上のデータ点
C2である節点C2を抽出し、節点P1から節点C2までの
区間で、ゼロ交差点P1以後の最低点C1に対応するアク
セント句パターン曲線上ののデータ点C1である節点C1
を抽出する(ステップS19)。
If the accent position is included, 2 in the section from the node P1 to the node E1 of the accent phrase pattern curve
The vertex of the next differential curve is examined, and a node C2, which is a data point C2 on the accent phrase pattern curve corresponding to the highest point C2 after the zero crossing point P1, is extracted, and in a section from the node P1 to the node C2, the node after the zero crossing point P1 Is the data point C1 on the accent phrase pattern curve corresponding to the lowest point C1
Is extracted (step S19).

【0034】ただし、ステップS17又はS19におい
て、指定区間で2次微分曲線の最高点又は最低点が無い
場合には、アクセント句パターン曲線上の節点を抽出し
ない。図5(c)には2次微分曲線のゼロ交差点P1以
前の最低点A2が無く、アクセント句パターン曲線の節
点A2を抽出しない例が示されている。
However, if there is no highest or lowest point of the second derivative curve in the designated section in step S17 or S19, no node on the accent phrase pattern curve is extracted. FIG. 5C shows an example in which there is no lowest point A2 before the zero crossing point P1 of the second derivative curve, and no node A2 of the accent phrase pattern curve is extracted.

【0035】また、指定された区間に対する2次微分曲
線の頂点を求める際に、更に三次微分曲線を求め、三次
微分曲線が正又は負に符号が変わるゼロ交差点を調べ、
三次微分曲線のゼロ交差点に対応する2次微分曲線の頂
点を求めてもよい。
Further, when obtaining the apex of the second derivative curve for the designated section, the third derivative curve is further obtained, and the zero crossing point where the third derivative curve changes sign to positive or negative is examined.
The vertex of the second derivative curve corresponding to the zero crossing point of the third derivative curve may be obtained.

【0036】アクセント句パターン曲線上で抽出された
節点B1、A1、A2、P1、C1、C2、及び、E1だけで
は、ピッチパターンを生成する際に不十分な場合、アク
セント句パターン曲線上で、先に求められた2つの隣り
合う節点の中間点を新たに節点として抽出してもよい。
最終的な節点を節点情報出力部7に入力して、処理を終
了する(ステップS20)。
If the nodes B1, A1, A2, P1, C1, C2, and E1 extracted on the accent phrase pattern curve alone are not enough to generate a pitch pattern, An intermediate point between two adjacent nodes obtained earlier may be newly extracted as a node.
The final node is input to the node information output unit 7, and the process ends (step S20).

【0037】節点情報出力部7は、節点抽出部6からの
最終的な節点を節点103として外部に出力する。ま
た、上記のステップS20に相当する中間点を追加し最
終的な節点を求める処理を、節点情報出力部7が実行し
てもよい。
The node information output unit 7 outputs the final node from the node extraction unit 6 as a node 103 to the outside. In addition, the node information output unit 7 may execute the process of adding the intermediate point corresponding to the step S20 and obtaining the final node.

【0038】上記実施形態例によれば、自然音声をアク
セント句で区切って基本周波数を抽出した基本周波数パ
ターン曲線、その1次微分曲線及び2次微分曲線に基づ
いて節点を抽出することにより、基本周波数パターン曲
線の形状を特徴づける変化点等を節点として抽出し、こ
の節点は発話速度とは無関係に抽出されるので、安定し
て効率のよい節点抽出を行うことができる。
According to the above embodiment, nodes are extracted based on a fundamental frequency pattern curve obtained by extracting a fundamental frequency by dividing a natural voice by an accent phrase and its primary differential curve and secondary differential curve. A change point or the like characterizing the shape of the frequency pattern curve is extracted as a node, and this node is extracted regardless of the speech speed, so that stable and efficient node extraction can be performed.

【0039】音声合成装置は、節点に基づいてピッチパ
ターンを生成し、音声合成の規則(規則合成方式)の1
つとして利用し、別に入力される発音記号又は文字列に
基づいて音声を合成する。ピッチパターンは、アクセン
ト及びイントネーションと最も密接に関連し、自然で聞
きやすい音調を与えるだけでなく、単語や句のまとまり
を示し、文として理解しやすくする。音声合成装置は、
生成されるピッチパターンが実際の基本周波数パターン
を忠実に再現すれば、自然で聞きやすい音声を合成でき
る。
The speech synthesizer generates a pitch pattern on the basis of the nodal point, and determines one of the rules of speech synthesis (rule synthesis method).
And synthesizes speech based on phonetic symbols or character strings that are input separately. Pitch patterns are most closely related to accents and intonations and give not only natural and audible tones, but also indicate units of words and phrases and are easy to understand as sentences. The speech synthesizer is
If the generated pitch pattern faithfully reproduces the actual fundamental frequency pattern, a natural and easy-to-hear voice can be synthesized.

【0040】本発明の節点抽出装置では、基本周波数パ
ターン曲線の形状を特徴づける変化点等を節点として抽
出することにより、生成されるピッチパターンが実際の
基本周波数パターンを忠実に再現できるので、音声合成
装置に限らず規則合成方式を採用する装置には好適に利
用される。
In the node extraction device of the present invention, a change point or the like characterizing the shape of the fundamental frequency pattern curve is extracted as a node, so that the generated pitch pattern can faithfully reproduce the actual fundamental frequency pattern. The present invention is suitably used not only for the synthesizing apparatus but also for an apparatus employing the rule synthesizing method.

【0041】以上、本発明をその好適な実施形態例に基
づいて説明したが、本発明の節点抽出方法は、上記実施
形態例の構成にのみ限定されるものでなく、上記実施形
態例の構成から種々の修正及び変更を施した自然音声の
節点抽出装置も、本発明の範囲に含まれる。
Although the present invention has been described based on the preferred embodiment, the node extraction method of the present invention is not limited to the configuration of the above-described embodiment, but may be the same as that of the above-described embodiment. The node extraction device for natural speech modified and modified from the above is also included in the scope of the present invention.

【0042】[0042]

【発明の効果】以上説明したように、本発明の自然音声
の節点抽出装置では、自然音声をアクセント句で区切っ
て基本周波数を抽出した基本周波数パターン曲線、その
1次微分曲線及び2次微分曲線に基づいて節点を抽出す
ることにより、基本周波数パターン曲線の形状を特徴づ
ける変化点等を節点として抽出し、この節点は発話速度
とは無関係に抽出されるので、安定して効率のよい節点
抽出を行うことができる。
As described above, in the natural speech node extraction apparatus of the present invention, a fundamental frequency pattern curve obtained by extracting a fundamental frequency by dividing a natural speech by an accent phrase, its first derivative curve and its second derivative curve. By extracting nodes based on, the change points that characterize the shape of the fundamental frequency pattern curve are extracted as nodes, and since these nodes are extracted independently of the speech speed, stable and efficient node extraction It can be performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態例の自然音声の節点抽出装
置のブロック図である。
FIG. 1 is a block diagram of a natural sound node extraction device according to an embodiment of the present invention.

【図2】自然音声の「よろしいですか」に関する情報を
示す。
FIG. 2 shows information related to "Are you sure?"

【図3】図1の自然音声の節点抽出装置が行う節点抽出
方法のフローチャートである。
FIG. 3 is a flowchart of a node extracting method performed by the natural speech node extracting apparatus of FIG. 1;

【図4】同図(a)、(b)、及び、(c)は、平叙文
のアクセント句パターン曲線、その1次微分曲線、及
び、2次微分曲線を夫々示す。
FIGS. 4A, 4B and 4C show an accent phrase pattern curve of a declarative sentence, its first derivative curve and its second derivative curve, respectively.

【図5】同図(a)、(b)、及び、(c)は、疑問文
のアクセント句パターン曲線、その1次微分曲線、及
び、2次微分曲線を夫々示す。
FIGS. 5 (a), (b), and (c) show an accent phrase pattern curve of a question sentence, its first derivative curve, and its second derivative curve, respectively.

【図6】第1の節点選択法のフローチャートである。FIG. 6 is a flowchart of a first node selection method.

【図7】第2の節点選択法のフローチャートである。FIG. 7 is a flowchart of a second node selection method.

【符号の説明】[Explanation of symbols]

1 パターン抽出部 2 入力部 3 パターン区分部 4 無声制御部 5 微分演算部 6 節点抽出部 7 節点情報出力部 101 言語情報 102 自然音声 103 節点 DESCRIPTION OF SYMBOLS 1 Pattern extraction part 2 Input part 3 Pattern division part 4 Unvoiced control part 5 Differential calculation part 6 Node extraction part 7 Node information output part 101 Language information 102 Natural speech 103 Node

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 自然発生音の基本周波数パターンを抽出
するパターン抽出部と、 前記基本周波数パターンをアクセント句毎に区分するパ
ターン区分部と、 前記区分された基本周波数パターンの1次微分曲線及び
2次微分曲線を求める微分演算部と、 前記区分された基本周波数パターン、1次微分曲線及び
2次微分曲線に基づいて、前記基本周波数パターンの節
点を抽出する節点抽出部とを備えることを特徴とする、
自然音声の節点抽出装置。
A pattern extracting unit for extracting a fundamental frequency pattern of a naturally occurring sound; a pattern dividing unit for dividing the fundamental frequency pattern for each accent phrase; a first derivative curve of the divided fundamental frequency pattern; A differential operation unit for obtaining a second derivative curve, and a node extraction unit for extracting a node of the fundamental frequency pattern based on the divided fundamental frequency pattern, the first derivative curve and the second derivative curve. Do
Node extraction device for natural speech.
【請求項2】 前記節点抽出部は、前記1次微分曲線の
ゼロ点を節点として抽出する、請求項1に記載の自然音
声の節点抽出装置。
2. The natural speech node extraction device according to claim 1, wherein the node extraction unit extracts a zero point of the first derivative curve as a node.
【請求項3】 前記節点抽出部は、前記2次微分曲線の
最高点及び最低点を夫々節点として抽出する、請求項1
又は2に記載の自然音声の節点抽出装置。
3. The node extractor extracts a highest point and a lowest point of the quadratic differential curve as nodes, respectively.
Or the natural speech node extraction device according to 2.
【請求項4】 前記自然音声が、疑問文であるか否か、
及び、アクセント位置を含むか否かを指定するための入
力部を更に備える、請求項1〜3の何れかに記載の自然
音声の節点抽出装置。
4. Whether or not the natural voice is a question sentence
The natural speech node extraction device according to any one of claims 1 to 3, further comprising an input unit for specifying whether or not to include an accent position.
【請求項5】 前記節点抽出部は、自然音声が疑問文で
ある場合に、前記区分された基本周波数パターンの終了
点の直前の周波数最低点を節点として抽出する、請求項
4に記載の自然音声の節点抽出装置。
5. The natural node according to claim 4, wherein when the natural speech is a question sentence, the node extracting unit extracts a lowest frequency point immediately before an end point of the divided fundamental frequency pattern as a node. Speech node extraction device.
【請求項6】 前記節点抽出部は、自然音声がアクセン
ト位置を含む場合には、前記1次微分曲線のゼロ点以降
の2次微分曲線の最高点及び最低点を夫々節点として抽
出する、請求項4又は5に記載の自然音声の節点抽出装
置。
6. When the natural speech includes an accent position, the node extraction unit extracts the highest point and the lowest point of the secondary differential curve after the zero point of the primary differential curve as nodes, respectively. Item 4. The natural speech node extraction device according to item 4 or 5.
【請求項7】 前記節点抽出部は、先に求められた2つ
の隣り合う節点の中間点を新たに節点として抽出する、
請求項3〜6の何れかに記載の自然音声の節点抽出装
置。
7. The node extracting unit newly extracts an intermediate point between two adjacent nodes obtained earlier as a new node.
The node extraction device for natural speech according to any one of claims 3 to 6.
JP2001169140A 2001-06-05 2001-06-05 Node extractor for natural speech Expired - Lifetime JP4639532B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001169140A JP4639532B2 (en) 2001-06-05 2001-06-05 Node extractor for natural speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001169140A JP4639532B2 (en) 2001-06-05 2001-06-05 Node extractor for natural speech

Publications (2)

Publication Number Publication Date
JP2002366177A true JP2002366177A (en) 2002-12-20
JP4639532B2 JP4639532B2 (en) 2011-02-23

Family

ID=19011253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001169140A Expired - Lifetime JP4639532B2 (en) 2001-06-05 2001-06-05 Node extractor for natural speech

Country Status (1)

Country Link
JP (1) JP4639532B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133090A (en) * 2005-11-09 2007-05-31 Yamaha Corp Voice feature amount calculation apparatus
JP2012234201A (en) * 2012-08-02 2012-11-29 Yamaha Corp Voice feature amount calculation device
JP2015060002A (en) * 2013-09-17 2015-03-30 株式会社東芝 Rhythm processing system and method and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04362998A (en) * 1990-12-13 1992-12-15 Ricoh Co Ltd Pitch pattern generation device
JPH1195783A (en) * 1997-09-16 1999-04-09 Toshiba Corp Voice information processing method
JP2000315092A (en) * 1999-04-30 2000-11-14 Nec Corp Device and method of pitch pattern generation for speech synthesis by rule

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04362998A (en) * 1990-12-13 1992-12-15 Ricoh Co Ltd Pitch pattern generation device
JPH1195783A (en) * 1997-09-16 1999-04-09 Toshiba Corp Voice information processing method
JP2000315092A (en) * 1999-04-30 2000-11-14 Nec Corp Device and method of pitch pattern generation for speech synthesis by rule

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133090A (en) * 2005-11-09 2007-05-31 Yamaha Corp Voice feature amount calculation apparatus
JP2012234201A (en) * 2012-08-02 2012-11-29 Yamaha Corp Voice feature amount calculation device
JP2015060002A (en) * 2013-09-17 2015-03-30 株式会社東芝 Rhythm processing system and method and program

Also Published As

Publication number Publication date
JP4639532B2 (en) 2011-02-23

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
JP4302788B2 (en) Prosodic database containing fundamental frequency templates for speech synthesis
JP3667950B2 (en) Pitch pattern generation method
US8886539B2 (en) Prosody generation using syllable-centered polynomial representation of pitch contours
US8626510B2 (en) Speech synthesizing device, computer program product, and method
WO2002073595A1 (en) Prosody generating device, prosody generarging method, and program
KR20070077042A (en) Apparatus and method of processing speech
WO2005109399A1 (en) Speech synthesis device and method
JP2002530703A (en) Speech synthesis using concatenation of speech waveforms
JP2008134475A (en) Technique for recognizing accent of input voice
JP3587048B2 (en) Prosody control method and speech synthesizer
JP2010237323A (en) Sound model generation apparatus, sound synthesis apparatus, sound model generation program, sound synthesis program, sound model generation method, and sound synthesis method
CN112466313A (en) Method and device for synthesizing singing voices of multiple singers
Csapó et al. Residual-based excitation with continuous F0 modeling in HMM-based speech synthesis
Bonada et al. Hybrid neural-parametric f0 model for singing synthesis
JP4639532B2 (en) Node extractor for natural speech
KR0146549B1 (en) Korean language text acoustic translation method
JP3560590B2 (en) Prosody generation device, prosody generation method, and program
Yin An overview of speech synthesis technology
JP2004226505A (en) Pitch pattern generating method, and method, system, and program for speech synthesis
Lobanov et al. TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian)
Jitca et al. Improved speech synthesis using fuzzy methods
Hoffmann et al. Employing Sentence Structure: Syntax Trees as Prosody Generators.
JP3571925B2 (en) Voice information processing device
Ekpenyong Adaptive template-based front end for tone language speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080414

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101115

R150 Certificate of patent or registration of utility model

Ref document number: 4639532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

EXPY Cancellation because of completion of term