JP4639532B2 - Node extractor for natural speech - Google Patents

Node extractor for natural speech Download PDF

Info

Publication number
JP4639532B2
JP4639532B2 JP2001169140A JP2001169140A JP4639532B2 JP 4639532 B2 JP4639532 B2 JP 4639532B2 JP 2001169140 A JP2001169140 A JP 2001169140A JP 2001169140 A JP2001169140 A JP 2001169140A JP 4639532 B2 JP4639532 B2 JP 4639532B2
Authority
JP
Japan
Prior art keywords
node
point
curve
pattern
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001169140A
Other languages
Japanese (ja)
Other versions
JP2002366177A (en
Inventor
一史 芹生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001169140A priority Critical patent/JP4639532B2/en
Publication of JP2002366177A publication Critical patent/JP2002366177A/en
Application granted granted Critical
Publication of JP4639532B2 publication Critical patent/JP4639532B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成装置のための節点抽出装置に関し、より詳細には、スプライン近似でピッチパターンを生成するために、必要な節点を抽出する自然音声の節点抽出装置に関するものである。
【0002】
【従来の技術】
最近の音声合成装置は、規則合成方式に従って、音声を合成する。規則合成方式では、規則合成エンジンにパラメータとして節点を与えることで、音声の基本周波数の時間的変化パターンを示すピッチパターンが生成されて、音声を合成する規則の1つとして利用される。
【0003】
音声合成装置は、節点抽出装置が自然音声から抽出した節点を予め記憶し、節点に基づいてスプライン近似を行い、ピッチパターンを生成する。スプライン近似は、節点と呼ばれる離散的な点を順に結び、スプライン関数を用いて、全体が滑らかな曲線に近似する処理である。
【0004】
規則合成方式の音声合成装置では、音声合成の規則の1つとして、生成されたピッチパターンを利用し、別に入力される発音記号又は文字から、任意の語彙の連続音声を直接合成する。節点抽出装置は、発話者の性別や発話速度等の条件に左右されないで、節点を抽出できることが重要になり、幾つかの提案がなされている。
【0005】
信学技法SP2000−29には、自然音声の節点抽出装置で使用される節点抽出方法が記載されている(2000年7月発行の電子情報通信学会 信学技法:20ページ、筆者:森川博由 坪井直宏 柳雄一郎、題名:「平滑化スプライン関数による音声のピッチパターンのモデル化と分析」)。この節点抽出装置が行う節点抽出方法(節点選択法)では、自然音声から基本周波数を抽出し、この抽出した基本周波数を各時間毎にプロットした複数のデータ点として求め、複数のデータ点から下記に示す2つの方法を用いて節点を選択する。
【0006】
図6は、第1の節点選択法のフローチャートである。複数のデータ点の始点及び終点を2つの節点とし、始点から終点までの間を時間間隔dtで等分割し、分割点毎に最も近いデータ点を抽出して節点候補にする(ステップS81)。隣り合う節点候補間の傾きを求め、傾きの大きさがしきい値TH2より小さければ、節点候補から削除する(ステップS82)。
【0007】
節点及び節点候補に基づいて、平滑スプライン関数を求めて基本周波数パターン曲線との誤差を計算する(ステップS83)。ここで、基本周波数パターン曲線とは、複数のデータ点の集まりを曲線として取り扱うものである。ステップS83の誤差がしきい値TH3より小さいと、傾きの大きさが最も小さい節点候補を削除し、ステップS83から処理を実行する(ステップS86)。ステップS83の誤差がしきい値TH3より大きいと、最終的に残った節点候補を節点として決定する(ステップS85)。
【0008】
図7は、第2の節点選択法のフローチャートである。複数のデータ点の始点及び終点を2つの節点とし、双方の節点を直線で結び、直線と最も遠いデータ点を節点候補とする(ステップS91)。節点及び節点候補に基づいて、平滑スプライン関数を求めて基本周波数パターン曲線との誤差を計算する(ステップS92)。
【0009】
ステップS92の誤差がしきい値TH3より大きいと、スプライン関数から最も遠いデータ点を新たな節点候補として追加し、ステップS92から処理を実行する(ステップS95)。ステップS92の誤差がしきい値TH3より小さいと、最終的に残った節点候補を節点として決定する(ステップS94)。
【0010】
【発明が解決しようとする課題】
上記従来の自然音声の節点抽出装置では、第1の節点選択法は、分割する時間間隔dtが発話速度に依存するので、時間間隔dtを経験的に決定しなければならない。また、誤差と比較されるしきい値TH2又はTH3を発話速度に応じて変更し、経験的に決定する必要があり、節点を安定して求められない。第2の節点選択方法も、第1の節点選択方法と同様に、しきい値TH2又はTH3を使用するので、発話速度に依存し経験的に決定する必要がある。
【0011】
一般に、自然音声の基本周波数パターン曲線について、その形状を考慮せずに節点を抽出すると、この節点に基づくスプライン近似で生成されたピッチパターンには、波打ち現象等のような影響が現れ、自然音声の基本周波数パターンと異なる形状やパターンが生成されることがある。
【0012】
上記従来の自然音声の節点抽出装置では、節点及び節点候補に基づく誤差がしきい値内であるか否かの比較により節点を選択するので、自然音声の基本周波数パターンと異なるピッチパターンが生成されることがあり、基本周波数パターン曲線の形状を十分に考慮しているとはいえない。
【0013】
本発明は、上記したような従来の技術が有する問題点を解決するためになされたものであり、スプライン近似でピッチパターンを生成するために、必要な節点を安定して効率よく抽出する自然音声の節点抽出装置を提供する。
【0014】
【課題を解決するための手段】
上記目的を達成するため、本発明の自然音声の節点抽出装置は、複数の自然音声それぞれの基本周波数パターンを抽出するパターン抽出部と、各前記自然音声について、アクセント句の開始時刻と終了時刻とを含む言語情報を入力する入力部と、前記入力部により入力された前記言語情報に含まれるアクセント句の開始時刻と終了時刻の情報に基づいて、各前記基本周波数パターンをアクセント句毎に区分するパターン区分部と、前記区分された基本周波数パターンの1次微分曲線及び2次微分曲線を求める微分演算部と、前記区分された基本周波数パターンの開始点及び終了点と前記1次微分曲線のゼロ交差点と、前記2次微分曲線の最高点及び最低点と、を前記基本周波数パターンの節点として抽出する節点抽出部とを備えることを特徴とする。
【0015】
本発明の自然音声の節点抽出装置は、自然音声をアクセント句で区切って基本周波数を抽出した基本周波数パターン曲線の開始点及び終了点と、その1次微分曲線のゼロ交差点と、2次微分曲線の最高点及び最低点と、を基本周波数パターン曲線の節点として抽出する。これにより、節点抽出が基本周波数パターン曲線の形状を特徴づける変化点等で確実に行える。この節点は発話速度とは無関係に抽出されるので、安定して効率のよい節点抽出を行うことができる。
【0017】
また、本発明の自然音声の節点抽出装置では、前記自然音声についての言語情報には、疑問文であるか否かについての情報、及び、アクセント位置を含むか否かを示すアクセント位置時刻についての情報が含まれることが好ましい。この場合、前記節点抽出部は、前記自然音声についての言語情報に、疑問文であることを示す情報が含まれている場合に、前記区分された基本周波数パターンの終了点の直前の周波数最低点を節点として抽出すること、前記自然音声についての言語情報に、アクセント位置を含むことを示すアクセント時刻の情報が含まれている場合には、前記1次微分曲線のゼロ交差点以降の2次微分曲線の最高点及び最低点を夫々節点として抽出することができる。この場合、アクセント位置等の言語情報を用いて、基本周波数パターン曲線の形状を十分に考慮できるので、節点抽出が基本周波数パターン曲線の形状を特徴づける変化点等でより確実に行える。
【0018】
前記節点抽出部は、前記基本周波数パターンの節点として抽出した節点のうち、2つの隣り合う節点の中間点を新たに節点として抽出することも本発明の好ましい態様である。この場合、節点に基づいてピッチパターンを生成することが確実になる。
【0019】
【発明の実施の形態】
以下、本発明の実施形態例に基づいて、本発明の自然音声の節点抽出装置について図面を参照して説明する。図1は、本発明の一実施形態例の自然音声の節点抽出装置のブロック図である。自然音声の節点抽出装置は、パターン抽出部1、パターン区分部3、入力部2、無声制御部4、微分演算部5、節点抽出部6、及び、節点情報出力部7で構成される。
【0020】
パターン抽出部1は、入力される自然音声102に基づいて、基本周波数パターンを抽出し、パターン区分部3に入力する。基本周波数パターンは、短い時間間隔の抽出時点で、基本周波数を抽出した複数のデータ点である。データ点は、抽出時刻及び基本周波数で構成される。
【0021】
入力部2は、入力される言語情報101をパターン区分部3に入力する。言語情報101は、アクセント句の開始時刻と終了時刻、アクセント位置時刻、アクセント句に含まれる子音母音の開始時刻と終了時刻、及び、疑問文か平叙文かを示す文タイプ等から成る情報である。パターン区分部3は、言語情報101に基づいて、基本周波数パターンをアクセント句ごとに区切り、無声制御部4に入力する。
【0022】
図2は、自然音声の「よろしいですか」に関する情報を示す。自然音声は、各時刻毎に発生された周波数が点としてプロットされる。図中の黒い影部分は、自然音声の周波数特性(スペクトル表示)を示す。同図(a)に示すように、自然音声の基本周波数は、200Hzから400Hzまでの黒い影部分の中に、白抜き線*として示される。
【0023】
無声制御部4は、言語情報101に基づいて、基本周波数パターン曲線に含まれる無声区間を調べる。基本周波数パターン曲線は、無声区間が存在すると、スプライン近似に必要な節点を抽出する際に誤りを起こし易いので、補間して滑らかなアクセント句パターン曲線として修正される。
【0024】
図2(b)に示すように、子音を含む無声区間(“sh”)がある場合には、近くの有声区間(“o”又は“i−”)から引き伸ばし、直線又は曲線で補間する。アクセント句の開始点又は終了点が無声である場合には、近くの有声区間の値から数Hz小さい値を開始点又は終了点として補間する。無声制御部4は、アクセント句パターン曲線を白丸で示される各節点(B1、P1、E1、E2)を通るように連続的で滑らかにして、節点抽出部6に入力する。
【0025】
図3は、図1の自然音声の節点抽出装置が行う節点抽出方法のフローチャートである。微分演算部5は、アクセント句パターン曲線の1次微分曲線及び2次微分曲線を求めて、節点抽出部6に入力する。節点抽出部6は、1次微分曲線、2次微分曲線、及び、言語情報101に基づいて、節点抽出を行う。
【0026】
図4(a)、(b)、及び、(c)は、平叙文のアクセント句パターン曲線、その1次微分曲線、及び、2次微分曲線を夫々示す。アクセント句パターン曲線は、アクセント句パターンの開始点B1、及び、アクセント句パターンの終了点E1を有する。1次微分曲線は、符号が正から負に変わるゼロ交差点P1を有する。2次微分曲線は、ゼロ交差点P1以前の最高点A1とゼロ交差点P1以後の最高点C2、及び、ゼロ交差点P1以前の最低点A2とゼロ交差点P1以後の最低点C1を有する。
【0027】
アクセント句パターン曲線の開始点であるデータ点B1を節点B1として抽出し、アクセント句パターン曲線の終了点であるデータ点E1を節点E1として抽出する(ステップS11)。アクセント句パターン曲線を一階微分し、1次微分曲線を求める(ステップS12)。
【0028】
1次微分曲線の符号が正から負に変わるゼロ交差点P1を求め、ゼロ交差点P1に対応するアクセント句パターン曲線上のデータ点P1である節点P1を抽出する。ゼロ交差点が複数ある場合には、アクセント句パターン曲線の最高周波数点に最も近い交差点をゼロ交差点P1とする(ステップS13)。言語情報101の文タイプが疑問文でなければ(ステップS14)、ステップS16に進み次の処理を実行する。
【0029】
図5(a)、(b)、及び、(c)は、疑問文のアクセント句パターン曲線、その1次微分曲線、及び、2次微分曲線を夫々示す。アクセント句パターン曲線は、アクセント句パターンの開始点B1、周波数最低点E1、及び、アクセント句パターンの終了点E2を有する。1次微分曲線は、ゼロ交差点P1を有する。2次微分曲線は、ゼロ交差点P1以前の最高点A1とゼロ交差点P1以後の最高点C2、及び、ゼロ交差点P1以後の最低点C1を有する。
【0030】
ステップS14で疑問文であれば、アクセント句パターン曲線の周波数最低点であるデータ点E1を節点E1として抽出し、アクセント句パターン曲線の終了点であるデータ点E2を節点E2として抽出する(ステップS15)。また、1次微分曲線の符号が負から正に変わるゼロ交差点E1を調べ、1次微分曲線のゼロ交差点E1に対応するアクセント句パターン曲線上のデータ点E1を周波数最低点E1としてもよい。
【0031】
図4(c)に示すように、アクセント句パターン曲線を二階微分し、2次微分曲線を求める(ステップS16)。アクセント句パターン曲線の節点B1から節点P1までの区間にある2次微分曲線の頂点を調べ、ゼロ交差点P1以前の最高点A1に対応するアクセント句パターン曲線上のデータ点A1である節点A1を抽出し、節点A1から節点P1までの区間で、ゼロ交差点P1以前の最低点A2に対応するアクセント句パターン曲線上のデータ点A2である節点A2を抽出する(ステップS17)。
【0032】
次に、言語情報101のアクセント位置時刻を調べ、アクセント位置を含まなければ(ステップS18)、ステップS20に進み次の処理を実行する。アクセント位置は、アクセントのある位置を表わすものである。例えば、「アンケート」は、「ア」の次の音で下がるので、「ア」にアクセントがあり、「ア」の音の終了位置がアクセント位置である。
【0033】
アクセント位置を含めば、アクセント句パターン曲線の節点P1から節点E1までの区間にある2次微分曲線の頂点を調べ、ゼロ交差点P1以後の最高点C2に対応するアクセント句パターン曲線上のデータ点C2である節点C2を抽出し、節点P1から節点C2までの区間で、ゼロ交差点P1以後の最低点C1に対応するアクセント句パターン曲線上のデータ点C1である節点C1を抽出する(ステップS19)。
【0034】
ただし、ステップS17又はS19において、指定区間で2次微分曲線の最高点又は最低点が無い場合には、アクセント句パターン曲線上の節点を抽出しない。図5(c)には2次微分曲線のゼロ交差点P1以前の最低点A2が無く、アクセント句パターン曲線の節点A2を抽出しない例が示されている。
【0035】
また、指定された区間に対する2次微分曲線の頂点を求める際に、更に三次微分曲線を求め、三次微分曲線が正又は負に符号が変わるゼロ交差点を調べ、三次微分曲線のゼロ交差点に対応する2次微分曲線の頂点を求めてもよい。
【0036】
アクセント句パターン曲線上で抽出された節点B1、A1、A2、P1、C1、C2、及び、E1だけでは、ピッチパターンを生成する際に不十分な場合、アクセント句パターン曲線上で、先に求められた2つの隣り合う節点の中間点を新たに節点として抽出してもよい。最終的な節点を節点情報出力部7に入力して、処理を終了する(ステップS20)。
【0037】
節点情報出力部7は、節点抽出部6からの最終的な節点を節点103として外部に出力する。また、上記のステップS20に相当する中間点を追加し最終的な節点を求める処理を、節点情報出力部7が実行してもよい。
【0038】
上記実施形態例によれば、自然音声をアクセント句で区切って基本周波数を抽出した基本周波数パターン曲線、その1次微分曲線及び2次微分曲線に基づいて節点を抽出することにより、基本周波数パターン曲線の形状を特徴づける変化点等を節点として抽出し、この節点は発話速度とは無関係に抽出されるので、安定して効率のよい節点抽出を行うことができる。
【0039】
音声合成装置は、節点に基づいてピッチパターンを生成し、音声合成の規則(規則合成方式)の1つとして利用し、別に入力される発音記号又は文字列に基づいて音声を合成する。ピッチパターンは、アクセント及びイントネーションと最も密接に関連し、自然で聞きやすい音調を与えるだけでなく、単語や句のまとまりを示し、文として理解しやすくする。音声合成装置は、生成されるピッチパターンが実際の基本周波数パターンを忠実に再現すれば、自然で聞きやすい音声を合成できる。
【0040】
本発明の節点抽出装置では、基本周波数パターン曲線の形状を特徴づける変化点等を節点として抽出することにより、生成されるピッチパターンが実際の基本周波数パターンを忠実に再現できるので、音声合成装置に限らず規則合成方式を採用する装置には好適に利用される。
【0041】
以上、本発明をその好適な実施形態例に基づいて説明したが、本発明の節点抽出方法は、上記実施形態例の構成にのみ限定されるものでなく、上記実施形態例の構成から種々の修正及び変更を施した自然音声の節点抽出装置も、本発明の範囲に含まれる。
【0042】
【発明の効果】
以上説明したように、本発明の自然音声の節点抽出装置では、自然音声をアクセント句で区切って基本周波数を抽出した基本周波数パターン曲線、その1次微分曲線及び2次微分曲線に基づいて節点を抽出することにより、基本周波数パターン曲線の形状を特徴づける変化点等を節点として抽出し、この節点は発話速度とは無関係に抽出されるので、安定して効率のよい節点抽出を行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態例の自然音声の節点抽出装置のブロック図である。
【図2】自然音声の「よろしいですか」に関する情報を示す。
【図3】図1の自然音声の節点抽出装置が行う節点抽出方法のフローチャートである。
【図4】同図(a)、(b)、及び、(c)は、平叙文のアクセント句パターン曲線、その1次微分曲線、及び、2次微分曲線を夫々示す。
【図5】同図(a)、(b)、及び、(c)は、疑問文のアクセント句パターン曲線、その1次微分曲線、及び、2次微分曲線を夫々示す。
【図6】第1の節点選択法のフローチャートである。
【図7】第2の節点選択法のフローチャートである。
【符号の説明】
1 パターン抽出部
2 入力部
3 パターン区分部
4 無声制御部
5 微分演算部
6 節点抽出部
7 節点情報出力部
101 言語情報
102 自然音声
103 節点
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a node extraction device for a speech synthesizer, and more particularly to a natural speech node extraction device that extracts nodes necessary for generating a pitch pattern by spline approximation.
[0002]
[Prior art]
Recent speech synthesizers synthesize speech according to a rule synthesis method. In the rule synthesis system, a node is provided as a parameter to the rule synthesis engine, whereby a pitch pattern indicating a temporal change pattern of the fundamental frequency of the voice is generated and used as one of the rules for synthesizing the voice.
[0003]
The speech synthesizer stores in advance the nodes extracted from the natural speech by the node extraction device, performs spline approximation based on the nodes, and generates a pitch pattern. Spline approximation is a process of connecting discrete points called nodes in order, and using a spline function to approximate a smooth curve as a whole.
[0004]
A rule-synthesizing speech synthesizer uses a generated pitch pattern as one of speech synthesis rules, and directly synthesizes continuous speech of an arbitrary vocabulary from phonetic symbols or characters input separately. It has become important for the node extraction device to be able to extract nodes without being influenced by conditions such as the gender and speaking speed of the speaker, and several proposals have been made.
[0005]
The scientific technique SP2000-29 describes a node extraction method used in a natural speech node extraction apparatus (The Institute of Electronics, Information and Communication Engineers published in July 2000, Technical Technique: 20 pages, author: Hiroyoshi Morikawa. Naohiro Tsuboi Yuichiro Yanagi, Title: “Modeling and Analysis of Speech Pitch Patterns by Smoothing Spline Function”). In the node extraction method (node selection method) performed by this node extraction device, a fundamental frequency is extracted from natural speech, and the extracted fundamental frequency is obtained as a plurality of data points plotted for each time. The nodes are selected using the two methods shown in FIG.
[0006]
FIG. 6 is a flowchart of the first node selection method. The start point and end point of a plurality of data points are set as two nodes, and the interval from the start point to the end point is equally divided at a time interval dt, and the nearest data point is extracted for each division point to be a node candidate (step S81). The inclination between adjacent node candidates is obtained, and if the magnitude of the inclination is smaller than the threshold value TH2, it is deleted from the node candidates (step S82).
[0007]
Based on the node and the node candidate, a smooth spline function is obtained and an error from the fundamental frequency pattern curve is calculated (step S83). Here, the basic frequency pattern curve handles a collection of a plurality of data points as a curve. If the error in step S83 is smaller than the threshold TH3, the node candidate having the smallest inclination is deleted, and the process is executed from step S83 (step S86). If the error in step S83 is larger than the threshold value TH3, the node candidate remaining finally is determined as a node (step S85).
[0008]
FIG. 7 is a flowchart of the second node selection method. The start and end points of a plurality of data points are set as two nodes, both nodes are connected by a straight line, and the data point farthest from the straight line is set as a node candidate (step S91). Based on the node and the node candidate, a smooth spline function is obtained and an error from the fundamental frequency pattern curve is calculated (step S92).
[0009]
If the error in step S92 is larger than the threshold value TH3, the data point farthest from the spline function is added as a new node candidate, and the process is executed from step S92 (step S95). If the error in step S92 is smaller than the threshold value TH3, the finally remaining node candidate is determined as a node (step S94).
[0010]
[Problems to be solved by the invention]
In the conventional natural speech node extraction apparatus, the first node selection method requires that the time interval dt be determined empirically because the time interval dt to be divided depends on the speech rate. Further, it is necessary to change the threshold value TH2 or TH3 to be compared with the error according to the speech speed and to determine it empirically, and the nodes cannot be obtained stably. Similarly to the first node selection method, the second node selection method uses the threshold value TH2 or TH3, and therefore needs to be determined empirically depending on the speech rate.
[0011]
In general, if a node is extracted without considering the shape of the fundamental frequency pattern curve of natural speech, the pitch pattern generated by spline approximation based on this node will have an effect such as a undulation phenomenon. In some cases, a shape or pattern different from the basic frequency pattern is generated.
[0012]
In the above-described conventional natural speech node extraction device, a node is selected by comparing whether or not the error based on the node and the node candidate is within a threshold value, so that a pitch pattern different from the basic frequency pattern of natural speech is generated. Therefore, it cannot be said that the shape of the fundamental frequency pattern curve is sufficiently considered.
[0013]
The present invention has been made in order to solve the above-described problems of the prior art, and in order to generate a pitch pattern by spline approximation, a natural speech that stably and efficiently extracts necessary nodes. A nodal extraction device is provided.
[0014]
[Means for Solving the Problems]
To achieve the above object, the node extracting apparatus natural speech of the present invention, a pattern extraction unit for extracting a fundamental frequency pattern of the plurality of natural speech, for each said natural speech, the end time and start time of the accent phrase The basic frequency pattern is classified for each accent phrase on the basis of an input unit for inputting language information including, and information on the start time and end time of the accent phrase included in the language information input by the input unit a pattern classification unit, and a differentiating unit for determining the first derivative curve and the secondary differential curve of the segmented fundamental frequency pattern, the start and end points of the segmented fundamental frequency pattern, the first derivative curve and zero crossing, that and a node extracting unit and the highest point and the lowest point, is extracted as a nodal point of the fundamental frequency pattern of the second derivative curve And butterflies.
[0015]
The natural speech nodal point extracting apparatus of the present invention includes a starting point and an end point of a fundamental frequency pattern curve obtained by dividing a natural speech by an accent phrase and extracting a fundamental frequency, a zero crossing point of the primary differential curve , and a secondary differential curve. Are extracted as nodes of the basic frequency pattern curve . As a result, node extraction can be reliably performed at a change point that characterizes the shape of the fundamental frequency pattern curve. Since these nodes are extracted regardless of the speech rate, stable and efficient node extraction can be performed.
[0017]
In the natural speech nodal point extraction device of the present invention, the language information about the natural speech includes information about whether or not it is a question sentence, and an accent position time indicating whether or not an accent position is included. Rukoto contains information is preferred. In this case, the node extracting unit, the language information regarding the natural speech, if it contains any information indicating that the question sentence, the frequency lowest just before the end point of the fundamental frequency pattern in which the sectioned extracting the points as nodes, the language information regarding the natural speech, if it contains information accent time indicating that it contains an accent position, the secondary after the zero crossing point of the first derivative curve The highest point and the lowest point of the differential curve can be extracted as nodes, respectively. In this case, the shape of the fundamental frequency pattern curve can be sufficiently taken into account using language information such as the accent position, so that node extraction can be performed more reliably at a change point that characterizes the shape of the fundamental frequency pattern curve.
[0018]
It is also a preferable aspect of the present invention that the node extraction unit newly extracts an intermediate point between two adjacent nodes among the nodes extracted as the nodes of the fundamental frequency pattern . In this case, it is certain that the pitch pattern is generated based on the nodes.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
DESCRIPTION OF EMBODIMENTS Hereinafter, a natural speech node extraction apparatus according to the present invention will be described with reference to the drawings based on an embodiment of the present invention. FIG. 1 is a block diagram of a natural speech node extraction apparatus according to an embodiment of the present invention. The natural speech node extraction apparatus includes a pattern extraction unit 1, a pattern classification unit 3, an input unit 2, a silent control unit 4, a differential operation unit 5, a node extraction unit 6, and a node information output unit 7.
[0020]
The pattern extraction unit 1 extracts a basic frequency pattern based on the input natural sound 102 and inputs it to the pattern classification unit 3. The fundamental frequency pattern is a plurality of data points from which fundamental frequencies are extracted at the time of extraction at a short time interval. A data point is composed of an extraction time and a fundamental frequency.
[0021]
The input unit 2 inputs the input language information 101 to the pattern classification unit 3. The language information 101 is information including an accent phrase start time and end time, an accent position time, a consonant vowel start time and end time included in the accent phrase, a sentence type indicating whether it is a question sentence or a plain sentence, and the like. . The pattern classification unit 3 divides the fundamental frequency pattern for each accent phrase based on the language information 101 and inputs it to the silent control unit 4.
[0022]
FIG. 2 shows information related to "Are you sure?" For natural speech, the frequency generated at each time is plotted as a point. The black shaded part in the figure indicates the natural voice frequency characteristics (spectrum display). As shown in FIG. 5A, the fundamental frequency of natural speech is shown as a white line * in a black shadow portion from 200 Hz to 400 Hz.
[0023]
The silent control unit 4 examines the silent section included in the fundamental frequency pattern curve based on the language information 101. If there is an unvoiced section, the basic frequency pattern curve is likely to cause an error when extracting the nodes necessary for the spline approximation, and is thus corrected as a smooth accent phrase pattern curve by interpolation.
[0024]
As shown in FIG. 2B, when there is an unvoiced section (“sh”) including a consonant, it is stretched from a nearby voiced section (“o” or “i−”) and interpolated with a straight line or a curve. When the start point or end point of an accent phrase is unvoiced, a value several Hz smaller than the value of a nearby voiced section is interpolated as the start point or end point. The silent control unit 4 makes the accent phrase pattern curve continuous and smooth so as to pass through each node (B 1, P 1, E 1, E 2) indicated by white circles, and inputs it to the node extraction unit 6.
[0025]
FIG. 3 is a flowchart of a node extraction method performed by the natural speech node extraction apparatus of FIG. The differential calculation unit 5 obtains a primary differential curve and a secondary differential curve of the accent phrase pattern curve and inputs them to the node extraction unit 6. The node extraction unit 6 performs node extraction based on the primary differential curve, the secondary differential curve, and the language information 101.
[0026]
FIGS. 4A, 4B, and 4C show an accent phrase pattern curve of a plain text, its first derivative curve, and a second derivative curve, respectively. The accent phrase pattern curve has an accent phrase pattern start point B1 and an accent phrase pattern end point E1. The first derivative curve has a zero crossing point P1 whose sign changes from positive to negative. The quadratic differential curve has a highest point A1 before the zero intersection P1, a highest point C2 after the zero intersection P1, and a lowest point A2 before the zero intersection P1 and a lowest point C1 after the zero intersection P1.
[0027]
A data point B1 that is the start point of the accent phrase pattern curve is extracted as a node B1, and a data point E1 that is the end point of the accent phrase pattern curve is extracted as a node E1 (step S11). The accent phrase pattern curve is first-order differentiated to obtain a first derivative curve (step S12).
[0028]
A zero crossing point P1 in which the sign of the primary differential curve changes from positive to negative is obtained, and a node P1 which is a data point P1 on the accent phrase pattern curve corresponding to the zero crossing point P1 is extracted. If there are a plurality of zero intersections, the intersection closest to the highest frequency point of the accent phrase pattern curve is set as the zero intersection P1 (step S13). If the sentence type of the language information 101 is not a question sentence (step S14), the process proceeds to step S16 and the next process is executed.
[0029]
5A, 5B, and 5C show an accent phrase pattern curve of a question sentence, a primary differential curve thereof, and a secondary differential curve, respectively. The accent phrase pattern curve has an accent phrase pattern start point B1, a frequency lowest point E1, and an accent phrase pattern end point E2. The first derivative curve has a zero crossing point P1. The secondary differential curve has a maximum point A1 before the zero intersection P1, a maximum point C2 after the zero intersection P1, and a minimum point C1 after the zero intersection P1.
[0030]
If it is a question sentence in step S14, the data point E1 which is the lowest frequency of the accent phrase pattern curve is extracted as the node E1, and the data point E2 which is the end point of the accent phrase pattern curve is extracted as the node E2 (step S15). ). Further, the zero crossing point E1 in which the sign of the primary differential curve changes from negative to positive is examined, and the data point E1 on the accent phrase pattern curve corresponding to the zero crossing point E1 of the primary differential curve may be set as the lowest frequency point E1.
[0031]
As shown in FIG. 4C, the accent phrase pattern curve is second-order differentiated to obtain a second derivative curve (step S16). The vertex of the secondary differential curve in the section from the node B1 to the node P1 of the accent phrase pattern curve is examined, and the node A1 that is the data point A1 on the accent phrase pattern curve corresponding to the highest point A1 before the zero intersection P1 is extracted. Then, in the section from the node A1 to the node P1, the node A2 which is the data point A2 on the accent phrase pattern curve corresponding to the lowest point A2 before the zero intersection P1 is extracted (step S17).
[0032]
Next, the accent position time of the language information 101 is checked, and if the accent position is not included (step S18), the process proceeds to step S20 and the next process is executed. The accent position represents an accented position. For example, since “questionnaire” is lowered by the sound next to “A”, “A” has an accent, and the end position of the sound of “A” is an accent position.
[0033]
If the accent position is included, the vertex of the second derivative curve in the section from the node P1 to the node E1 of the accent phrase pattern curve is examined, and the data point C2 on the accent phrase pattern curve corresponding to the highest point C2 after the zero crossing P1. extract the node C2 is, in a section from the node P1 to the node C2, it extracts the node C1 is a data point C1 on the accent phrase pattern curve corresponding to the zero crossing point P1 after the lowest point C1 (step S19 ).
[0034]
However, in step S17 or S19, if there is no highest or lowest point of the secondary differential curve in the specified section, no node on the accent phrase pattern curve is extracted. FIG. 5C shows an example in which there is no lowest point A2 before the zero crossing point P1 of the secondary differential curve, and the node A2 of the accent phrase pattern curve is not extracted.
[0035]
Further, when obtaining the vertex of the second derivative curve for the specified section, a third derivative curve is further obtained, a zero crossing where the sign of the third derivative is changed to positive or negative is examined, and the zero crossing of the third derivative curve is corresponded. You may obtain | require the vertex of a secondary differential curve.
[0036]
If only the nodes B1, A1, A2, P1, C1, C2, and E1 extracted on the accent phrase pattern curve are insufficient when generating the pitch pattern, the first determination is made on the accent phrase pattern curve. An intermediate point between the two adjacent nodes obtained may be newly extracted as a node. The final node is input to the node information output unit 7, and the process ends (step S20).
[0037]
The node information output unit 7 outputs the final node from the node extraction unit 6 as a node 103 to the outside. Further, the node information output unit 7 may execute a process of adding a midpoint corresponding to step S20 and obtaining a final node.
[0038]
According to the embodiment, the fundamental frequency pattern curve is obtained by extracting the nodes based on the fundamental frequency pattern curve obtained by dividing the natural speech by the accent phrase and extracting the fundamental frequency, and the first and second derivative curves. Since the change point characterizing the shape of the character is extracted as a node, and this node is extracted regardless of the speech speed, the node can be stably and efficiently extracted.
[0039]
The speech synthesizer generates a pitch pattern based on the nodes, uses it as one of speech synthesis rules (rule synthesis method), and synthesizes speech based on phonetic symbols or character strings input separately. Pitch patterns are most closely related to accents and intonation, and not only give a natural and easy-to-understand tone, but also show a group of words and phrases, making them easier to understand as sentences. If the generated pitch pattern faithfully reproduces the actual fundamental frequency pattern, the speech synthesizer can synthesize natural and easy-to-hear speech.
[0040]
In the node extraction device of the present invention, by extracting the change point characterizing the shape of the fundamental frequency pattern curve as a node, the generated pitch pattern can faithfully reproduce the actual fundamental frequency pattern. The present invention is not limited to this and is preferably used for an apparatus that employs a rule composition method.
[0041]
As described above, the present invention has been described based on the preferred embodiment. However, the node extraction method of the present invention is not limited to the configuration of the above-described embodiment example. A node extraction device for natural speech that has been modified and changed is also included in the scope of the present invention.
[0042]
【The invention's effect】
As described above, in the natural speech nodal extraction device of the present invention, the nodal points are obtained based on the fundamental frequency pattern curve obtained by dividing the natural speech by the accent phrase and extracting the fundamental frequency, and the primary differential curve and the secondary differential curve. By extracting, a change point characterizing the shape of the basic frequency pattern curve is extracted as a node, and this node is extracted regardless of the speaking speed, so that stable and efficient node extraction can be performed. .
[Brief description of the drawings]
FIG. 1 is a block diagram of a natural speech node extraction apparatus according to an embodiment of the present invention.
FIG. 2 shows information related to natural voice “Are you sure?”
FIG. 3 is a flowchart of a node extraction method performed by the natural speech node extraction apparatus of FIG. 1;
4 (a), (b), and (c) show an accent phrase pattern curve of a plain text, its first derivative curve, and a second derivative curve, respectively.
FIGS. 5A, 5B, and 5C show an accent phrase pattern curve of a question sentence, a primary differential curve thereof, and a secondary differential curve, respectively.
FIG. 6 is a flowchart of a first node selection method.
FIG. 7 is a flowchart of a second node selection method.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Pattern extraction part 2 Input part 3 Pattern division part 4 Silent control part 5 Differentiation calculation part 6 Node extraction part 7 Node information output part 101 Language information 102 Natural speech 103 Node

Claims (5)

複数の自然音声それぞれの基本周波数パターンを抽出するパターン抽出部と、
各前記自然音声について、アクセント句の開始時刻と終了時刻とを含む言語情報を入力する入力部と、
前記入力部により入力された前記言語情報に含まれるアクセント句の開始時刻と終了時刻の情報に基づいて、各前記基本周波数パターンをアクセント句毎に区分するパターン区分部と、
前記区分された基本周波数パターンの1次微分曲線及び2次微分曲線を求める微分演算部と、
前記区分された基本周波数パターンの開始点及び終了点と前記1次微分曲線のゼロ交差点と、前記2次微分曲線の最高点及び最低点と、を前記基本周波数パターンの節点として抽出する節点抽出部と
を備えることを特徴とする、自然音声の節点抽出装置。
A pattern extraction unit for extracting a fundamental frequency pattern of each of a plurality of natural sounds ;
For each natural speech, an input unit for inputting language information including the start time and end time of an accent phrase;
A pattern division unit that divides each fundamental frequency pattern for each accent phrase based on information on the start time and end time of the accent phrase included in the language information input by the input unit ;
A differential operation unit for obtaining a primary differential curve and a secondary differential curve of the divided fundamental frequency pattern;
The start point and the end point of the segmented fundamental frequency pattern, the zero crossings of the first derivative curve, the node extraction for extracting the highest point and the lowest point of the second derivative curve, as nodes of the fundamental frequency pattern and parts,
A node extraction device for natural speech, comprising:
前記自然音声についての言語情報には、疑問文であるか否かについての情報、及び、アクセント位置を含むか否かを示すアクセント位置時刻についての情報が含まれる、請求項に記載の自然音声の節点抽出装置。 The language information regarding the natural speech, the information about whether the interrogative sentence, and Ru contains information about the accent position and time indicating whether including accent position, nature of claim 1 A voice node extractor. 前記節点抽出部は、前記自然音声についての言語情報に、疑問文であることを示す情報が含まれている場合に、前記区分された基本周波数パターンの終了点の直前の周波数最低点を節点として抽出する、請求項に記載の自然音声の節点抽出装置。The nodal point extraction unit, the language information regarding the natural speech, if it contains any information indicating that the question statement node frequency lowest point immediately before the end point of the segmented fundamental frequency pattern The natural speech node extracting apparatus according to claim 2 , wherein 前記節点抽出部は、前記自然音声についての言語情報に、アクセント位置を含むことを示すアクセント時刻の情報が含まれている場合には、前記1次微分曲線のゼロ交差点以降の前記2次微分曲線の最高点及び最低点を夫々節点として抽出する、請求項又はに記載の自然音声の節点抽出装置。The nodal point extraction unit, the language information on the natural speech, if it contains information accent time indicating that it contains an accent position, the zero-crossing point after the second derivative of the first derivative curve The node extraction device for natural speech according to claim 2 or 3 , wherein the highest point and the lowest point of the curve are extracted as nodes. 前記節点抽出部は、前記基本周波数パターンの節点として抽出した節点のうち、2つの隣り合う節点の中間点を新たに節点として抽出する、請求項の何れか1項に記載の自然音声の節点抽出装置。The node extraction unit is configured of the node extracted as a node of the fundamental frequency pattern, the midpoint of the two adjacent nodes is extracted as a new node, natural speech according to any one of claims 1 to 4, Nodal extraction device.
JP2001169140A 2001-06-05 2001-06-05 Node extractor for natural speech Expired - Lifetime JP4639532B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001169140A JP4639532B2 (en) 2001-06-05 2001-06-05 Node extractor for natural speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001169140A JP4639532B2 (en) 2001-06-05 2001-06-05 Node extractor for natural speech

Publications (2)

Publication Number Publication Date
JP2002366177A JP2002366177A (en) 2002-12-20
JP4639532B2 true JP4639532B2 (en) 2011-02-23

Family

ID=19011253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001169140A Expired - Lifetime JP4639532B2 (en) 2001-06-05 2001-06-05 Node extractor for natural speech

Country Status (1)

Country Link
JP (1) JP4639532B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5042485B2 (en) * 2005-11-09 2012-10-03 ヤマハ株式会社 Voice feature amount calculation device
JP5605731B2 (en) * 2012-08-02 2014-10-15 ヤマハ株式会社 Voice feature amount calculation device
JP6261924B2 (en) * 2013-09-17 2018-01-17 株式会社東芝 Prosody editing apparatus, method and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04362998A (en) * 1990-12-13 1992-12-15 Ricoh Co Ltd Pitch pattern generation device
JPH1195783A (en) * 1997-09-16 1999-04-09 Toshiba Corp Voice information processing method
JP2000315092A (en) * 1999-04-30 2000-11-14 Nec Corp Device and method of pitch pattern generation for speech synthesis by rule

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04362998A (en) * 1990-12-13 1992-12-15 Ricoh Co Ltd Pitch pattern generation device
JPH1195783A (en) * 1997-09-16 1999-04-09 Toshiba Corp Voice information processing method
JP2000315092A (en) * 1999-04-30 2000-11-14 Nec Corp Device and method of pitch pattern generation for speech synthesis by rule

Also Published As

Publication number Publication date
JP2002366177A (en) 2002-12-20

Similar Documents

Publication Publication Date Title
US7590540B2 (en) Method and system for statistic-based distance definition in text-to-speech conversion
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
JP4302788B2 (en) Prosodic database containing fundamental frequency templates for speech synthesis
JP3667950B2 (en) Pitch pattern generation method
JP3910628B2 (en) Speech synthesis apparatus, speech synthesis method and program
KR20070077042A (en) Apparatus and method of processing speech
JP2010237323A (en) Sound model generation apparatus, sound synthesis apparatus, sound model generation program, sound synthesis program, sound model generation method, and sound synthesis method
JP2006084715A (en) Method and device for element piece set generation
JP5929909B2 (en) Prosody generation device, speech synthesizer, prosody generation method, and prosody generation program
JP5025550B2 (en) Audio processing apparatus, audio processing method, and program
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
CN112466313A (en) Method and device for synthesizing singing voices of multiple singers
Conkie et al. Prosody recognition from speech utterances using acoustic and linguistic based models of prosodic events
Csapó et al. Residual-based excitation with continuous F0 modeling in HMM-based speech synthesis
Vekkot et al. Prosodic transformation in vocal emotion conversion for multi-lingual scenarios: A pilot study
JP4639532B2 (en) Node extractor for natural speech
KR0146549B1 (en) Korean language text acoustic translation method
JP4751230B2 (en) Prosodic segment dictionary creation method, speech synthesizer, and program
JP2004226505A (en) Pitch pattern generating method, and method, system, and program for speech synthesis
Maestre et al. Modeling musical articulation gestures in singing voice performances
JP3571925B2 (en) Voice information processing device
Ekpenyong Adaptive template-based front end for tone language speech synthesis
Narupiyakul et al. A stochastic knowledge-based Thai text-to-speech system
Yu et al. A New Pitch Generation Model Based on Internal Dependence of Pitch Contour for Manadrin TTS System
JP2005292433A (en) Device, method, and program for speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080414

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101115

R150 Certificate of patent or registration of utility model

Ref document number: 4639532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

EXPY Cancellation because of completion of term