JP4793776B2 - イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム - Google Patents
イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム Download PDFInfo
- Publication number
- JP4793776B2 JP4793776B2 JP2005098067A JP2005098067A JP4793776B2 JP 4793776 B2 JP4793776 B2 JP 4793776B2 JP 2005098067 A JP2005098067 A JP 2005098067A JP 2005098067 A JP2005098067 A JP 2005098067A JP 4793776 B2 JP4793776 B2 JP 4793776B2
- Authority
- JP
- Japan
- Prior art keywords
- tone
- intonation
- target
- word
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
G.コチャンスキー及びC.シー、「ソフトテンプレートを用いた韻律学モデリング」音声コミュニケーション、第39巻、pp.311−352、2003年(G. Kochanski and C. Shih, "Prosody modeling with soft templates," Speech Communication, Vol. 39, pp. 3l1-352, 2003.) H.フジサキ及びK.ヒロセ、「日本語宣言文における音声基本周波数輪郭の分析」日本音響学会誌、第5巻、第4号、pp.233−242、1984年(H. Fujisaki and K. Hirose, "Analysis of voice fundamental frequency contours for declarative sentences of Japanese," J. Acoust. Soc. Japan, Vol.5, No.4, pp. 233-242, 1984.) J.シェン、「北京方言における声調とイントネーションのピッチ範囲」、実験的音声学における調査報告書、T.リン及びL.J.ワン編、北京大学出版局、pp.73−130、1985年(中国語)(J. Shen, "Pitch range of tone and intonation in Beijing dialect," in Working papers in experimental phonetics, ed. by T. Lin and L. J. Wang, Beijing Univ. Press, pp. 73-130, 1985. (in Chinese)) Z.ウー、「標準中国語のためのイントネーション分析の新方法:文中の句輪郭の周波数転位処理」話し言葉の分析、知覚及び処理、G.ファンら編、pp.255−268、1996年(Z. Wu, "A new method of intonation analysis for standard Chinese: frequency transposition processing of phrasal contours in a sentence," Analysis, perception and processing of spoken language, ed. by G. Fant, et al, pp. 255-268, 1996.) Y.R.チャオ、中国語話し言葉の文法。バークレー、カリフォルニア大学出版局、1968年(Y. R. Chao, A grammar of spoken Chinese. Berkeley, University of California Press, 1968.) P.クラトチヴィル、北京語のイントネーション、イントネーションシステム、20ヶ国語の調査内、D.ハースト及びA.D.クリスト編、ケンブリッジ大学出版局、417−431、1998年(P. Kratochvil, Intonation in Beijing Chinese, in Intonation systems, a survey of twenty languages, ed. by D. Hirst and A. D. Cristo, Cambridge Uni. Press, 417-431, 1998.) J.ニ及びK.ヒロセ、「標準中国語文の基本周波数輪郭の機能的モデリングの実験的評価」ISCSLP2000、北京、pp.319−322、2000年(J. Ni and K. Hirose, "Experimental evaluation of a functional modeling of fundamental frequency contours of standard Chinese sentences," ISCSLP2000, Beijing, pp. 319-322, 2000.) J.ニ及びH.カワイ、「ピッチ範囲が中国語の声調とイントネーションパターンを固定する」音声韻律学2004、奈良、pp.95−98、2004年(J. Ni and H. Kawai, "Pitch targets anchor Chinese tone and intonation patterns," Speech Prosody 2004, Nara, pp. 95-98, 2004.) J.ニ及びH.カワイ、「パラメトリックモデリング及び合成による分析ベースのパターンマッチングを通した声調特徴量の抽出」ICASSP2003、pp.72−75、2003年(J. Ni and H. Kawai, "Tone feature extraction through parametric modeling and analysis-by-synthesis-based pattern matching," ICASSP2003, pp. 72-75, 2003) J.ニ及びH.カワイ、「関数モデル及びその評価による中国語基本周波数輪郭の骨格化」TAL2004、pp.151−154、北京、2004年(J. Ni and H. Kawai, "Skeletonising Chinese fundamental frequency contours with a functional model and its evaluation," TAL2004, pp. 151-154, Beijing, 2004.) J.トゥハート、R.コリナー及びC.コーエン、イントネーションの知覚的研究:音声のメロディに対する実験的、音声学的アプローチ、ケンブリッジ大学出版局、1990年(J. 'tHart, R. Collier and A. Cohen, A perceptual study of intonation: an experimental-phonetic approach to speech melody, Cambridge University Press, 1990.)
A.1 変形
非特許文献7で扱われている、機能モデルで構築された変形は、さまざまな声域でのF0輪郭をλ時空間と呼ばれる正規化された空間にマッピングすることを可能にする。ここで、f0はヘルツ表示のF0を表すものとし、λはλ(正規化された周波数)でのF0を表すものとする。f0とλとの間の変形は以下の式で表される。
[λb,λt]:λで表した声域の最高周波数と最低周波数
声域[f0b,f0t]は話者に依存する。実際には、対象となる話者の発話の周波数範囲として測定することができる。ほとんどの場合、λtとλbとはそれぞれ1及び2に固定できる。
他方で、λ(又はζ)は、f0とζ(又はλ)が与えられれば、反復処理によって決定することもできる。Tλ()がζでのf0からλへの変形を表すものとする。f0が大きくなるほど、λで表した値は小さくなる。
さらに、Tζ()がλからf0への変形のためのζを表すものとする。
A.2 声調の変形
この変換により、以下のζで示すように、[f0b,f0t]内でのf01からf02への変化を測定する方法が提供される。
ここでζ0は、f01及びf02をともにλ値にマッピングするときのζの基準値である。好ましくは、ζ0は0.156に固定される。
ζが基準のζ0(=0.156)から遠ざかるにつれて、λ1は非線形にかつ単調にλ2へと変化し、その範囲は領域[1,2]の両端において急激に狭くなる。
音節のイントネーションは声調と呼ばれる。音節と一致する時間−F0輪郭は声調パターンとして知られている。チャオ(Chao)の声調理論[非特許文献5を参照されたい。」に従って、4つの語の声調を4個の声調パターンとして表し、さらにこれを、図5に示すようないくつかの選択されたF0ターゲットにより表す。各声調は主要ターゲットによって特徴づけられる[非特許文献6を参照されたい。]。図5では主要ターゲットを黒丸で示す。
B.1 構造
B.1.1 機能ブロック
図7はこの発明の一実施例に従った音声合成システム40を示すブロック図である。図7を参照して、音声合成システム40は、所定の話者の基準発話のための記憶装置50と、話者のサンプル発話を記憶するための記憶装置52と、基準発話の声調の各々に対する基準F0ターゲットを抽出し、さらに記憶装置52に記憶されたサンプル発話の各々について、イントネーション変化を示す正規化された減衰比ζnのシーケンスを抽出するためのイントネーション抽出モジュール54とを含む。
B.1.2 コンピュータによる実現
図7に示されたモジュールは、この実施例ではコンピュータソフトウェアで実現される。図8は第1のターゲット抽出モジュール80を実現するコンピュータプログラムの制御構造を示す。図8を参照して、プログラムはステップ100で始まり、基準発話に見出される声調1〜声調4の各々について、ステップ102〜120が繰返される。
ステップ150で、正規化されたζni(1≦i≦N)が以下の式に従って計算される。
ここで^f0iは基準発話から抽出された参考値(F0ターゲット)を表し、ζ0は定数(好ましくは、ζ0は0.156)を表す。
図11は上述のコンピュータプログラムを実行するこの実施例のコンピュータシステム330の外観を示し、図12はこのシステム330をブロック図で示す。
この実施例の、上述の音声合成システム40(図7を参照)は以下のように動作する。音声合成システム40の動作は3段階である。すなわち、基準発話からのF0ターゲットの抽出と、基準発話からのζnの計算と、F0ターゲット及び音声合成とである。これらの段階における音声合成システム40の動作を以下で説明する。
図7を参照して、所定の話者の音声データを、声調1〜声調4の全てについて録音し、基準発話として記憶装置50に記憶する。声調1〜声調4の各々について、第1のターゲット抽出モジュール80により、基準発話からF0ターゲットが抽出される。声調1〜声調4の各々について平均のF0ターゲットが記憶装置56に記憶される。
基準発話と同じ話者のサンプル発話を録音し、記憶装置52に記憶する。サンプル発話の各々の各音節について、第2のターゲット抽出モジュール82がF0ターゲットを抽出する。その後、モジュール82から出力されたF0ターゲットの各々について、ζn計算モジュール84がζnを計算し、サンプル発話の各々についてζnのシーケンスを生成する。
ユーザは、入力テキスト62と、入力テキストをそのイントネーションで合成したいと考えているイントネーションを特定する関連のイントネーション情報60とを準備する。ユーザは、記憶装置58に記憶されているζnのシーケンスを調べることにより、イントネーション情報を準備することができる。
この結果、入力テキスト62内の音節について、F0計算モジュール92により、f0iのシーケンスが出力される。このシーケンスが音声シンセサイザ66に与えられる。
ここで提案した方法が、測定されたF0輪郭内の、語の声調よりも高いレベルのイントネーションの変化を明らかにすることが可能であると示すために、2つの実験結果を報告する。音声サンプルは中国語音声コーパスから選択され、専門のナレータに朗読してもらった。ナレータの声域[f0b,f0t]は[100Hz,500Hz]と一致し、ナレータによる語の声調の参考値は表1に示されるとおりである。太字は主要ターゲットを示す。これらの参考値に対応する声調パターンを図2(a)に見ることができる。
この発明の実施の形態は、測定されたF0輪郭から語の声調を除外したイントネーション変化を測定する方法に関する。イントネーション変化は語の声調パターンを構成する選択されたF0ターゲットを用いてサンプリングされ、時間軸上の1点のパラメータで特徴づけられる。実験結果から、この提案した方法が、F0輪郭に埋もれ、語の声調と混じりあった、実際のマンダリン語のイントネーションを分析するのに非常に有望であることがわかった。明らかにされた実際のイントネーションは、非声調言語で報告されたイントネーションとの類似性を示した。提案された方法は基となる語の声調をともなったF0輪郭の自動的な分析を試みるものであり、これは音声合成、認識、さらには理解において決定的に重要である。
50、52、56、58 記憶装置
54 イントネーション抽出モジュール
60 イントネーション情報
62 入力テキスト
64 F0シンセサイザ
66 音声シンセサイザ
68 イントネーションのある音声信号
80 第1のF0ターゲット抽出モジュール
82 第2のF0ターゲット抽出モジュール
84 ζn計算モジュール
90 ζ計算モジュール
92 F0計算モジュール
Claims (3)
- イントネーションの変化の特徴を声調の変形により表す方法であって、
話者の、個々の音節から得た語の声調の各々について、基本周波数(F0)ターゲットに関する参考値の所定の組を準備するステップを含み、前記F0ターゲットの参考値の組は、対応する語の声調を特徴づけるものであり、
前記話者のサンプル音声データ中の各音節についてF0ターゲット値を抽出するステップと、
前記サンプル音声データ中の各音節の前記F0ターゲット値の各々について、その音節の語の声調に関する参考値から前記F0ターゲット値への変化の度合いを表す所定の第1のパラメータを計算するステップとをさらに含み、
前記準備するステップは、
語の声調の各々について前記話者による複数個の個々の音節を録音するステップと、
それぞれの語の声調に従って、録音された個々の音節のF0ターゲット値を抽出するステップと、
語の声調の各々について、語の声調を特徴づけるF0ターゲットの各々のF0ターゲット値を平均して前記参考値を求めるステップとを含む、イントネーションの変化の特徴を声調の変形により表す方法。 - 所定の第2のパラメータの分布が、当該所定の第2のパラメータの所定の基準値の両側でつりあうように、前記所定の第1のパラメータを前記所定の第2のパラメータに正規化するステップをさらに含む、請求項1に記載の方法。
- コンピュータ上で実行されると、請求項1又は請求項2に記載の全てのステップを当該コンピュータに行わせる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005098067A JP4793776B2 (ja) | 2005-03-30 | 2005-03-30 | イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005098067A JP4793776B2 (ja) | 2005-03-30 | 2005-03-30 | イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006276660A JP2006276660A (ja) | 2006-10-12 |
JP2006276660A5 JP2006276660A5 (ja) | 2008-04-17 |
JP4793776B2 true JP4793776B2 (ja) | 2011-10-12 |
Family
ID=37211466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005098067A Active JP4793776B2 (ja) | 2005-03-30 | 2005-03-30 | イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4793776B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4917285B2 (ja) * | 2005-08-04 | 2012-04-18 | 株式会社ブリヂストン | 芯金レスクローラのスプロケット構造及び芯金レスクローラのスプロケット |
EP2357646B1 (en) * | 2009-05-28 | 2013-08-07 | International Business Machines Corporation | Apparatus, method and program for generating a synthesised voice based on a speaker-adaptive technique. |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229590A (ja) * | 2001-02-01 | 2002-08-16 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識システム |
JP2003330482A (ja) * | 2002-05-14 | 2003-11-19 | Toshiba Corp | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム |
JP4428093B2 (ja) * | 2004-03-05 | 2010-03-10 | ヤマハ株式会社 | ピッチパターン生成装置、ピッチパターン生成方法及びピッチパターン生成プログラム |
JP4617092B2 (ja) * | 2004-03-16 | 2011-01-19 | 株式会社国際電気通信基礎技術研究所 | 中国語の声調分類装置及び中国語のf0生成装置 |
-
2005
- 2005-03-30 JP JP2005098067A patent/JP4793776B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006276660A (ja) | 2006-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ye et al. | Quality-enhanced voice morphing using maximum likelihood transformations | |
US9275631B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
Raitio et al. | Synthesis and perception of breathy, normal, and lombard speech in the presence of noise | |
Muralishankar et al. | Modification of pitch using DCT in the source domain | |
Přibil et al. | GMM-based speaker gender and age classification after voice conversion | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
Panda et al. | A waveform concatenation technique for text-to-speech synthesis | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP4793776B2 (ja) | イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム | |
JP2011059146A (ja) | 音声変換装置および音声変換方法 | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
KR100720175B1 (ko) | 음성합성을 위한 끊어읽기 장치 및 방법 | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
Cahyaningtyas et al. | HMM-based indonesian speech synthesis system with declarative and question sentences intonation | |
Hsu et al. | Speaker-dependent model interpolation for statistical emotional speech synthesis | |
Eide et al. | Towards pooled-speaker concatenative text-to-speech | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
JP3854593B2 (ja) | 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム | |
EP1589524A1 (en) | Method and device for speech synthesis | |
KR102455709B1 (ko) | 인공지능 기반 합성음성의 평가 자동화 방법 및 장치 | |
JP3576792B2 (ja) | 音声情報処理方法 | |
Dzibela et al. | Hidden-Markov-Model Based Speech Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080228 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110628 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4793776 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |