JP2009282330A - 音声認識及び合成システム、プログラム及び方法 - Google Patents

音声認識及び合成システム、プログラム及び方法 Download PDF

Info

Publication number
JP2009282330A
JP2009282330A JP2008134759A JP2008134759A JP2009282330A JP 2009282330 A JP2009282330 A JP 2009282330A JP 2008134759 A JP2008134759 A JP 2008134759A JP 2008134759 A JP2008134759 A JP 2008134759A JP 2009282330 A JP2009282330 A JP 2009282330A
Authority
JP
Japan
Prior art keywords
speech
value
unit
time change
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008134759A
Other languages
English (en)
Other versions
JP5294700B2 (ja
Inventor
Takateru Tachibana
隆輝 立花
Masafumi Nishimura
雅史 西村
Shechtman Slava
スラヴァ・シェヒトマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008134759A priority Critical patent/JP5294700B2/ja
Publication of JP2009282330A publication Critical patent/JP2009282330A/ja
Application granted granted Critical
Publication of JP5294700B2 publication Critical patent/JP5294700B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】声調の大きな変化を伴う言語における高精度な音声認識及び自然な合成音声出力のための方法、手段及びプログラムを提供する。
【解決手段】音声素片の始点及び終点のF0を線形近似又は大局的にスムージングする方法を用い、F0傾きを観測して統計モデルを学習し、ランタイムにおいてもF0傾きを評価し、コスト計算に基づいてF0を修正した合成音声を出力する。音節内のF0傾きの時間変化は、音節内を適宜等分して各領域ごとに決定木を学習してモデル化する。観測したF0傾きに誤差範囲を想定して尤度を評価する。これらを連携させることにより、高精度な音声認識及び自然な声調の合成音声出力が可能になる。
【選択図】図1

Description

本発明は、コンピュータ処理によって音声を認識し、並びに合成するための音声認識技術及び音声合成技術に関し、特に声調や高低アクセントを正確に認識し、並びに合成するための技術に関する。
音声合成の技術分野において、正確で自然に聴こえる周波数で音声を合成することは重要である。特に、日本語を含むアジア言語の多くは、声調や高低アクセントを用い、周波数により単語の意味を変える場合があり、基本周波数(以下、F0と表記し、「エフゼロ」と呼称、Fは周波数frequencyを表す変数名)の制御の重要性は特に高い。日本語の場合は音節ごとに高低アクセントが与えられているので、正確な日本語の表現のためには音節間のF0の関係が必要である。北京語や広東語の場合には音節間の関係に加え、音節ごとに1つの声調を持っているので、音節内でF0が規則的に変化する必要がある。
図14に、発明者らが標本化した日本語と北京語のF0カーブを例示する。横軸はおよその音節番号、縦軸はF0を表す。図14(a)は日本語の、図14(b)は北京語の、およその音節番号と対応させたF0の変化である。日本語及び北京語はいずれも発声の期間中において周波数が上下する共通点を有する。さらに、日本語においては句単位で、北京語においては音節内で、それぞれのF0が変化するという差異がある。
図15に、北京語の4通りの声調を例示する。これら4通りの声調は、F0の時間変化が異なる単一の音節として識別され得る。例えば、図16に示すように、発音記号220を[pi]で表し得る漢字は、第一声221乃至第四声224の声調に依存して、「批」、「皮」、「匹」、「辟」のそれぞれが識別される(非特許文献1参照)。
図17に、広東語の6通りの声調を例示する。これら6通りの声調は、F0及びF0の時間変化が異なる単一の音節として識別され得る。例えば、発音記号[si]で表し得る漢字は、第一声から第六声の声調により、「詩」、「史」、「試」、「時」、「市」、「事」のそれぞれ(230乃至235)が識別される(非特許文献2参照)。
従来、語又は文章を音声合成する装置において、単語又は句の音節単位に個別の回路を有する音声基本周波数パターン決定回路により、それぞれ音節の基本周波数の平均値及び音節内の基本周波数変化パターンを決定する装置が知られている(特許文献1参照)。
また、従来、上述のような特性を有する中国語において、音声合成のF0処理の手法が提案されている(非特許文献3及び4参照)。
特許第3344487号 特願第2007−232395号 「発音口座、四声」、ジェイス株式会社、[online]、平成18年、[平成20年5月13日検索]、インターネット(URL:http://chinese.typepad.jp/hatuonkouza/2006/02/post_520a.html) 「広東語発音レッスン」、大阪朱友外語学院、[online]、平成20年4月4日、[平成20年5月13日検索]、インターネット、(URL:http://www.shu-yu.co.jp/chugokugoc.html) Yujia Li、Tan Lee、Yao Qian、"Analysis and modeling of F0 contours for cantonese text-to-speech"、ACM Transactions on Asian Language Information Processing、第3巻、第3版、169−180ページ、2004年9月 Xijun Ma、Wei Zhang、Weibin Zhu、Qin Shi、Ling Jin、"PROBABILITY BASED PROSODY MODEL FOR UNIT SELECTION"、Proc. ICASSP、カナダ、モントリオール、2004年 John F. Pitrelli、R. Bakis、E. M. Eide、R. Fernandez、W. Hamza、M. A. Picheny、"The IBM expressive text-to-speech synthesis system for American English."、IEEE Transactions on Audio,Speech & Language Processing、第14巻(4)、1099−1108ページ、2006年
従来技術に係る音声基本周波数パターン生成装置においては、音節の始点及び終点の各々1点のF0だけに基づいてモデル化を実施するため、1つの音節に1つの周波数が関連付けられる言語を処理し得るものの、これと異なる規則に従う周波数を有する言語はモデル化の対象でないという課題があった。具体的には、1つの音節内で複数回のF0上昇又は下降が発生し得る中国語等は想定されず、さらには前記音節よりも短い時間領域にを占める音声素片が複数接続された結果として生じる周波数も考慮されないという課題があった。
また、非特許文献1に記載の、広東語について典型的F0パターンを保存する手法等においては、音声合成ランタイムでは必ず音声素片の基本周波数をこのパターンに合わせて強制的に修正する必要があるために音質が悪化するという課題があった。また、非特許文献2に記載の、北京語について音節単位で波形を接続することにより音節内のF0モデル化の問題を回避する手法等においては、多様な音節の全種類を音声素片データベース(DB)に保存する必要があり、DBのサイズを一定以上に削減することは期待できないという課題があった。すなわち、従来法及び従来法の組み合わせにおいては、音節内のF0パターンを統計的にモデル化するものではなかった。
本発明は、1つの音節よりも短い時間領域でF0が急激に変化する状況であっても、統計的にモデル化して音声素片のF0の尤度を評価することにより、少ない音声素片の組み合わせと少ないF0修正量で、正しい声調を表現できることを目的とする。具体的には、音声素片の始点及び終点を用いる線形近似により、F0傾きをモデル化する音声認識及び音声合成の方法を提供することを目的とする。
これにより、本発明は、音声合成のランタイムに先立ち記録しておく音声素片DBのサイズ増大の問題を回避すると共に、音声合成ランタイムにおいて高い品質の音質を確保し得る、音声認識及び音声合成のシステム、プログラム及び方法を提供することを目的とする。
本発明者らは、日本語合成音声のアクセントの品質向上に効果がある、音声合成処理の方法及びシステムを出願し(特許文献2参照)、さらに当該出願に係る技術を見出したことにより、本発明を完成するに至った。
前述の課題を解決するため、本発明は、音声認識においてF0傾きを観測して統計モデルを作成し、音声合成においてF0傾きを観測した後にその尤度を計算して音声素片のF0に対してコストを求める。
本発明が用いる音声認識又は音声合成のための統計モデルにおいては、F0傾きを計算し、統計モデルの学習を実施する。これにより、本発明では、評価と学習の不一致によって尤度評価に誤差が生じることを防ぐ。そのF0傾きの計算方法には2種類がある。ひとつの方法は音声合成に用いる音声素片の始点と終点のF0を線形近似する方法である。従来技術ではランタイムのみにおいて用いた例があるが(特許文献2)、本発明では学習時にも用い得る特徴を有する。もう1つの方法は音声素片の始点、終点のF0を大局的にスムージングする方法である。さらに、F0傾きの統計モデルには決定木を用いてもよい。音節内のF0傾きの時間的変化を正確にモデル化するために音節内を4等分し、それぞれの領域ごとに別々に決定木を学習する。声調ごとにも決定木を分割してもよい。
また、本発明が用いる音声認識又は音声合成のための統計モデルにおいては、F0傾きの尤度の評価は、計算したF0傾きに、想定した誤差範囲を加味して、F0傾き範囲とし、そのF0傾き範囲の確率によって実施する。これにより、従来技術における確率密度の計算の場合に結果が1を超えてコスト計算を混乱させる問題を避けることが可能になる。F0傾きの尤度の評価は、イントネーション句(ポーズで隔たれた発話単位)の先頭の部分にある音声素片については行わないものとする。その部分では検討中の位置より前に十分な履歴がないためにF0傾きの計算を行っても不正確になるからである。無声子音である音声素片についてはF0傾き尤度の計算を省くか、又はF0傾き尤度からコストを計算するときに重みを小さくする。これは無声子音には周辺の有声音のF0からの補間によって、便宜上F0が与えられているが、そのF0には実質的な意味はないため、F0傾き尤度にも意味が乏しいからである。重みの変更さらには、予め計算しておいた音素環境の有声度を利用し得る。
本発明は、統計的手法を用いて音声素片をモデリングして記憶し利用する技術等の、既存の音声認識技術又は音声合成技術と組み合わせることができ、そのように組み合わせた技術もまた、本発明の技術範囲に含まれる。同様に、本発明の技法を含む音声処理システム、音声認識システム、音声合成システム等も、本発明の技術範囲に含まれる。さらに、本発明の技法は、音声認識又は音声合成のための諸段階を、FPGA(現場でプログラム可能なゲートアレイ)、ASIC(特定用途向け集積回路)、これらと同等のハードウェアロジック素子、プログラム可能な集積回路、又はこれらの組み合わせが記憶し得るプログラムの形態、すなわちプログラム製品として提供し得る。具体的には、音声入出力、データバス、メモリバス、システムバス等を備えるカスタムLSI(大規模集積回路)の形態として、本発明に係る音声処理装置を提供でき、そのように集積回路に記憶されたプログラム製品の形態も、本発明の技術範囲に含まれる。
本発明によれば、音声素片の始点及び終点を用いる線形近似により、F0傾きをモデル化する音声認識及び音声合成の方法を提供し得るという効果がある。これにより、本発明によれば、1つの音節よりも短い時間領域でF0が急激に変化する状況であっても、統計的にモデル化して音声素片の尤度を評価することにより、少ない音声素片の組み合わせと少ないF0修正量で、正しい声調を表現し得るという効果がある。さらに、本発明によれば、音声合成ランタイムに先立ち記録しておく音声素片DBのサイズ増大の問題を回避すると共に、音声合成ランタイムにおいて高い品質の音質を確保し得る、音声認識及び音声合成のシステム、プログラム及び方法を提供し得るという効果がある。
以下、本発明の実施形態について図を参照しながら説明する。なお、これらはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[定義]
特に記載の無い限り、本願明細書に使用の用語は当技術分野における通常の意味を指す。本願明細書に使用の用語「音声素片」は「音声素片部分」又は「音声に含まれる音声素片の部分」と互換である。同様に、本願明細書に使用の用語「音節」は「音節部分」又は「音声に含まれる音節の部分」と互換である。本願明細書に使用の用語「F0」は「F0の値」と互換であり、コンピュータ計算可能な数値を含む。同様に、本願明細書に使用の用語「確率密度関数」は「確率密度関数の値」と互換でありコンピュータ計算可能な数値を含む。本願明細書に使用の用語「音声」は「音声データ」と互換であり、コンピュータ処理可能な音声データを含む。同様に、本願明細書に使用の用語「合成音声」は「合成音声データ」と互換であり、コンピュータ処理可能な合成音声データを含む。
[モデル化のフロー図]
図1は、本発明の一実施形態に係る、統計モデルを用いる音声素片のモデル化の諸段階の関係を示すフロー図である。図1は、さらに音声情報を記憶する音声コーパス50、音声素片に係る波形データを記憶する音声素片波形データ60を含む。
(学習)
本発明に係る統計モデルの学習の一実施形態において、本発明は、学習ステップ(ステップS110)を用い、音声コーパス50から適宜音声情報を抽出し、本発明の音声素片のF0のモデル化のための学習を実施する。学習ステップS110の詳細は、図2を用いて後述する。なお、音声コーパス50は予め用意された音声情報でもよく、端末装置等が適宜備えるマイクロホン等を用いて任意の時点において収集した音声情報等でもよい。この収集は、アニメーション、映画、ニュース放送等における音声の記録等を含む。
さらに、本発明に係るF0傾きのモデル化は、F0傾き計算ステップ(ステップS120)において、計算したF0傾きに基づき、本発明に係るF0傾きモデルの計算を実施する。F0傾き計算ステップS120の詳細は、図3を用いて後述する。
S110によって得られたF0傾きモデルは、後続の音声素片検索ステップ(ステップS160)又はF0評価・修正ステップ(ステップS170)において用いる。ステップS160及びステップS170は、さらに後続の音声素片接続ステップ(ステップS180)のための情報を出力する。
(分析及び保存)
本発明に係る統計モデルの分析又は保存の一実施形態において、本発明は、分析・保存ステップ(S130)を用い、音声コーパス50から適宜音声情報を抽出し、音声素片の分析及び保存を実施する。具体的には、音声情報から音節を抽出し、当該音節を音声素片に分割する一方、それぞれの音声素片のF0、継続時間長、エネルギーや音色等の情報を分析し、それぞれの音声素片と関連付ける。分析・保存ステップS130は、分析又は保存の動作から得られる結果を音声素片波形データ60に記憶する。
一実施形態において、音声素片検索ステップS160は、前述のF0傾き計算ステップS120において得られる計算結果を条件として、音声素片波形データ60から当該条件に適合する音声素片を検索し得る。
別の実施形態において、F0評価・修正ステップS170は、前記音声素片検索ステップS160が検索した音声素片に対し、前述のF0傾き計算ステップS120において得られる計算結果に基づいて、当該音声素片のF0を評価して修正し得る。この修正は、例えば、音声素片を他の音声素片と接続した際に正しい声調を実現するためのF0の修正等において行われ得る。
本発明に係る統計モデルの分析又は保存の別の実施形態において、本発明は、テキスト入力ステップ(ステップS140)を用い、ユーザからのテキスト入力を受け付ける。具体的には、テキスト入力ステップは、コンピュータ端末装置が備えるキーボード又は手書き入力装置等を経由するユーザによる文字入力を、コンピュータ処理可能な文字コードの集まりとして受け付ける。例えば、ユーザがキーボード等を用いて入力した英字アルファベットの集まりである「kotoba」という文字列等が受け付けられる。
次いで、本発明は、テキスト処理ステップ(ステップS150)において、前記コンピュータ処理可能な文字コードの集まりから、適宜、かな漢字変換、形態素解析、形式言語又は自然言語の単語、文節、文章等の分類等を実施し得る。例えば、前述の入力ステップS140において受け付けた英字アルファベットの文字列「kotoba」に基づいて、テキスト処理ステップはこの文字列を「ことば」という複数の平仮名を連結した文字列に変換してもよく、「言葉」という単語に変換してもよく、当該単語が文法における体言に含まれることの情報又は格助詞を伴い得ることの情報等の文法に関連する情報を付加してもよく、この文字列を音節の単位として計数して「こ」「と」及び「ば」のそれぞれの音節の情報を付加してもよい。テキスト処理ステップS150の処理結果は、適宜音声素片波形データ60を用いて記憶してもよい。
(音声合成)
本発明に係る統計モデルの音声合成の一実施形態において、本発明は、音声素片接続ステップ(ステップS180)を用い、前述の音声素片検索ステップS160が音声素片波形データ60から検索し、さらに前述のF0評価・修正ステップS170が適宜修正を加えた少なくとも1の音声素片波形データを、音声合成のために所定の順序で接続する。音声素片波形データが1つのみの場合は、当該音声素片波形データを後続の合成音声出力ステップ(ステップS190)に引き渡してもよい、
次いで、本発明は、合成音声出力ステップ(ステップS190)において、接続された複数の音声素片波形データを、時間の経過を伴う音声信号として出力する。この出力は、端末装置が適宜備えるイヤホン、ヘッドホン、スピーカー等から音声として再生し得る。
これらの諸段階を協働することにより、本発明は、学習ステップS110及びF0傾き計算ステップS120を用いて音声コーパス50から得られるF0傾きモデルの計算値を、音声コーパス50又はテキスト入力S120から得られる音声素片波形データ60に適用し、適宜F0評価・修正ステップS170を用いてF0を修正し、音声素片接続ステップS180を用いて複数の音声素片を所定の順序で接続することにより、合成音声出力ステップS190のための合成音声の情報を生成し得る。
本発明においては、F0傾き計算ステップS120において得られる計算値に基づいて、音声素片検索ステップS160が音声素片波形データ60を検索することにより、特定の音声素片との接続が適切である音声素片を優先して検索するための情報が得られる。さらに、本発明においては、F0傾き計算ステップS120において得られる計算値に基づいて、F0評価・修正ステップS170が音声素片のF0を評価し修正することにより、複数の音声素片を接続して生成する合成音声における声調の不自然さを回避し、精度が高く自然な声調の合成音声を得られる。
[学習ステップS110]
図2は、本発明の一実施形態に係る、学習ステップS110を例示する機能ブロック図である。学習ステップS110は、音声素片情報受付ステップS112、有声度テーブル作成ステップS114、学習用データ作成ステップS115、決定木学習ステップS116、GMM構築ステップS117等を適宜含む。F0傾き計算ステップS120の詳細は図3を用いて後述する。さらに、学習ステップS110は、音声コーパス50に記憶された音声情報、言語処理ステップS142又は音声処理ステップS144が処理した言語情報又は音声情報を、音声素片に分割し、音声素片情報受付ステップS112を用いて受け付ける。当該言語情報は、前述のテキスト入力ステップS140及びテキスト処理ステップS150により処理され得る、テキストに関連する情報を含んでもよい。当該音声情報は音声コーパス50に記憶し得る形式の音声情報でもよい。
音声素片情報受付ステップS112は、音声素片に分割された音声を入力として受け付ける。この分割は、音声コーパス50、言語処理ステップS142又は音声処理ステップS144に含めてもよく、音声素片情報受付ステップS112が実施してもよい。音声情報から音声素片への分割は、当技術分野に公知の手法を適宜用い得る。音声素片情報受付ステップS112は、受け付けた音声素片に対して、少なくとも音声素片F0情報82、音声素片時間情報83、及び音声素片言語情報84のそれぞれの情報を生成し、適宜記憶し得る。音声素片F0情報82は音声素片の始点及び終点、並びに音声素片内のF0の情報を含み、音声素片時間情報83は音声素片の時間の長さを含み、音声素片言語情報84は品詞、単語境界、声調、文の種類の識別子等を含み得る。
有声度テーブル作成ステップS114は、音声素片情報受付ステップS112が受け付けた音声素片に含まれる有声成分に関連する情報を、適宜有声度テーブル85を用いて記憶する。具体的には、音声素片中の有声成分の比率、又は有声成分が含まれる音声素片の部分等であり、有声度テーブル85の形式は特に問わない。
学習用データ作成ステップS115は、音声素片情報受付ステップS112が受け付けた音声素片ごとに学習用データ86を記憶する。学習用データ86の入力変数は、音声素片の音節内における位置、当該音声素片が含まれる音節や単語や句の位置、当該音節の声調、文の種類(疑問文、平叙文等)、音素の種類等を適宜含む。学習用データ86の出力変数はF0傾きであり得る。音節内位置や声調の個々の値ごとに決定木を分けて学習する場合は、音節内位置や声調を入力変数に含まなくてもよい。また、図3を用いて後述するF0傾き計算120の出力は、学習用データ86の一部でありうる。
決定木学習ステップS116は、前述の学習用データ作成ステップS115が作成した学習用データ86を用いて、決定木に含まれ得る統計モデルの複数のパラメータを個々に算出し、適宜決定木87に記憶する。具体的には、特定の音声素片に含まれる句の位置等の文法に関連する情報、音素の種類等の音声に関連する情報、F0傾き等に基づいて、決定木の分岐に関する情報を適宜記憶する。決定木の詳細は、図6を用いて後述する。
GMM構築ステップS117は、前述の決定木学習ステップS116で作成された決定木の各末端ノードごとに処理を行う。すなわち、まず学習用データ86を末端ノードに振り分け、次に各末端ノードごとに、ノードに振り分けられた学習用データに含まれるF0傾きをモデル化する混合ガウス分布(GMM)を作成する。こうして得られたGMMモデルのパラメータは、適宜GMMパラメータテーブル88に記憶する。具体的には、特定の音声素片について、F0傾きの確率密度関数を表し得る情報を算出して記憶する。GMMの作成は、EM(Expectation Maximization)アルゴリズムを利用する当技術分野に公知の手法を用いる。
記憶部52は、これらの諸段階及び後続のF0傾き計算ステップS120から得られる、特定の音声素片に対する時間情報、F0情報、言語情報、有声度、学習用データ、決定木、GMMパラメータテーブル、F0傾き等の情報を適宜記憶する。図2においては、記憶部52をF0傾き計算ステップS120の出力先として示したが、これに限らず、記憶部52は上述の任意のデータ又はテーブルに含まれる任意のデータ適宜記憶してよい。
本発明の学習ステップS110は、上述の諸段階を実施することにより、特定の音声素片又は複数の音声素片のF0傾き、個々の音声素片に含まれる特徴量と関連づけられる決定木の情報、GMMパラメータ等の特徴量を生成して記憶し得る。
[F0傾き計算ステップS120]
図3は、本発明の一実施形態に係る、F0傾き計算ステップS120を例示するフロー図である。F0傾き計算ステップS120は、統計モデルの学習に用いるF0傾きを音声素片ごとに観測する。F0傾き計算ステップS120の出力は、図2を用いて前述した学習用データ86の一部である。
一実施形態において、本発明に係るF0傾き計算ステップS120は、音声素片終点におけるF0情報受付ステップS121において、各音声素片の終点におけるF0の値を受け付ける。このステップにおいて、F0から対数F0を求めうる。この入力は、前述の記憶部52に記憶された情報に含まれてもよい。
次いで、本発明に係るF0傾き計算ステップS120は、間隔Tf内の音声素片を列挙するステップS122において、前記終点から予め決められた間隔Tfだけさかのぼる範囲に終点が含まれる音声素片を列挙する。予め決められた間隔Tfとは、言語や話速により異なるが、具体的には0.1秒〜0.2秒程度、典型的には0.15秒程度である。これらの値に限らず、Tfの値は適宜設定し得る。Tfを0.15秒として音声素片を列挙する例は、図4を用いて後述する。
次いで、本発明に係るF0傾き計算ステップS120は、線形近似ステップS123において、前記終点から間隔Tfに含まれる、少なくとも1の前記音声素片の終点の対数F0を線形近似する直線を求める。詳細は図5を用いて後述する。この直線の傾きはF0傾きとして、後続のステップにおいて用いる。
次いで、本発明に係るF0傾き計算ステップS120は、考慮中の音声素片の音節内位置を求めるステップS124を実施する。詳細は図5を用いて後述する。具体的には、この音節内位置は、時間領域において特定の音節の始点から終点までの期間を4等分し、現在考慮中の音声素片終点がこれらの4つの小区間のどれに含まれるかを示す1から4までの整数値である。ただし考慮中の音声素片がイントネーション句の先頭にあり、その終点からイントネーション句頭までの時間間隔がTfに満たない場合には、F0傾きを計算せず、当該音声素片を統計モデルの学習には用いないものとする。
本発明に係るF0傾き計算ステップS120の計算結果は、再び記憶部52を用いて記憶してもよく、サーバ装置等のメモリを介して後続の諸段階に引き渡してもよく、適宜設定し得る。これらの計算により、本発明においては、考慮中の音声素片が含まれる音節内の小区間を特定し、F0傾きを線形近似するための情報を得られる。
[音節中の観測点及び分割した小区間]
図4は、本発明の一実施形態に係る、音節中の観測点及び分割した小区間を示す図である。これは、図3に示した、考慮中の音声素片の音節内位置を求めるステップS124の一実施形態である。図4においては、横軸は時間、縦軸は音圧のそれぞれを表す。音圧の形式は特に限定しないが、好適には、音声を変換して得られた交流信号を標本化して得られる浮動小数等の、符号付き数値である。図4に例示する波形、すなわち音声信号301は、音声周波数領域において標本化された通話等の音圧を時間に対してプロットしたものであり、音節310は音声信号301に含まれる1つの音節であり得る。
一実施形態において、音節310は、音節の始点305及び音節の終点306を含む。これらの音節の始点305及び音節の終点306は、音声信号から音節を抽出又は分割する、当技術分野に公知の手法を適宜用いて定義され得る。
本発明に係る音節中の観測点及び分割した小区間は、音節310を予め定められた数に分割して定義され得る。例えば、音節310を時間の長さにおいて4等分し、小区間1(311)、小区間2(312)、小区間3(313)及び小区間4(314)が作成される。小区間1(311)の始点は音節の始点305と同時刻でもよく、小区間4(314)の終点は音節の終点306と同時刻でもよい。
一実施形態において、音声信号301は、当技術分野に公知の手法を適宜用いて音声素片に分割され得る。具体的には、音声信号301に含まれ得る音声素片の分割点331、332、333、334、335、336、337、338、339等が抽出され得る。これにより、例えば音声素片321等の、音声信号301に含まれる少なくとも1の音声素片が見出され得る。さらに、それぞれの音声素片は、当技術分野に公知の手法を適宜用いてF0の情報が関連付けられ、図2を用いて前述の音声素片F0情報82等に適宜記憶され得る。
一実施形態において、音声素片の分割点331〜339は、それぞれが含まれる音節310を分割した小区間と関連付けられる。図4の例においては、音声素片の分割点331、332及び333は小区間1(311)と関連付けられ、音声素片の分割点334及び335は小区間2(312)と関連付けられ、音声素片の分割点336及び337は小区間3(313)と関連付けられ、並びに音声素片の分割点338及び339は小区間4(314)と関連付けられ得る。
本発明に係る音節中の観測点及び分割した小区間においては、音節310を時間領域において分割して設定した小区間1(311)〜小区間4(314)は、F0傾きの学習に用い得る。具体的には、図2を用いて前述の決定木87、GMMパラメータテーブル88等を、それぞれの小区間ごとに設定し得る。
本発明に係る音節中の観測点及び分割した小区間においては、音声信号301に基づいて分割した音声素片のそれぞれを、音節310を分割した小区間1(311)〜小区間4(314)に関連付け得る。これにより、本発明は、音声信号301に含まれる1の音声素片に対して、音声素片F0情報82、音声素片時間情報83及び音声素片言語情報84を用意し、学習及びランタイムにおけるGMMモデル計算のために用い得る。
[F0線形近似の例]
図5は、本発明の一実施形態に係る、F0の線形近似を例示する図である。図5においては、横軸は時間を、縦軸は対数周波数を表す。横軸の時間は、特定の音声素片の終点を基準として、所定の長さのさかのぼった時間を左向きに負の数値として示す。縦軸の対数周波数は、少なくとも1の音声素片に含まれる、音声素片のF0の値を対数スケールで示す。本発明に係るF0の線形近似は、計算対象の音声素片を抽出する手順、並びに抽出した音声素片を用いてF0を線形近似する手順を含む。
まず、計算対象の音声素片を抽出する手順を説明する。一実施形態において、本発明に係るF0の線形近似は、考慮中の音声素片440の終点を横軸の原点とし、所定の長さのさかのぼった時間を左向きに負の数値として含む。例えば、当該所定の長さは0.15秒等であり、考慮中の音声素片から0.15秒さかのぼった区間450が定義され得る。当該所定の長さは例示のためのみであり、これに限定しない。さらに、本発明に係るF0の線形近似は、当該定義した、考慮中の音声素片から0.15秒さかのぼった区間450に含まれる少なくとも1の音声素片を抽出し得る。抽出された音声素片には、図4を用いて前述のように、図4における音声素片の分割点331〜339がそれぞれの音声素片に関連付けられる。これらの音声素片の時間領域における情報は、図2において前述のように音声素片時間情報83等として記憶される。
図4を用いて前述のように、それぞれの音声素片が有する時間の長さは、各々の音声素片に依存し得る。従って、考慮中の音声素片から0.15秒さかのぼった区間450に一部でも含まれる音声素片があれば、その音声素片は当該区間に含まれる音声素片として扱ってもよい。例えば、考慮中の音声素片の終点の時刻を基準として、(−)0.165秒から(−)0.148秒の時間に存在する音声素片は、考慮中の音声素片から0.15秒さかのぼった区間450に含まれる。
次いで、抽出した音声素片を用いてF0を線形近似する手順を説明する。本発明に係るF0の線形近似においては、図2を用いて前述の音声素片時間情報83を用い、考慮中の音声素片から0.15秒さかのぼった区間450の範囲中に、少なくとも1の音声素片境界410を設定し得る。さらに本発明に係るF0の線形近似においては、図2を用いて前述の音声素片F0情報82を用い、考慮中の音声素片から0.15秒さかのぼった区間450の範囲中における音声素片のF0(420)を、時間に対する対数周波数の変化として見出し得る。この音声素片のF0(420)の形式は、音声素片境界410のそれぞれにおける1の数値でもよく、時間領域における連続量でもよく、特に問わない。好適には、音声素片のF0(420)の形式は、個々の音声素片境界410における1の数値である。
一実施形態において、本発明に係るF0の線形近似においては、個々の音声素片境界410の時刻における音声素片のF0(420)の対数周波数の値に基づき、音声素片のF0(420)を線形近似することにより、近似直線430が得られる。当該線形近似には、最小2乗法、1次回帰等の公知の計算手法を用い得る。別の実施形態において、本発明に係るF0の線形近似においては、標本化された任意の音声素片のF0(420)の対数周波数の値に基づき、音声素片のF0(420)を線形近似することにより、近似直線430が得られる。
本発明に係るF0の線形近似においては、特定の音声素片の終点を基準として、所定の長さのさかのぼった区間に含まれる少なくとも1の音声素片を抽出し、F0の変化を時間に対する対数周波数とし、当該区間におけるF0の時間変化を線形近似し得る。これにより、本発明においては、特定の音声素片の直前の時間におけるF0の時間変化の情報を、自動的に当該音声素片に関連付けることが可能になる。
[決定木]
図6は、本発明の一実施形態に係る、統計モデルに用いる決定木とGMMモデルの関係を例示する図である。決定木455は、1の音声素片を入力とし、複数の分岐及びノードを含む。決定木455は、本発明に係る統計モデルの学習ステップにおいて、音声コーパス50等を用い、決定木87及びGMMパラメータテーブル88を作成するために用いられる。
一実施形態において、決定木455は、3段階の分岐及びノードを含み、それぞれのノードごとにGMM(490)をF0傾きの確率密度関数として算出し得る。例えば、決定木455は、第1の階層451として、入力された音声素片が文の先頭に属するか否かを判定する分岐を含む。さらに、決定木455は、第2の階層461及び462として、入力された音声素片が含まれる言葉又は文脈の文法に関連する情報として、当該音声素片が含まれる用語の品詞が名詞であるか否かの分岐(461)及び当該音声素片が含まれる文脈が疑問文であるか否かの分岐(462)等を含む。さらに、決定木455は、第3の階層471乃至474として、入力された音声素片が含まれる文脈の単語数が4を超えるか否かの分岐(471)、入力された音声素片が含まれる音節の声調が北京語の「声調2」であるか否かの分岐(472)、同様に「声調3」であるか否かの分岐(473)、入力された音声素片の音節における位置が図4を用いて前述の小区間1(311)であるか否かの分岐(474)等を含む。これらの分岐にはそれぞれ論理的な真又は偽の判定と対応して、上位の階層から下位の階層への関連付けが予め定義され得る。第3の階層471乃至474による分岐には、ノード1(481)乃至ノード8(488)のそれぞれが関連付けられる。
一実施形態において、決定木455の入力は、図2を用いて前述の学習ステップS110において、音声コーパス50等に記憶された音声情報から作成された学習用データ86であり得る。例えば、学習用データ86に含まれる1の音声素片について、その音声素片の音声素片情報に基づいて決定木455を用いることにより、当該音声素片が分類されるノード1(481)乃至ノード8(488)のうちの1つのノードが求められ得る。この処理を複数の音声素片に対して繰り返し実施し、全ての音声素片がノードのいずれかに分類される。音声素片のそれぞれは、図5を用いて前述の、F0傾きを表す近似直線430の情報等が関連付けられうるので、当該処理の結果として、決定木455の末端のノード1(481)乃至ノード8(488)には、それぞれのノードごとにF0傾きの値の集合が累積される。当該累積によって得られたF0傾きの値の分布を確率分布と考えれば、ノードごとにF0傾きの確率密度分布を想定できる。この分布をそれぞれGMM(490)でモデル化する。
本発明に係る統計モデルにおいては、F0傾きの情報を有する音声素片を入力として、決定木455を用意し、複数の音声素片を分類することにより、決定木455の末端の各ノードごとにGMM(490)を学習し得る。
[音声素片検索ステップ]
図7は、本発明の一実施形態に係る音声合成ランタイムにおける、音声素片検索ステップS160を例示する機能ブロック図である。音声素片検索ステップS160は、音声素片の取り出しステップS162、音声素片情報の収集ステップS164、コスト計算ステップS166、コスト最小音声素片検索ステップS168等を含む。既述のステップ等の説明は省略する。
本発明に係る音声合成ランタイムにおいて、所定の音声素片を音声合成のために用いる場合に、音声素片検索ステップS160は、音声素片の取り出しステップS162を用い、音声素片波形データ60に記憶された音声素片を取り出す。あるいは、音声素片の取り出しステップS162は、前述のテキスト処理ステップS150が出力し得るテキストに関連する情報を音声素片の取り出しのために用いてもよい。
次いで、本発明に係る音声素片検索ステップS160は、音声素片情報の収集ステップS164を用いて、取り出された音声素片の始点及び終点のF0情報、若しくは音声素片内のF0の情報、それらに基づき前述のF0傾き計算ステップS120が算出し得る音声素片ごとのF0傾き等を収集し得る。
次いで、本発明に係る音声素片検索ステップS160は、コスト計算ステップS166において、記憶部52から読み出したF0傾きモデルに基づき、前記取り出されたF0傾きのコストを計算し得る。このコスト計算結果に基づいて、後続のコスト最小音声素片検索ステップS168はコストが最小となる音声素片を検索し抽出し得る。抽出された音声素片は、音声素片出力ステップS169により出力される。コスト計算の実施形態は、図9において後述する。
これらの動作により、本発明に係る音声合成ランタイムにおいては、コストを最小にする音声素片を選択して合成音声の出力のために用いることが可能になる。
[F0評価・修正ステップ]
図8は、本発明の一実施形態に係る、音声合成ランタイムにおける、F0評価・修正ステップS170を例示する機能ブロック図である。F0評価・修正ステップS170は、音声素片検索ステップ160によって選択した音声素片のF0を評価し、必要に応じて修正を行うその修正量を決定する。例えば、自然な声調を得るために、あるいは声調に依存して言葉の意味に誤りが発生することを避ける等の目的のために用い得る。本発明に係るF0評価・修正ステップS170は、F0修正量の仮定ステップS172、音声素片情報の収集ステップS174、コスト計算ステップS176、音声素片F0の修正ステップS178等を含む。既述のステップ等の説明は省略する。
本発明に係る音声合成ランタイムにおいて、F0評価・修正ステップS170は、音声素片波形データ60に記憶された音声素片、若しくは、前述の音声素片検索ステップS160により取り出され、コストが最小となる条件に従って出力された音声素片を入力とし得る。コスト計算の実施形態は、図9において後述する。
一実施形態において、本発明に係るF0評価・修正ステップS170は、予め離散的に与えられた候補のリストの中から最適なF0修正量を、音声素片ごとに求める。その求める方法は、候補のリストの中からF0修正量を仮定し、仮定したF0修正量を音声素片のF0に適用し前後に接続したときに生じるF0傾きを計算し、それに対するコストを記憶部52から読み出したF0傾きモデルに基づき計算し、計算されたコストが最小になるF0修正量を選択することによる。F0修正量の仮定ステップS172は、予め離散的に与えられた候補のリストの中から1つずつ順にF0の候補を取り出し、F0修正量の仮定とする。
次いで、本発明に係るF0評価・修正ステップS170は、音声素片情報の収集ステップS174を用い、F0修正量の仮定ステップS172が仮定したF0の修正量を含む音声素片情報、すなわち音声素片の始点及び終点のF0情報、それらをつないで近似直線を求めることによって生じるF0傾きの情報等を収集し得る。
次いで、本発明に係るF0評価・修正ステップS170は、コスト計算ステップS176を用い、前述のF0傾きモデルを用い、当該F0修正量のコストを計算し得る。このコスト計算の結果に基づいて、後続の音声素片F0の修正ステップS178は、コスト最小となるF0修正量を求め、元のF0に加えることによって修正後のF0を求める。さらに、修正した音声素片出力ステップS179は、F0修正を実施された音声素片を出力する。
これらの動作により、本発明に係る音声合成ランタイムにおいては、複数の音声素片を接続して用いる合成音声において、接続に伴うコストを最小にするよう自動的にF0を修正して音声素片を接続し、合成音声の出力のために用いることが可能になる。
以下の実施例は、本発明に係る統計モデルの利用の例示のためのみであり、本発明の範囲を限定するものではない。
[実施例1:ランタイムにおけるF0傾き尤度及びコスト]
図9は、本発明の一実施形態に係る、ランタイムにおけるF0傾きコスト算出を例示するフロー図である。図3を用いて前述の、学習ステップと共通するデータ等は説明を省略する。この計算は、任意の音声素片に対してGMMパラメータを用意する手順と、具体的な音声素片のそれぞれに対する尤度及びコスト計算の手順とを含み得る。図9におけるF0傾きコスト計算ステップS198は、図7を示して前述の音声素片検索ステップS160に含まれるコスト計算ステップS166、並びに、図8を示して前述のF0評価・修正ステップS170に含まれるコスト計算ステップS176と共通でもよい。
また、図10は、本発明の一実施形態に係る、F0傾きの確率密度関数を例示する図である。これは、上記のF0傾きコスト算出におけるF0傾き尤度、想定誤差、確率密度の関係を例示するものである。図10は、GMMによって表現されたF0傾きの確率密度関数501として、特定の音声素片の、決定木455に含まれる任意のノードにおけるF0傾きの確率密度を表すものである。
まず、図9を用いて、GMMパラメータを用意する手順について説明する。本発明に係るランタイムにおけるF0傾きコスト算出において、決定木の入力特徴量作成ステップS191は、前述の学習ステップにおいて作成された音声素片時間情報83及び/又は音声素片言語情報84を用い、決定木の入力に用い得る音声素片の特徴量を作成する。具体的には、音声素片の時間の長さ、言語の種類等の文法情報等である。
決定木によるノード決定ステップS192は、学習ステップにおいて作成された決定木87に含まれる特定の決定木に対して、ステップS191において作成された特徴量を組み合わせる。具体的には、特定の決定木に対し、入力された音声素片の時間の長さを条件として分岐する等の、ノードとしての動作が定義され得る。
GMMパラメータテーブル引用ステップS193は、学習ステップにおいて作成されたGMMパラメータテーブル88を用い、ステップS192により決定した決定木の分岐のそれぞれについて、GMMモデルの変数を割り当てる。具体的には、入力された音声素片が特定の決定木により分岐する場合に、当該分岐におけるF0傾きの確率密度関数を与えるためのGMMパラメータが、GMMパラメータテーブル88を参照して割り当てられる。このGMMパラメータは、後続のF0傾き尤度計算ステップS197及びF0傾きコスト計算S198に用いられ得る。
次いで、具体的な音声素片のそれぞれに対する尤度及びコスト計算の手順について説明する。本発明に係るランタイムにおけるF0傾きコスト算出において、傾き計算(線形近似)ステップS196は、学習時に作成された、1の音声素片F0情報82について、図5を用いて前述の線形近似を用いてF0傾きを計算し得る。この計算のための時間情報には、音声素片時間情報83が用いられ得る。
F0傾き尤度計算ステップS197は、F0傾き尤度を算出する。考慮中のF0傾きをgとする。F0傾き計算の誤差として想定誤差Δg(92)という、予め外部から与えた定数を想定するものとする。F0傾き尤度Lg,iは次式(I)で求める。これはgを中心とする範囲の確率を台形近似で求めるものである。
Figure 2009282330
ここでP(g)は、F0傾きgを変数とする確率密度関数である。P(g)の計算は、まず音節内位置等の、決定木の入力変数を求め、それを入力として決定木を利用しGMMパラメータを求め、そのパラメータで表現されるGMMによってF0傾きgを評価することで求める。
数式(I)の一態様は、図10に示した例1(510)のように、特定のF0傾きを表す変数gに対して、想定誤差Δg(92)を含む、[g−Δg,g]及び[g,g+Δg]の区間を想定し、これらの区間を含む確率密度の積分値を、斜線部のように台形近似して算出し、これをF0傾き尤度Lg,iの計算に用いる。このように、本発明に係るF0傾き尤度の計算は、想定誤差Δg(92)を用いてF0傾き尤度Lg,iを積分値として計算することにより、音声素片によってはF0傾きの狭い範囲に大きな確率密度が発生してF0傾き尤度Lg,iの値が1を超える場合であっても、極端に大きな値がF0傾き尤度Lg,i及び後続のコスト計算に発生することを抑制し、学習及びランタイムにおけるプログラム動作等を安定化し得る。あるいは、逆に、本発明に係るF0傾き尤度の計算は、例2(520)のように確率密度が低い値を取るF0傾きの値に対しても、F0傾き尤度Lg,iが極端に小さな値とはならないため、同様にF0傾き尤度Lg,i及び後続のコスト計算を安定化し得る。
一実施形態において、さらに、図9に示すF0傾きコスト計算ステップS198は、予め外部から与えた重み定数wを用い、次式(II)でコストCg,iを計算する。
Figure 2009282330
ここで、Cg,iは、考慮中の音声素片iについて、F0傾きgを想定する場合のコストである。
別の実施形態において、数式(II)で計算されるコスト値の範囲が、使用中の他のコストに比べて小さすぎるようであれば、数式(I)の対数計算をやめ、線形確率を利用してもよい。
さらに別の実施形態においては、音素環境の有声度rを用いて次の数式(III)でコストを計算した方が効果が高いこともあり得る。音素環境の有声度rとは、0から1までの値をとる変数であり、音素環境によって決まり、同じ音素環境にあれば音声素片iに関わらず同じ値をとる。ここで音声素片の有声度を用いるのでなくて音素環境の有声度を用いるのは、音声素片の有声度を用いると、有声度の低い音声素片のコストが小さくなり選ばれやすくなってしまうからである。
Figure 2009282330
音素環境の有声度は次のように予め計算しておく。すなわち、同じ音素環境(中心音素と前後ひとつあるいは複数個の音素の組み合わせ)にある音声素片のすべてについて、その時間長の和と有声区間時間長の和、有声区間時間長の和の総時間長に対する比率として、音素環境の有声度を計算する。
本発明に係るランタイムにおけるF0傾き尤度及びコスト算出は、学習時に作成した、音声素片に関するF0情報、時間情報及び言語情報を用い、GMMパラメータテーブルを用意する手順及びF0傾きコストを計算する手順を用意することにより、特定の音声素片がランタイム中に用いられることに対するF0傾きコストを自動的に算出し得る。これにより、高精度で自然な合成音声を生成するためのコスト計算を提供できる。
[実施例2:ランタイムにおけるGMMパラメータの混合]
図9及び図10を示した実施形態においては、1つの音節内位置に対応する1セットのGMMパラメータによりF0傾き尤度を計算し得る。しかし、F0傾きを観測した音声素片の終点が、音節を4等分する小区間の境界付近に位置する場合には、その境界の両側のGMMパラメータを用いて尤度を計算したほうが滑らかな傾きの変化を表現できることがある。
まず、そのような計算を実現するためには、当該音声素片の終点が位置する音節内位置と、その次に近い音節内位置を求める。それらそれぞれについて決定木を用いてGMMパラメータを得る。当該終点の位置により混合比を決めて、2セットのGMMパラメータを混合して新たな1セットのGMMパラメータを得る。そうして得られたGMMによってF0傾きの尤度を評価する。当該混合には、当該終点の位置に基づいて、より多くの音節素片の長さが属する領域のGMMパラメータを強く反映するよう、公知の比例配分等の計算手法を用い得る。
本発明に係るランタイムにおけるF0傾き尤度及びコスト算出は、F0傾きを考慮する音節素片の終点が、音節の領域の境界線付近に位置する場合でも、GMMパラメータを混合することにより、滑らかなF0傾きの変化を取得し得る。これにより、本発明においては、高精度で自然な合成音声を生成するための情報が得られる。
[実施例3:スムージングを用いたF0傾きの計算]
実際のランタイム処理においては、音声素片を選択しF0修正を行った後に、F0の大局的なスムージングを行って最終的なF0値としてもよい。これは最終的にエンドユーザーの耳に届くF0であり得る。従って、スムージングで計算されるF0の傾きを評価し、修正することが最も望ましい。しかし実際には、スムージング時には各音素のF0を求めるときにその両端を計算に用いるのに対して、音声素片選択時やF0修正量計算時には文の先頭から処理をしていくので、最終的なスムージングとまったく同じ方法でF0傾きを評価するのは困難である。そのため、図5を用いて前述のように、線形近似の方法でF0傾きを求めている。もしスムージングに各音声素片の右側(時間的に後続)の情報を使用しない、あるいは、最終的なスムージングには両側を使うが尤度評価時には右側は使わないことにするのであれば、スムージングを用いたF0傾き評価も可能である。
スムージングを用いたF0傾き評価を行う場合、学習時には音声素片の始点F0・終点F0をスムージングする。これによってそれぞれの音声素片の始点F0・終点F0には前後の音声素片のF0の情報も含まれるようになる。各音声素片で始点F0と終点F0を用いてF0傾きを計算する。Tfを使う必要はない。ランタイムでは、当該音声素片の左側(時間的に先行)の既に求まっている範囲のF0を使って、各音声素片の終点F0をスムージングする。当該音声素片の始点F0と終点F0を用いてF0傾きを計算する。ここでもTfを用いる必要はない。
一実施形態において、本発明に係るスムージングは、音声素片部分の始点又は終点におけるF0の値に対して、
(1)音声素片部分の直前の音声素片部分が存在する場合に当該直前の音声素片部分のF0の値を用いて始点におけるF0の値をスムージングしてもよく、
(2)音声素片部分の直後の音声素片部分が存在する場合に当該直後の音声素片部分のF0の値を用いて終点におけるF0の値をスムージングしてもよい。
一実施形態において、本発明に係るスムージングは、先行又は後続の音声素片が存在する場合にいずれか一方又は両方、若しくは複数の先行又は後続の音声素片を用い、任意の音声素片部分におけるF0の値をスムージングし得る。スムージングに用いる複数の音声素片は、予め定められた範囲に含まれるものから選びうる。例えば、特定の音声素片の直前又は直後の音声素片をスムージングに用いてもよく、時間領域をさかのぼる方向に含まれる2以上の音声素片をスムージングに用いてもよく、若しくは時間領域を0.15秒さかのぼる範囲に含まれる音声素片をスムージングに用いてもよい。
一実施形態において、本発明に係るスムージングは、スムージング関数を用いて実施し得る。当該スムージング関数は時間を変数としてもよく、音声素片の時間方向に定義されるインデクス等を変数としてもよい。例えば、次式のようなスムージング関数を用い得るが、これに限定しない。
Figure 2009282330
数式(IV)において、xは音声素片の時間方向に定義されるインデクス、numはスムージング後のF0、Δはスムージング区間、F0(x)はスムージング前の音声素片xのF0、f(x)はスムージング関数であり、演算子「*」はたたみ込み積分を表す。たたみ込み積分の定義域は、適宜、中断(トランケート)してもよい。F0(x)の関数形は、例えば次式のような正規分布関数を用い得るが、これに限定しない。
Figure 2009282330
数式(V)において、σはスムージングに用いる音声素片の範囲を定義するための定数、kは重み付けを定義するための定数、μは重み付けの中心を音声素片xに対して前後にシフトするための定数である。μは0でもよく、kは1でもよい。また、スムージング区間におけるスムージング関数の和を、次式に従い計算する。
Figure 2009282330
数式(VI)において、denはスムージング区間におけるスムージング関数の和である。スムージング結果のF0の値は、次式から求められ得る。
Figure 2009282330
数式(VII)において、smooth_f0は、スムージング結果のF0の値である。
[実施例4:合成音声の自然さの評価]
従来、北京語において、各音節について3点のF0絶対値を決定木によって予測する方法が知られている(非特許文献5参照)。
本発明に係る統計モデルを用いる学習及び音声合成の実施例として、北京語話者2名を被験者として合成音声の自然さを評価し、上記の従来技術と比較した。
表1に、本発明の一実施形態に係る、合成音声の自然さの評価結果を示す。被験者は本発明及び従来法の各システムにつき5文ずつ試聴し、5段階で自然性の評点をつけた。評点には、自然性の高い順に「たいへん自然」「自然」「普通」「不自然」及び「たいへん不自然」の5段階を用いた。よって1システム当たり10回答の実験結果となっている。これを、従来技術に係る非特許文献3に記載の、各音節について3点のF0絶対値を決定木によって予測する方法と比較した。ただし有声度及び異なる実施例(GMM補間、スムージング)は使用していない。実験結果により、本発明に係る手法の方が自然性に優れていることが分かった。
Figure 2009282330
[実施例5:音声認識装置]
図11は、本発明の一実施形態に係る、音声認識装置を含む音声認識システムの機能の構成を示す図である。図11に示す音声認識システム600は、音声認識装置605及びデータベース装置800を含み、マイクロホン1036、音響機器980、ネットワーク990等を適宜含む。音声認識装置605は、音声信号受付部610、音声信号分割部611、F0時間変化計算部612、メモリ620、表示装置630、D/A変換650、通信装置660、共有メモリ670等を含む。音声信号受付部610の態様は、マイクロホン等からの音声信号を適宜増幅し、コンピュータ処理可能なディジタル信号に変換する、A/D変換器等でもよい。音声信号分割部611及びF0時間変化計算部612の態様は、好適にはマイクロプロセッサ等の集積回路であり、これらは別個の回路でもよく、1のマイクロプロセッサを用いて実現してもよい。メモリ620の態様は磁気記憶媒体でもよく、電気的記憶媒体でもよく、適宜設計し得る。図11には音声認識装置605及びデータベース装置800を別個に示すが、これに限らず、両者を一体の構造としてもよい。データベース装置800のシステムバス810には、適宜、図1に示した音声コーパス50等の、磁気記憶媒体又は電気的記憶媒体等の任意の記憶手段を接続してもよい。
図11において、マイクロホン1036付近で発生した音声は、マイクロホン1036によりアナログ信号として音声信号受付部610に入力され、コンピュータ処理可能なディジタル信号に変換される。音声信号分割部611は、音声信号受付部610が受け付けた音声信号を分割し、音声素片を得る。F0時間変化計算部612は、予め用意されたソフトウェア(図示せず)を用い、メモリ620等を適宜ワーキングエリアとして用い、本発明に係る学習ステップの諸段階を実施する。具体的には、音声素片の始点及び終点のF0を線形近似すること、又は前記音声素片の始点及び終点のF0を大局的にスムージングした後に当該音声素片の範囲内のF0の時間変化を計算することのいずれかにより、考慮中の音声素片ごとにF0の時間変化を計算する。音声信号分割部611及びF0時間変化計算部612の態様は、例えばマイクロプロセッサ等を用い、前記音声信号を入力として、本発明に係る統計モデルのためのF0傾き及びコスト計算の数値又は情報を得る諸段階を実施してもよい。また、F0時間変化計算部612は適宜入出力インタフェース(図示せず)を介して表示装置630に処理状況等を表示してもよい。図11にはマイクロホン1036を音声認識装置605の外部に配置したが、マイクロホン1036及び音声認識装置605を一体の装置としてもよい。メモリ620は、図2に示した記憶部52として動作させてもよい。
F0時間変化計算部612が処理した後のディジタル音声信号は、D/A変換650によりアナログ信号に変換され、音響機器980等へ出力してもよい。これにより、音声認識後の音声信号が音響機器980等から出力される。また、F0時間変化計算部612が処理した後のディジタル音声信号は、通信装置660を介してネットワーク990に接続されてもよい。これにより、本発明に係る音声認識装置605の出力を他のコンピュータ資源において利用し得る。例えば、データベース装置800等が通信装置815を介してネットワーク990に接続し、F0時間変化計算部612が処理した後のディジタル音声信号を利用してもよい。さらに、F0時間変化計算部612が処理した後のディジタル音声信号は、共有メモリ670を介し、他のコンピュータ・システム等からアクセス可能に出力されてもよい。具体的には、データベース装置800に含まれるシステムバス810に接続し得る、デュアルポートメモリデバイス等を、共有メモリ670として用い得る。データベース装置800に含まれるシステムバス810への共有メモリ670の接続は着脱可能でもよい。あるいは、システムバス810と共有メモリ670の間に、適宜、当技術分野に公知のホットプラグ可能なインタフェース等を介してもよい。これにより、本発明に係る音声認識装置605をポータブル機器として、又はポータブル機器に内蔵して、ユーザに提供し得る。
本発明の一実施形態に係る、音声認識システム600は、音声認識装置605の全体又は一部を、FPGA(現場でプログラム可能なゲートアレイ)、ASIC(特定用途向け集積回路)、これらと同等のハードウェアロジック素子、又はプログラム可能な集積回路を用いて構成してもよい。例えば、音声信号受付部610、F0時間変化計算部612、D/A変換650、通信装置660の各機能、及び音声認識のための諸段階をハードウェアロジック等により構成して内蔵し、音声入出力、データバス、メモリバス、システムバス、通信インタフェース等を備えるワンチップカスタムLSI(大規模集積回路)として提供してもよい。
一実施形態において、本発明に係る音声認識装置605のF0時間変化計算部612は、音声認識のための当技術分野に公知の機能を備えてもよい。別の実施形態において、本発明に係る音声認識装置605は、音声認識システム600の内部に組み込まれ、音声認識システム600が備えるプロセッサ(図示せず)を用いて音声認識のための諸段階を実行させてもよい。
本発明の音声認識システム600を用いることにより、発話、音節又は音声素片等の、音声認識後の音声情報をアナログ音声信号又はディジタル信号として、音響機器、ネットワーク資源、又は音声認識システム等から利用できる。さらに、本発明の音声認識システム600を用いることにより、本発明に係る統計モデルを用いてこれらの音声情報と関連付けられたF0傾き等の情報を、音響機器、ネットワーク資源、又は音声認識システム等から利用できる。
[実施例6:音声合成装置]
図12は、本発明の一実施形態に係る、音声合成装置を含む音声合成システムの機能の構成を示す図である。図12に示す音声合成システム700は、音声合成装置705及びデータベース装置800等を含み、A/D変換614、F0時間変化評価部616、F0修正部617等を含む。図11と共通する部分は説明を省略する。F0時間変化評価部616及びF0修正部617の態様は、好適にはマイクロプロセッサ等の集積回路であり、それぞれを独立した回路としてもよく、1のマイクロプロセッサを用いて両者の機能を実現してもよい。
図12において、メモリ620は、前述のように、図2に示した記憶部52として動作させてもよく、本発明に係る学習ステップの諸段階において抽出又は計算された音声情報等を記憶するために用い得る。F0時間変化評価部616は、本発明に係る音声合成の諸段階を用い、予め用意した複数の音声素片を接続して合成音声を生成する音声合成において、これらの複数の音声素片の始点及び終点のF0を線形近似するか、あるいは、音声素片の始点及び終点のF0を大局的にスムージングした後に当該音声素片内のF0の時間変化を計算するかのいずれかにより、音声素片ごとにF0の時間変化を評価する。F0修正部617は、この評価に基づいて合成音声のF0を修正する。これらの処理においては、適宜、メモリ620等を記憶媒体として用い得る。合成された音声は、D/A変換650によりアナログ音声信号に変換され、音響機器980を介してユーザに話声等の形態の合成音声として提供される。
F0時間変化評価部616は適宜入出力インタフェース(図示せず)を介して表示装置630に処理状況等を表示してもよい。図12には音響機器980を音声合成装置705の外部に配置したが、音響機器980及び音声合成装置705を一体の装置としてもよい。例えば、音響機器980は、音声合成装置705に内蔵されたスピーカ等を含んでもよく、外付けのイヤホン又はヘッドホン等を含んでもよい。本発明に係る音声合成装置705の出力がネットワーク990を介して他のコンピュータ資源において利用し得ること、本発明に係る音声合成装置705がポータブル機器としてユーザに提供され得ること、音声合成システム700の全体又は一部を集積回路等を用いて実現し得ること等は、図11を用いて説明した音声認識装置605と同様である。
一実施形態において、本発明に係る音声合成装置705は、音声認識装置605と共通の回路を用いて構成し得る。音声合成装置705としての機能及び音声認識装置605としての機能の切り替え等は、当技術分野における公知の技法を用い得る。
本発明の音声合成システム700を用いることにより、合成された音声は、内蔵又は外付けの音響機器、ネットワーク資源、又は音声合成システム等から利用できる。さらに、本発明の音声合成システム700を用いることにより、本発明に係る統計モデルを用いてこれらの音声情報と関連付けられたF0傾き等の情報を、音響機器、ネットワーク資源、又は音声合成システムから利用できる。
[音声認識・音声合成装置のハードウェア構成]
図13は、本発明の一実施形態に係る、音声認識・音声合成装置のハードウェア構成を示す図である。図13においては、音声認識・音声合成装置を情報処理装置1000とし、そのハードウェア構成を例示する。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、その環境に応じて必要最小限な構成を選択できることはいうまでもない。
情報処理装置1000は、CPU(Central Processing Unit)1010、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、パラレルポート1080、USBポート1090、グラフィック・コントローラ1020、VRAM1024、音声プロセッサ1030、I/Oコントローラ1070、並びにキーボード及びマウス・アダプタ1100等の入力手段を備える。I/Oコントローラ1070には、フレキシブル・ディスク(FD)ドライブ1072、ハードディスク1074、光ディスク・ドライブ1076、半導体メモリ1078等の記憶手段を接続することができる。
音声プロセッサ1030には、マイクロホン1036、増幅回路1032、及びスピーカ1034が接続される。また、グラフィック・コントローラ1020には、表示装置1022が接続されている。
BIOS1060は、情報処理装置1000の起動時にCPU1010が実行するブートプログラムや、情報処理装置1000のハードウェアに依存するプログラム等を格納する。FD(フレキシブル・ディスク)ドライブ1072は、フレキシブル・ディスク1071からプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供する。
図13には、情報処理装置1000の内部にハードディスク1074が含まれる例を示したが、バスライン1005又はI/Oコントローラ1070に外部機器接続用インタフェース(図示せず)を接続し、情報処理装置1000の外部にハードディスクを接続又は増設してもよい。
光ディスク・ドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この際は各ドライブに対応した光ディスク1077を使用する必要がある。光ディスク・ドライブ1076は光ディスク1077からプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
情報処理装置1000に提供されるコンピュータ・プログラムは、フレキシブル・ディスク1071、光ディスク1077、又はメモリーカード等の記録媒体に格納されて利用者によって提供される。このコンピュータ・プログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、情報処理装置1000にインストールされ実行される。コンピュータ・プログラムが情報処理装置に働きかけて行わせる動作は、既に説明した装置における動作と同一であるので省略する。
前述のコンピュータ・プログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としてはフレキシブル・ディスク1071、光ディスク1077、又はメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク又は光ディスク・ライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してコンピュータ・プログラムを情報処理装置1000に提供してもよい。
以上の例は、情報処理装置1000について主に説明したが、コンピュータに、情報処理装置で説明した機能を有するプログラムをインストールして、そのコンピュータを情報処理装置として動作させることにより上記で説明した情報処理装置と同様な機能を実現することができる。
本装置は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実施では、所定のプログラムを有するコンピュータ・システムでの実施が典型的な例として挙げられる。かかる場合、該所定のプログラムが該コンピュータ・システムにロードされ実行されることにより、該プログラムは、コンピュータ・システムに本発明にかかる処理を実行させる。このプログラムは、任意の言語、コード、又は表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接実行すること、又は(1)他の言語、コード、若しくは表記への変換、(2)他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体を含むプログラム製品もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、MO、CD−ROM、DVD、ハードディスク装置、ROM、MRAM、RAM等の任意のコンピュータ可読媒体に格納することができる。かかるプログラムは、コンピュータ可読媒体への格納のために、通信回線で接続する他のコンピュータ・システムからダウンロードしたり、他の媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。
以上、本発明を実施形態に則して説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態又は実施例に記載されたものに限定されるものではない。
本発明の一実施形態に係る、統計モデルを用いる音声素片のモデル化の諸段階の関係を示すフロー図である。 本発明の一実施形態に係る、学習ステップS110を例示する機能ブロック図である。 本発明の一実施形態に係る、F0傾き計算ステップS120を例示するフロー図である 本発明の一実施形態に係る、音節中の観測点及び分割した小区間を示す図である。 本発明の一実施形態に係る、F0の線形近似を例示する図である 本発明の一実施形態に係る、統計モデルに用いる決定木とGMMモデルの関係を例示する図である。 本発明の一実施形態に係る音声合成ランタイムにおける、音声素片検索ステップS160を例示する機能ブロック図である。 本発明の一実施形態に係る、音声合成ランタイムにおける、F0評価・修正ステップS170を例示する機能ブロック図である。 本発明の一実施形態に係る、ランタイムにおけるF0傾きコスト算出を例示するフロー図である。 本発明の一実施形態に係る、F0傾きの確率密度関数を例示する図である。 本発明の一実施形態に係る、音声認識装置を含む音声認識システムの機能の構成を示す図である。 本発明の一実施形態に係る、音声合成装置を含む音声合成システムの機能の構成を示す図である。 本発明の一実施形態に係る、音声認識・音声合成装置のハードウェア構成を示す図である。 日本語と北京語のF0カーブを例示する図である。 北京語の4通りの声調を例示する図である。 北京語の声調と漢字の対応を例示する図である。 広東語の6通りの声調を例示する図である。
符号の説明
50 音声コーパス
52 記憶部
60 音声素片波形データ
82 音声素片F0情報
83 音声素片時間情報
84 音声素片言語情報
85 有声度テーブル
86 学習用データ
87 決定木
88 GMMパラメータテーブル
92 想定誤差Δg
96 傾きコスト
305、306 音節の始点、終点
310 音節
311〜314 小区間1〜4
321 音声素片
331〜339 音声素片の分割点
410 音声素片境界
420 音声素片のF0
430 近似直線
450 考慮中の音声素片から0.15秒さかのぼった区間
455 決定木
490 GMM
1000 情報処理装置

Claims (17)

  1. コンピュータにより音声に含まれる基本周波数(F0)をモデリングする、音声データの処理方法であって、
    前記コンピュータのCPUにより音声データを音声素片部分に分割するステップと、
    前記CPUにより、前記音声素片部分の始点及び終点のF0の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値について大局的なスムージングを実施した後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を計算するステップと、
    を含む、音声データの処理方法。
  2. 前記線形近似は、1の音声素片部分の終点の時刻から所定の時間をさかのぼった範囲の時間におけるF0の値を用いて、当該範囲の時間に対するF0の値の変化率を線形近似して求めるステップを含む、請求項1に記載の音声データの処理方法。
  3. 前記大局的なスムージングは、前記音声素片部分の始点又は終点におけるF0の値に対して、
    前記音声素片部分から所定の範囲に音声素片部分の始点又は終点におけるF0の値が存在する場合に、前記所定の範囲の音声素片部分のF0の値を用いて前記始点又は終点におけるF0の値をスムージングするステップ
    を含む、請求項1に記載の音声データの処理方法。
  4. 前記時間変化を計算することは、前記音声素片部分の前記始点におけるスムージング後のF0の値及び前記音声素片部分の前記終点におけるスムージング後のF0の値を用いて、F0の値の時間変化を計算するステップを含む、請求項1に記載の音声データの処理方法。
  5. 前記CPUにより、請求項1に記載の音声データの処理方法を用いてF0の値の時間変化を観測し、F0の統計モデルを学習する、音声データの処理方法。
  6. 前記F0の統計モデルを学習するステップは、さらに、
    前記音声データに含まれる音節部分を小区間に分割するステップと、
    前記F0の値の時間変化を前記分割した音節部分の小区間の情報に基づいて決定木を学習するステップと、
    前記決定木のノードにおける前記F0の確率密度関数の値を計算して記憶するステップと、
    を含む、請求項5に記載の音声データの処理方法。
  7. 前記音声データを音声素片部分に分割するステップは、さらに、
    前記音声データに含まれる音節部分を抽出するステップと、
    前記音節部分を所定の個数の小区間に分割するステップと、
    を含む、請求項1に記載の音声データの処理方法。
  8. コンピュータにより、音声データの複数の音声素片部分を接続して合成音声データを生成する方法であって、
    前記コンピュータのCPUにより、前記複数の音声素片部分の始点及び終点の基本周波数(F0)の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値を大局的にスムージングした後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を評価するステップと、
    前記CPUにより、前記評価により得られた情報に基づいて前記合成音声データのF0の値を修正するステップと、
    を含む、合成音声データの生成方法。
  9. 前記F0の値の時間変化を評価するステップは、さらに、F0の値の時間変化の尤度を評価するステップを含む、請求項8に記載の合成音声データの生成方法。
  10. 前記F0の値の時間変化を評価するステップは、さらに、F0の値の時間変化の尤度を評価するステップを含み、前記F0の値の時間変化の尤度を評価するステップは、
    観測したF0の値の時間変化に加えて、予め定めた誤差範囲を用いてF0の値の時間変化の範囲を設定するステップと、
    前記F0の値の時間変化の範囲における、確率密度関数の値を求めるステップと、
    を含む、請求項8に記載の合成音声データの生成方法。
  11. 前記F0の値の時間変化の尤度を評価するステップは、さらに、前記尤度に、F0の値の時間変化について予め定められた重み付けの値を乗じるステップを含む、請求項9に記載の合成音声データの生成方法。
  12. 前記F0の値の時間変化の尤度を評価するステップは、さらに、直前に音声データを含まない音声素片部分を、F0の値の時間変化の尤度の評価から除外するステップを含む、請求項9に記載の合成音声データの生成方法。
  13. 前記F0の値の時間変化の尤度を評価するステップは、さらに、無声子音である音声素片部分を、F0の値の時間変化の尤度の評価から除外するステップを含む、請求項9に記載の合成音声データの生成方法。
  14. 前記F0の値の時間変化の尤度を評価するステップは、さらに、予め算出した当該音声素片部分の有声度の値を乗算することによって、無声子音である音声素片部分の重み付けの値を小さくするステップを含む、請求項9に記載の合成音声データの生成方法。
  15. コンピュータにより、音声データを処理するためのシステムであって、
    前記コンピュータのCPUに、前記音声データを音声素片部分に分割させる手段と、
    前記CPUに、前記音声素片部分の始点及び終点の基本周波数(F0)の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値を大局的にスムージングした後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を計算させる手段と、
    前記CPUに、前記音声素片部分ごとにF0の値の時間変化を評価させる手段と、
    前記CPUに、前記評価により得られた情報に基づいて前記音声素片部分のF0の値を修正させる手段と、
    前記CPUに、複数の前記修正した音声素片部分を接続して合成音声データを生成させる手段と、
    を含む、音声データ処理システム。
  16. コンピュータにより、音声認識を行うための音声認識装置であって、
    音声信号を受け付ける音声信号受付部と、
    前記音声信号を音声素片部分に分割する音声信号分割部と、
    前記音声素片部分の始点及び終点の基本周波数(F0)の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値を大局的にスムージングした後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を計算する、F0時間変化計算部と、
    を含む、音声認識装置。
  17. コンピュータにより、音声データの複数の音声素片部分を接続して合成音声データを生成する音声合成装置であって、
    前記複数の音声素片部分の始点及び終点の基本周波数(F0)の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値を大局的にスムージングした後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を評価する、F0時間変化評価部と、
    前記F0時間変化評価部からの情報に基づいて前記合成音声データのF0の値を修正するF0修正部と、
    を含む、音声合成装置。
JP2008134759A 2008-05-22 2008-05-22 音声認識及び合成システム、プログラム及び方法 Expired - Fee Related JP5294700B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008134759A JP5294700B2 (ja) 2008-05-22 2008-05-22 音声認識及び合成システム、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008134759A JP5294700B2 (ja) 2008-05-22 2008-05-22 音声認識及び合成システム、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2009282330A true JP2009282330A (ja) 2009-12-03
JP5294700B2 JP5294700B2 (ja) 2013-09-18

Family

ID=41452835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008134759A Expired - Fee Related JP5294700B2 (ja) 2008-05-22 2008-05-22 音声認識及び合成システム、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP5294700B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145441B1 (ko) 2011-04-20 2012-05-15 서울대학교산학협력단 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법
JP2022510752A (ja) * 2018-10-25 2022-01-28 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニー Arにおける自然言語翻訳
CN114203204A (zh) * 2021-12-06 2022-03-18 北京百度网讯科技有限公司 尾点检测方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010078044; 立花 隆輝: '波形重畳型音声合成におけるF0傾きモデルを用いた韻律修正' 日本音響学会 2007年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 200709, 社団法人日本音響学会 *
JPN6012045370; 立花 隆輝: '波形重畳型音声合成におけるF0傾きモデルを用いた韻律修正' 日本音響学会 2007年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 200709, 社団法人日本音響学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145441B1 (ko) 2011-04-20 2012-05-15 서울대학교산학협력단 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법
JP2022510752A (ja) * 2018-10-25 2022-01-28 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニー Arにおける自然言語翻訳
JP7284252B2 (ja) 2018-10-25 2023-05-30 メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー Arにおける自然言語翻訳
CN114203204A (zh) * 2021-12-06 2022-03-18 北京百度网讯科技有限公司 尾点检测方法、装置、设备和存储介质
CN114203204B (zh) * 2021-12-06 2024-04-05 北京百度网讯科技有限公司 尾点检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
JP5294700B2 (ja) 2013-09-18

Similar Documents

Publication Publication Date Title
US7809572B2 (en) Voice quality change portion locating apparatus
US20080177543A1 (en) Stochastic Syllable Accent Recognition
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP2005208652A (ja) 声調言語用分節声調モデリング
KR20150146373A (ko) 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치
JP5007401B2 (ja) 発音評定装置、およびプログラム
Narendra et al. Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP2003295880A (ja) 録音音声と合成音声を接続する音声合成システム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP5294700B2 (ja) 音声認識及び合成システム、プログラム及び方法
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP2005181998A (ja) 音声合成装置および音声合成方法
Dong et al. A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese.
JP3892691B2 (ja) 音声合成方法及びその装置並びに音声合成プログラム
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
JP2007127738A (ja) 音声認識装置、およびプログラム
He et al. Automatic Stress Annotation and Prediction for Expressive Mandarin TTS
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121225

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20121228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130418

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130611

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees