JP2009282330A - 音声認識及び合成システム、プログラム及び方法 - Google Patents
音声認識及び合成システム、プログラム及び方法 Download PDFInfo
- Publication number
- JP2009282330A JP2009282330A JP2008134759A JP2008134759A JP2009282330A JP 2009282330 A JP2009282330 A JP 2009282330A JP 2008134759 A JP2008134759 A JP 2008134759A JP 2008134759 A JP2008134759 A JP 2008134759A JP 2009282330 A JP2009282330 A JP 2009282330A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- value
- unit
- time change
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】音声素片の始点及び終点のF0を線形近似又は大局的にスムージングする方法を用い、F0傾きを観測して統計モデルを学習し、ランタイムにおいてもF0傾きを評価し、コスト計算に基づいてF0を修正した合成音声を出力する。音節内のF0傾きの時間変化は、音節内を適宜等分して各領域ごとに決定木を学習してモデル化する。観測したF0傾きに誤差範囲を想定して尤度を評価する。これらを連携させることにより、高精度な音声認識及び自然な声調の合成音声出力が可能になる。
【選択図】図1
Description
また、非特許文献1に記載の、広東語について典型的F0パターンを保存する手法等においては、音声合成ランタイムでは必ず音声素片の基本周波数をこのパターンに合わせて強制的に修正する必要があるために音質が悪化するという課題があった。また、非特許文献2に記載の、北京語について音節単位で波形を接続することにより音節内のF0モデル化の問題を回避する手法等においては、多様な音節の全種類を音声素片データベース(DB)に保存する必要があり、DBのサイズを一定以上に削減することは期待できないという課題があった。すなわち、従来法及び従来法の組み合わせにおいては、音節内のF0パターンを統計的にモデル化するものではなかった。
これにより、本発明は、音声合成のランタイムに先立ち記録しておく音声素片DBのサイズ増大の問題を回避すると共に、音声合成ランタイムにおいて高い品質の音質を確保し得る、音声認識及び音声合成のシステム、プログラム及び方法を提供することを目的とする。
特に記載の無い限り、本願明細書に使用の用語は当技術分野における通常の意味を指す。本願明細書に使用の用語「音声素片」は「音声素片部分」又は「音声に含まれる音声素片の部分」と互換である。同様に、本願明細書に使用の用語「音節」は「音節部分」又は「音声に含まれる音節の部分」と互換である。本願明細書に使用の用語「F0」は「F0の値」と互換であり、コンピュータ計算可能な数値を含む。同様に、本願明細書に使用の用語「確率密度関数」は「確率密度関数の値」と互換でありコンピュータ計算可能な数値を含む。本願明細書に使用の用語「音声」は「音声データ」と互換であり、コンピュータ処理可能な音声データを含む。同様に、本願明細書に使用の用語「合成音声」は「合成音声データ」と互換であり、コンピュータ処理可能な合成音声データを含む。
図1は、本発明の一実施形態に係る、統計モデルを用いる音声素片のモデル化の諸段階の関係を示すフロー図である。図1は、さらに音声情報を記憶する音声コーパス50、音声素片に係る波形データを記憶する音声素片波形データ60を含む。
本発明に係る統計モデルの学習の一実施形態において、本発明は、学習ステップ(ステップS110)を用い、音声コーパス50から適宜音声情報を抽出し、本発明の音声素片のF0のモデル化のための学習を実施する。学習ステップS110の詳細は、図2を用いて後述する。なお、音声コーパス50は予め用意された音声情報でもよく、端末装置等が適宜備えるマイクロホン等を用いて任意の時点において収集した音声情報等でもよい。この収集は、アニメーション、映画、ニュース放送等における音声の記録等を含む。
本発明に係る統計モデルの分析又は保存の一実施形態において、本発明は、分析・保存ステップ(S130)を用い、音声コーパス50から適宜音声情報を抽出し、音声素片の分析及び保存を実施する。具体的には、音声情報から音節を抽出し、当該音節を音声素片に分割する一方、それぞれの音声素片のF0、継続時間長、エネルギーや音色等の情報を分析し、それぞれの音声素片と関連付ける。分析・保存ステップS130は、分析又は保存の動作から得られる結果を音声素片波形データ60に記憶する。
本発明に係る統計モデルの音声合成の一実施形態において、本発明は、音声素片接続ステップ(ステップS180)を用い、前述の音声素片検索ステップS160が音声素片波形データ60から検索し、さらに前述のF0評価・修正ステップS170が適宜修正を加えた少なくとも1の音声素片波形データを、音声合成のために所定の順序で接続する。音声素片波形データが1つのみの場合は、当該音声素片波形データを後続の合成音声出力ステップ(ステップS190)に引き渡してもよい、
図2は、本発明の一実施形態に係る、学習ステップS110を例示する機能ブロック図である。学習ステップS110は、音声素片情報受付ステップS112、有声度テーブル作成ステップS114、学習用データ作成ステップS115、決定木学習ステップS116、GMM構築ステップS117等を適宜含む。F0傾き計算ステップS120の詳細は図3を用いて後述する。さらに、学習ステップS110は、音声コーパス50に記憶された音声情報、言語処理ステップS142又は音声処理ステップS144が処理した言語情報又は音声情報を、音声素片に分割し、音声素片情報受付ステップS112を用いて受け付ける。当該言語情報は、前述のテキスト入力ステップS140及びテキスト処理ステップS150により処理され得る、テキストに関連する情報を含んでもよい。当該音声情報は音声コーパス50に記憶し得る形式の音声情報でもよい。
図3は、本発明の一実施形態に係る、F0傾き計算ステップS120を例示するフロー図である。F0傾き計算ステップS120は、統計モデルの学習に用いるF0傾きを音声素片ごとに観測する。F0傾き計算ステップS120の出力は、図2を用いて前述した学習用データ86の一部である。
図4は、本発明の一実施形態に係る、音節中の観測点及び分割した小区間を示す図である。これは、図3に示した、考慮中の音声素片の音節内位置を求めるステップS124の一実施形態である。図4においては、横軸は時間、縦軸は音圧のそれぞれを表す。音圧の形式は特に限定しないが、好適には、音声を変換して得られた交流信号を標本化して得られる浮動小数等の、符号付き数値である。図4に例示する波形、すなわち音声信号301は、音声周波数領域において標本化された通話等の音圧を時間に対してプロットしたものであり、音節310は音声信号301に含まれる1つの音節であり得る。
図5は、本発明の一実施形態に係る、F0の線形近似を例示する図である。図5においては、横軸は時間を、縦軸は対数周波数を表す。横軸の時間は、特定の音声素片の終点を基準として、所定の長さのさかのぼった時間を左向きに負の数値として示す。縦軸の対数周波数は、少なくとも1の音声素片に含まれる、音声素片のF0の値を対数スケールで示す。本発明に係るF0の線形近似は、計算対象の音声素片を抽出する手順、並びに抽出した音声素片を用いてF0を線形近似する手順を含む。
図6は、本発明の一実施形態に係る、統計モデルに用いる決定木とGMMモデルの関係を例示する図である。決定木455は、1の音声素片を入力とし、複数の分岐及びノードを含む。決定木455は、本発明に係る統計モデルの学習ステップにおいて、音声コーパス50等を用い、決定木87及びGMMパラメータテーブル88を作成するために用いられる。
図7は、本発明の一実施形態に係る音声合成ランタイムにおける、音声素片検索ステップS160を例示する機能ブロック図である。音声素片検索ステップS160は、音声素片の取り出しステップS162、音声素片情報の収集ステップS164、コスト計算ステップS166、コスト最小音声素片検索ステップS168等を含む。既述のステップ等の説明は省略する。
図8は、本発明の一実施形態に係る、音声合成ランタイムにおける、F0評価・修正ステップS170を例示する機能ブロック図である。F0評価・修正ステップS170は、音声素片検索ステップ160によって選択した音声素片のF0を評価し、必要に応じて修正を行うその修正量を決定する。例えば、自然な声調を得るために、あるいは声調に依存して言葉の意味に誤りが発生することを避ける等の目的のために用い得る。本発明に係るF0評価・修正ステップS170は、F0修正量の仮定ステップS172、音声素片情報の収集ステップS174、コスト計算ステップS176、音声素片F0の修正ステップS178等を含む。既述のステップ等の説明は省略する。
図9は、本発明の一実施形態に係る、ランタイムにおけるF0傾きコスト算出を例示するフロー図である。図3を用いて前述の、学習ステップと共通するデータ等は説明を省略する。この計算は、任意の音声素片に対してGMMパラメータを用意する手順と、具体的な音声素片のそれぞれに対する尤度及びコスト計算の手順とを含み得る。図9におけるF0傾きコスト計算ステップS198は、図7を示して前述の音声素片検索ステップS160に含まれるコスト計算ステップS166、並びに、図8を示して前述のF0評価・修正ステップS170に含まれるコスト計算ステップS176と共通でもよい。
図9及び図10を示した実施形態においては、1つの音節内位置に対応する1セットのGMMパラメータによりF0傾き尤度を計算し得る。しかし、F0傾きを観測した音声素片の終点が、音節を4等分する小区間の境界付近に位置する場合には、その境界の両側のGMMパラメータを用いて尤度を計算したほうが滑らかな傾きの変化を表現できることがある。
実際のランタイム処理においては、音声素片を選択しF0修正を行った後に、F0の大局的なスムージングを行って最終的なF0値としてもよい。これは最終的にエンドユーザーの耳に届くF0であり得る。従って、スムージングで計算されるF0の傾きを評価し、修正することが最も望ましい。しかし実際には、スムージング時には各音素のF0を求めるときにその両端を計算に用いるのに対して、音声素片選択時やF0修正量計算時には文の先頭から処理をしていくので、最終的なスムージングとまったく同じ方法でF0傾きを評価するのは困難である。そのため、図5を用いて前述のように、線形近似の方法でF0傾きを求めている。もしスムージングに各音声素片の右側(時間的に後続)の情報を使用しない、あるいは、最終的なスムージングには両側を使うが尤度評価時には右側は使わないことにするのであれば、スムージングを用いたF0傾き評価も可能である。
(1)音声素片部分の直前の音声素片部分が存在する場合に当該直前の音声素片部分のF0の値を用いて始点におけるF0の値をスムージングしてもよく、
(2)音声素片部分の直後の音声素片部分が存在する場合に当該直後の音声素片部分のF0の値を用いて終点におけるF0の値をスムージングしてもよい。
従来、北京語において、各音節について3点のF0絶対値を決定木によって予測する方法が知られている(非特許文献5参照)。
図11は、本発明の一実施形態に係る、音声認識装置を含む音声認識システムの機能の構成を示す図である。図11に示す音声認識システム600は、音声認識装置605及びデータベース装置800を含み、マイクロホン1036、音響機器980、ネットワーク990等を適宜含む。音声認識装置605は、音声信号受付部610、音声信号分割部611、F0時間変化計算部612、メモリ620、表示装置630、D/A変換650、通信装置660、共有メモリ670等を含む。音声信号受付部610の態様は、マイクロホン等からの音声信号を適宜増幅し、コンピュータ処理可能なディジタル信号に変換する、A/D変換器等でもよい。音声信号分割部611及びF0時間変化計算部612の態様は、好適にはマイクロプロセッサ等の集積回路であり、これらは別個の回路でもよく、1のマイクロプロセッサを用いて実現してもよい。メモリ620の態様は磁気記憶媒体でもよく、電気的記憶媒体でもよく、適宜設計し得る。図11には音声認識装置605及びデータベース装置800を別個に示すが、これに限らず、両者を一体の構造としてもよい。データベース装置800のシステムバス810には、適宜、図1に示した音声コーパス50等の、磁気記憶媒体又は電気的記憶媒体等の任意の記憶手段を接続してもよい。
図12は、本発明の一実施形態に係る、音声合成装置を含む音声合成システムの機能の構成を示す図である。図12に示す音声合成システム700は、音声合成装置705及びデータベース装置800等を含み、A/D変換614、F0時間変化評価部616、F0修正部617等を含む。図11と共通する部分は説明を省略する。F0時間変化評価部616及びF0修正部617の態様は、好適にはマイクロプロセッサ等の集積回路であり、それぞれを独立した回路としてもよく、1のマイクロプロセッサを用いて両者の機能を実現してもよい。
図13は、本発明の一実施形態に係る、音声認識・音声合成装置のハードウェア構成を示す図である。図13においては、音声認識・音声合成装置を情報処理装置1000とし、そのハードウェア構成を例示する。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、その環境に応じて必要最小限な構成を選択できることはいうまでもない。
図13には、情報処理装置1000の内部にハードディスク1074が含まれる例を示したが、バスライン1005又はI/Oコントローラ1070に外部機器接続用インタフェース(図示せず)を接続し、情報処理装置1000の外部にハードディスクを接続又は増設してもよい。
52 記憶部
60 音声素片波形データ
82 音声素片F0情報
83 音声素片時間情報
84 音声素片言語情報
85 有声度テーブル
86 学習用データ
87 決定木
88 GMMパラメータテーブル
92 想定誤差Δg
96 傾きコスト
305、306 音節の始点、終点
310 音節
311〜314 小区間1〜4
321 音声素片
331〜339 音声素片の分割点
410 音声素片境界
420 音声素片のF0
430 近似直線
450 考慮中の音声素片から0.15秒さかのぼった区間
455 決定木
490 GMM
1000 情報処理装置
Claims (17)
- コンピュータにより音声に含まれる基本周波数(F0)をモデリングする、音声データの処理方法であって、
前記コンピュータのCPUにより音声データを音声素片部分に分割するステップと、
前記CPUにより、前記音声素片部分の始点及び終点のF0の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値について大局的なスムージングを実施した後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を計算するステップと、
を含む、音声データの処理方法。 - 前記線形近似は、1の音声素片部分の終点の時刻から所定の時間をさかのぼった範囲の時間におけるF0の値を用いて、当該範囲の時間に対するF0の値の変化率を線形近似して求めるステップを含む、請求項1に記載の音声データの処理方法。
- 前記大局的なスムージングは、前記音声素片部分の始点又は終点におけるF0の値に対して、
前記音声素片部分から所定の範囲に音声素片部分の始点又は終点におけるF0の値が存在する場合に、前記所定の範囲の音声素片部分のF0の値を用いて前記始点又は終点におけるF0の値をスムージングするステップ
を含む、請求項1に記載の音声データの処理方法。 - 前記時間変化を計算することは、前記音声素片部分の前記始点におけるスムージング後のF0の値及び前記音声素片部分の前記終点におけるスムージング後のF0の値を用いて、F0の値の時間変化を計算するステップを含む、請求項1に記載の音声データの処理方法。
- 前記CPUにより、請求項1に記載の音声データの処理方法を用いてF0の値の時間変化を観測し、F0の統計モデルを学習する、音声データの処理方法。
- 前記F0の統計モデルを学習するステップは、さらに、
前記音声データに含まれる音節部分を小区間に分割するステップと、
前記F0の値の時間変化を前記分割した音節部分の小区間の情報に基づいて決定木を学習するステップと、
前記決定木のノードにおける前記F0の確率密度関数の値を計算して記憶するステップと、
を含む、請求項5に記載の音声データの処理方法。 - 前記音声データを音声素片部分に分割するステップは、さらに、
前記音声データに含まれる音節部分を抽出するステップと、
前記音節部分を所定の個数の小区間に分割するステップと、
を含む、請求項1に記載の音声データの処理方法。 - コンピュータにより、音声データの複数の音声素片部分を接続して合成音声データを生成する方法であって、
前記コンピュータのCPUにより、前記複数の音声素片部分の始点及び終点の基本周波数(F0)の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値を大局的にスムージングした後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を評価するステップと、
前記CPUにより、前記評価により得られた情報に基づいて前記合成音声データのF0の値を修正するステップと、
を含む、合成音声データの生成方法。 - 前記F0の値の時間変化を評価するステップは、さらに、F0の値の時間変化の尤度を評価するステップを含む、請求項8に記載の合成音声データの生成方法。
- 前記F0の値の時間変化を評価するステップは、さらに、F0の値の時間変化の尤度を評価するステップを含み、前記F0の値の時間変化の尤度を評価するステップは、
観測したF0の値の時間変化に加えて、予め定めた誤差範囲を用いてF0の値の時間変化の範囲を設定するステップと、
前記F0の値の時間変化の範囲における、確率密度関数の値を求めるステップと、
を含む、請求項8に記載の合成音声データの生成方法。 - 前記F0の値の時間変化の尤度を評価するステップは、さらに、前記尤度に、F0の値の時間変化について予め定められた重み付けの値を乗じるステップを含む、請求項9に記載の合成音声データの生成方法。
- 前記F0の値の時間変化の尤度を評価するステップは、さらに、直前に音声データを含まない音声素片部分を、F0の値の時間変化の尤度の評価から除外するステップを含む、請求項9に記載の合成音声データの生成方法。
- 前記F0の値の時間変化の尤度を評価するステップは、さらに、無声子音である音声素片部分を、F0の値の時間変化の尤度の評価から除外するステップを含む、請求項9に記載の合成音声データの生成方法。
- 前記F0の値の時間変化の尤度を評価するステップは、さらに、予め算出した当該音声素片部分の有声度の値を乗算することによって、無声子音である音声素片部分の重み付けの値を小さくするステップを含む、請求項9に記載の合成音声データの生成方法。
- コンピュータにより、音声データを処理するためのシステムであって、
前記コンピュータのCPUに、前記音声データを音声素片部分に分割させる手段と、
前記CPUに、前記音声素片部分の始点及び終点の基本周波数(F0)の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値を大局的にスムージングした後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を計算させる手段と、
前記CPUに、前記音声素片部分ごとにF0の値の時間変化を評価させる手段と、
前記CPUに、前記評価により得られた情報に基づいて前記音声素片部分のF0の値を修正させる手段と、
前記CPUに、複数の前記修正した音声素片部分を接続して合成音声データを生成させる手段と、
を含む、音声データ処理システム。 - コンピュータにより、音声認識を行うための音声認識装置であって、
音声信号を受け付ける音声信号受付部と、
前記音声信号を音声素片部分に分割する音声信号分割部と、
前記音声素片部分の始点及び終点の基本周波数(F0)の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値を大局的にスムージングした後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を計算する、F0時間変化計算部と、
を含む、音声認識装置。 - コンピュータにより、音声データの複数の音声素片部分を接続して合成音声データを生成する音声合成装置であって、
前記複数の音声素片部分の始点及び終点の基本周波数(F0)の値を線形近似すること、又は前記音声素片部分の始点及び終点のF0の値を大局的にスムージングした後に当該音声素片部分の範囲内のF0の値の時間変化を計算することのいずれかにより、前記音声素片部分ごとにF0の値の時間変化を評価する、F0時間変化評価部と、
前記F0時間変化評価部からの情報に基づいて前記合成音声データのF0の値を修正するF0修正部と、
を含む、音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008134759A JP5294700B2 (ja) | 2008-05-22 | 2008-05-22 | 音声認識及び合成システム、プログラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008134759A JP5294700B2 (ja) | 2008-05-22 | 2008-05-22 | 音声認識及び合成システム、プログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009282330A true JP2009282330A (ja) | 2009-12-03 |
JP5294700B2 JP5294700B2 (ja) | 2013-09-18 |
Family
ID=41452835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008134759A Expired - Fee Related JP5294700B2 (ja) | 2008-05-22 | 2008-05-22 | 音声認識及び合成システム、プログラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5294700B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101145441B1 (ko) | 2011-04-20 | 2012-05-15 | 서울대학교산학협력단 | 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법 |
JP2022510752A (ja) * | 2018-10-25 | 2022-01-28 | フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニー | Arにおける自然言語翻訳 |
CN114203204A (zh) * | 2021-12-06 | 2022-03-18 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
-
2008
- 2008-05-22 JP JP2008134759A patent/JP5294700B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
CSNJ201010078044; 立花 隆輝: '波形重畳型音声合成におけるF0傾きモデルを用いた韻律修正' 日本音響学会 2007年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 200709, 社団法人日本音響学会 * |
JPN6012045370; 立花 隆輝: '波形重畳型音声合成におけるF0傾きモデルを用いた韻律修正' 日本音響学会 2007年 秋季研究発表会講演論文集CD-ROM [CD-ROM] , 200709, 社団法人日本音響学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101145441B1 (ko) | 2011-04-20 | 2012-05-15 | 서울대학교산학협력단 | 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법 |
JP2022510752A (ja) * | 2018-10-25 | 2022-01-28 | フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニー | Arにおける自然言語翻訳 |
JP7284252B2 (ja) | 2018-10-25 | 2023-05-30 | メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー | Arにおける自然言語翻訳 |
CN114203204A (zh) * | 2021-12-06 | 2022-03-18 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
CN114203204B (zh) * | 2021-12-06 | 2024-04-05 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5294700B2 (ja) | 2013-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7809572B2 (en) | Voice quality change portion locating apparatus | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP2005208652A (ja) | 声調言語用分節声調モデリング | |
KR20150146373A (ko) | 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치 | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
Narendra et al. | Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
JP2003295880A (ja) | 録音音声と合成音声を接続する音声合成システム | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP5294700B2 (ja) | 音声認識及び合成システム、プログラム及び方法 | |
WO2016103652A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
JP2005181998A (ja) | 音声合成装置および音声合成方法 | |
Dong et al. | A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese. | |
JP3892691B2 (ja) | 音声合成方法及びその装置並びに音声合成プログラム | |
JP4621936B2 (ja) | 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム | |
JP2007127738A (ja) | 音声認識装置、およびプログラム | |
He et al. | Automatic Stress Annotation and Prediction for Expressive Mandarin TTS | |
KR100608643B1 (ko) | 음성 합성 시스템의 억양 모델링 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121203 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121225 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20121228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130418 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130611 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |