JP6082657B2 - ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム - Google Patents

ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム Download PDF

Info

Publication number
JP6082657B2
JP6082657B2 JP2013111680A JP2013111680A JP6082657B2 JP 6082657 B2 JP6082657 B2 JP 6082657B2 JP 2013111680 A JP2013111680 A JP 2013111680A JP 2013111680 A JP2013111680 A JP 2013111680A JP 6082657 B2 JP6082657 B2 JP 6082657B2
Authority
JP
Japan
Prior art keywords
pose
model
grant
perplexity
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013111680A
Other languages
English (en)
Other versions
JP2014232145A (ja
Inventor
博子 村上
博子 村上
勇祐 井島
勇祐 井島
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013111680A priority Critical patent/JP6082657B2/ja
Publication of JP2014232145A publication Critical patent/JP2014232145A/ja
Application granted granted Critical
Publication of JP6082657B2 publication Critical patent/JP6082657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、テキスト情報にポーズを自動的に付与するモデルを選択するポーズ付与モデル選択装置とポーズ付与装置と、それらの方法とプログラムに関する。
従来、音声合成におけるテキストに対するポーズの自動付与では、単語ごとに分かち書きされた入力テキストの各単語の単語表記・品詞・読み等の素性から、特定のドメインの読み上げ口調用に人手で設計した規則によりポーズ付与を行っていた(例えば非特許文献1)。しかし、テキストに対する適切なポーズ位置は、入力テキストのドメインや合成対象の話者の口調によって傾向が大きく異なるため、規則で対象としていないドメインや口調(例:話し言葉で記載されたテキスト・口語口調等)に対して、ポーズ付与性能が低下する。ここでドメインとは、例えばニュース用テキスト、会話用テキスト、童話読み聞かせ用テキストなどの様に目的向けごとに分類された範囲を意味する。
しかし、ドメインや口調が変更される度に規則を設計し直すのは高コストである。そのため、ドメインや口調ごとに正解のポーズ位置のラベルが付与された学習テキストを用いて、機械学習によりポーズ付与モデルを構築し、データドリブンにポーズ付与を行う手法が提案されている(例えば、非特許文献2,3)。
浅野久子ほか、「多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成」、自然言語処理 Vol.6 No.2 pp.59-81 Jan. 1999. 福岡健太ほか、「Support Vector Machinesを用いた日本語書き言葉の文境界推定」、言語処理学会年次大会発表論文集、11th,pp.1221-1224,2005/03/15. 太田健吾ほか、「ポーズを考慮した話し言葉言語モデルの構築」、情報処理学会論文誌、Vol.53(2), pp.889-900.
従来の機械学習によってポーズ付与モデルを構築してデータドリブンにポーズを付与する方法は、正解のポーズ位置のラベルが付与された学習テキストが大量に必要となる課題がある。ポーズ位置のラベルが付いた学習テキストを得るためには、対象とする口調で自然に発話した音声データが必要となる。十分な性能のポーズ付与モデルを構築するためには約5〜6時間分の発話を要するため、発話及びポーズ位置のラベル付け作業に高いコストが掛かる。そのため、ドメインや口調ごとに学習テキストを大量に用意するのは容易ではない。
本発明は、この課題に鑑みてなされたものであり、少量の合成対象のポーズラベル付きテキストのみを用いて、対象のドメイン・口調に対して適切な位置にポーズを付与することができるポーズ付与モデルを、既存のポーズ付与モデルから選択するポーズ付与モデル選択装置とポーズ付与装置と、それらの方法とプログラムを提供することを目的とする。
本発明のポーズ付与モデル選択装置は、複数の言語モデルと、ポーズ付与モデル選択部と、を具備する。複数の言語モデルは、様々なドメインの学習テキストを用いて構築した品詞N-gramモデルとポーズ付与モデルとの組からなる。ポーズ付与モデル選択部は、ポーズ付与対象のテキスト情報を入力として、当該テキスト情報のパープレキシティを各ドメインの品詞N-gramモデルを用いて算出し、当該パープレキシティが最も小さいドメインに対応するポーズ付与モデルを選択して選択済みポーズ付与モデルとして出力する。
また、本発明のポーズ付与装置は、上記したポーズ付与モデル選択装置と、ポーズ付与部と、を具備する。ポーズ付与部は、ポーズ付与対象のテキスト情報を入力として、当該テキスト情報にポーズ付与モデル選択装置が出力する選択済みポーズ付与モデルを用いてポーズを付与して出力する。
本発明のポーズ付与モデル選択装置は、ポーズ付与対象のテキスト情報のパープレキシティを各ドメインの品詞N-gramモデルを用いて算出し、そのパープレキシティの値に基づいて、既存のポーズ付与モデルの中からテキスト情報に適合するポーズ付与モデルを選択する。大量のポーズ付与対象のテキスト情報を用いて新たにポーズ付与モデルを学習する必要がないので、従来法と比較してポーズ付与モデルを準備する工数を大幅に省力化する効果を奏する。
また、本発明のポーズ付与装置は、本発明のポーズ付与モデル選択装置で選択した選択済みポーズ付与モデル130を用いて、テキスト情報にポーズを付与するので、適切な位置にポーズを付与することができる。
本発明のポーズ付与モデル選択装置100の機能構成例を示す図。 ポーズ付与モデル選択装置100の動作フローを示す図。 学習テキストの一文の例を示す図。 本発明のポーズ付与装置200の機能構成例を示す図。 本発明のポーズ付与装置300の機能構成例を示す図。 本発明のポーズ付与装置400の機能構成例を示す図。 ポーズ付与装置400の動作フローを示す図。 本発明のポーズ付与装置500の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔ポーズ付与モデル選択装置〕
図1に、この発明のポ−ズ付与モデル選択装置100の機能構成例を示す。その動作フローを図2に示す。ポーズ付与モデル選択装置100は、複数の言語モデル110〜110と、ポーズ付与モデル選択部120と、制御部130と、を具備する。ポーズ付与モデル選択装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。
言語モデル110は、学習テキストを用いて構築した品詞N-gramモデル1101wとポーズ付与モデル1101pとの組からなる。言語モデル110は、ドメインの数に対応した個数(1〜N個)を備える。図3に、学習テキストの一文の例を示す。図3に示す例は、「今日はいい天気だね」の一文を構成する単語が分かち書きされ、単語表記の他に、品詞と読みなどの素性が付与されている。また、単語直後のポーズ出現有無のラベル(p)が付与されている。
品詞N-gramモデル110*w(*:1〜N)は、学習テキストの品詞系列をN-gramモデルによりモデル化した言語モデルである。N-gramモデルは、隣接するN個の組み合わせの頻度を数えその頻度に応じて確率を付与する確率モデルである。N-gramモデルの学習方法は、例えば参考文献1(北健二著、「言語と計算 確率的言語モデル」、東京大学出版会)に記載されているように周知である。
ポーズ付与モデル110*pは、学習テキストに含まれる単語系列の各単語ごとの単語表記や品詞や読みなどの素性と、ポーズ位置との関係について学習した言語モデルである。ポーズ付与モデル110*pは、ポーズが付与される確率を表す確率モデルである。ポーズ付与モデルの学習には、N-gramモデルや、SVM(Support Vector Machine)や、CRF(Conditional Random Fields)等の機械学習が用いられる。何れの手法を用いたポーズ付与モデルであっても問題なく利用することが可能である。
品詞N-gramモデル110*wとポーズ付与モデル*pは、ドメインごとの学習テキストを用いて言語モデル学習部140で作成される。学習方法は、上記したようにいくつかの種類が存在するが、何れも周知なものである。ポーズ付与モデル選択装置100は、作成済みの既存の言語モデル110〜110を利用するので、言語モデル学習部140はポーズ付与モデル選択装置100の必須の構成ではない。
ポーズ付与モデル選択部120は、ポーズ付与対象のテキスト情報を入力とし、当該テキスト情報のパープレキシティ(perplexity)を、各ドメインの品詞N-gramモデル110*wを用いて算出(ステップS120)して、当該パープレキシティが最も小さいドメインに対応するポーズ付与モデル110*pを選択済みポーズ付与モデルとして出力する(ステップS121)。ステップS120の処理は、全てのドメインの品詞N-gramモデル110*wについて行われるまで繰り返される(ステップS150のNo)。この繰り返し動作の制御は制御部130で行う。制御部130は、ポ−ズ付与モデル選択装置100の各部の時系列動作を制御する一般的なものであり、特別な処理を行うものではない。他の実施例についても同様である。
ポーズ付与モデル選択部120は、各ドメインの品詞N-gramモデル110*wから算出されるテキスト情報の品詞系列のパープレキシティを用いて、テキスト情報に最も近いドメインのポーズ付与モデルを選択する。ポーズ付与対象のテキスト情報の品詞系列をX =(x,x,…,x)とすると、品詞N-gramモデル110*wにおける品詞系列X の生起確率P(X )は次式で表せる。
Figure 0006082657
この式に基づき、品詞系列X =(x,x,…,x)における品詞N-gramモデル110*wのパープレキシティPPは次式で定義される。
Figure 0006082657
パープレキシティとは、品詞1個が出現する確率の相乗平均の逆数を表しており、別の見方をすると、ある品詞の後に接続しうる品詞数の平均ということができ、平均分岐数とも称される。
つまり、ポーズ付与対象のテキスト情報の品詞系列に対するパープレキシティが小さいほど、その系列に対して高い確率を与える言語モデルであるということを示している。そのため、この実施例では、パープレキシティが最も小さい品詞N-gramモデル110*wに対応するポーズ付与モデル110*pを選択して選択済みポーズ付与モデルとして出力する。
以上のように動作するポーズ付与モデル選択装置100によれば、ポーズ付与対象のテキストと同様のドメインのテキストを大量に用意して、対象とするテキストのドメインに依存したポーズ付与モデルを作成することなく、既存のポーズ付与モデルの中からポーズ付与対象のテキスト情報に適合するモデルを選択することが可能になる。パープレキシティを比較するためのテキストは1文から可能であるため、従来法と比較してポーズ付与モデルを準備する工数を大幅に省力化する効果を奏する。
〔ポーズ付与装置〕
図4に、この発明のポーズ付与装置200の機能構成例を示す。ポーズ付与装置200は、上記したポーズ付与モデル選択装置100で選択した選択済みポーズ付与モデル150を用いて、テキスト情報にポーズを付与するものである。
ポーズ付与装置200は、ポーズ付与モデル選択装置100の構成に加えてポーズ付与部260を備える点で異なる。ポーズ付与部260は、ポーズ付与対象のテキスト情報を入力として、当該テキスト情報に、ポーズ付与モデル選択装置100で選択した選択済みポーズ付与モデル150を用いてポーズを付与する。
ポーズ付与部260は、ポーズ付与対象のテキスト情報の各単語の品詞や読み等の素性をポーズ付与モデルに入力することで、各単語境界におけるポーズ挿入確率がポーズ付与モデルから算出される。算出された確率を元に、各単語境界に対してポーズ挿入の有無の2値のラベルが付与される。ポーズ推定方法は、ポーズ付与モデルを構築した機械学習の手法により異なる。具体例としては、非特許文献2,3に開示された方法と同じ方法を用いることができる。
ポーズ付与装置200によれば、ポーズ付与対象のテキストのドメインに適合した選択済みポーズ付与モデル150を用いて、テキスト情報にポーズを付与するので、適切な位置にポーズを付与することができる。次に、話者の口調の違いにも対応できるようにしたポーズ付与装置300を説明する。
図5に、この発明のポーズ付与装置300の機能構成例を示す。ポーズ付与装置300は、ポーズ付与装置200に対して、言語モデル310が2つ組N-gramモデル310*wとポーズ付与モデル310*pとの組から構成される点で異なる。
2つ組N-gramモデル310*wは、口調の異なるポーズ付き学習テキストから(品詞,ポーズ有無)の2つ組の系列を作成し、N-gramモデルによりモデル化した言語モデルである。(品詞,ポーズ有無)とは、図3に示した例では3行目の品詞と5行目のポーズ有無の情報のことである。口調とは、アナウンサー口調や読み聞かせ口調など、あらゆる種類が想定でき、それぞれの種類ごとに言語モデル310が構築される。
ポーズ付与モデル選択部320は、合成対象の話者のポーズラベル付テキストを入力とし、当該ポーズラベル付テキストのパープレキシティを、2つ組みN-gramモデルを用いて算出して当該パープレキシティが最も小さいドメインに対応するポーズ付与モデル310*pを選択済みポーズ付与モデル350として出力する。
ポーズ付与部260は、ポーズ付与装置200と同じものである。
ポーズ付与装置300は、話者の口調依存のポーズ位置ラベル付きテキストから構築した言語モデルを、パープレキシティの値に応じて選択するので、話者の特徴を表したポーズ推定を行うことが可能である。
図6に、この発明のポーズ付与装置400の機能構成例を示す。その動作フローを図7に示す。ポーズ付与装置400は、言語モデル410にポーズ付与モデルを含まない点と、ポーズ付与モデル学習部470を備える点でポーズ付与装置200,300と異なる。
ポーズ付与装置400は、合成対象の話者とポーズ出現傾向が近い口調の学習テキストを複数選択し、合成対象の話者のポーズラベル付テキストと合わせて重み付けしてポーズ付与モデルを学習し、ポーズ付与を行うものである。言語モデル410は、様々な異なる口調の学習テキストを用いて構築した2つ組N-gramモデル410*wと、当該学習テキスト410*tとの組からなる。2つ組N-gramモデル410*wは、ポーズ付与装置300のものと同じである。
ポーズ付与モデル学習部470は、合成対象の話者のポーズ付きテキスト情報を入力として、当該ポーズラベル付きテキスト情報から2つ組の系列を作成し、当該2つ組の系列の各口調の2つ組N-gramモデル410*wにおけるパープレキシティを算出し、当該パープレキシティが小さい2つ組N-gramモデル410*wの口調に対応する学習テキスト410*tをパープレキシティが小さい順にN個選択し、当該選択したN個の学習テキストと合成対象の話者のポーズ付きテキストとを重み付きで足し合わせてポーズ付与モデルの学習を行いポーズ付与モデルを出力する(ステップS470)。ポーズ付与部260は、ポーズ付与装置200と同じものである(ステップS260)。
合成対象の話者のポーズ付きテキスト情報は、言語モデル410の学習テキスト410*tと比較して少量(10〜15分)である。その合成対象の話者のポーズ付きテキスト情報に対して、学習テキスト410*tは例えば2〜3時間の発話時間に相当する量である。
このように合成対象の話者のポーズ付きテキスト情報は量が少ない一方、話者の特徴を最も強く反映した学習テキストと言えるため、全体に対する重みは大きくなるように設定することが望ましい。重みの設定方法としては、例えば合成対象の話者のポーズ付きテキスト内の全2つ組N-gramモデル数が、学習テキスト全体の2つ組N-gramモデル数の1/10程度を占めるように設定する方法が考えられる。具体的には、選択されたN個の学習テキストと出現回数をW倍した合成対象の話者のテキストを新たな学習テキストとしてポーズ付与モデルを学習する方法が、シンプルかつ有効な方法として知られている。
又は、パープレキシティが小さい口調に対応するポーズ付与モデルをパープレキシティが小さい順にN個選択し、選択された各口調モデルから算出されるN-gram確率を、パープレキシティの値を基準として重み付きで足し合わせ、新たな確率を算出する方法も考えられる。
ポーズ付与装置400によれば、大量の学習テキストと共に、少量の合成対象の話者のポーズ付きテキストを、ポーズ付与モデルの学習に用いるので、ポーズ付与の精度を高めたポーズ付与モデルを効率的に作成することができ、精度の良いポーズ付与を行うことができる。
図8に、この発明のポーズ付与装置500の機能構成例を示す。ポーズ付与装置500は、上記したポーズ付与装置200(図4)でポーズを付与した確率の高い上位N候補のポーズ付与結果と、上記したポーズ付与装置300(図5)で選択したパープレキシティが最も小さい値を示す口調の2つ組N-gramモデルと、を入力とする。
図8では、それぞれの装置が出力するものが説明済みの装置と異なるので、それぞれの装置の参照符号に′を付けてポーズ付与装置200′と300′として表記している。ポーズ付与装置200′は、確率が最も高いポーズ付与結果を1個出力したポーズ付与装置200に対して、確率の高い上位N候補のポーズ付与結果510を出力する。ポーズ付与装置300′は、ポーズ付与モデルを選択して出力するポーズ付与モデル選択部320(図5)を、2つ組N-gramモデル520を選択して外部に出力するように変更したものである。
ポーズ決定部530は、確率の高い上位N候補のポーズ付与結果510の各候補におけるパープレキシティを2つ組N-gramモデル520を用いて計算し、当該計算結果のうち最もパープレキシティが小さいポーズ付与結果を選択して出力する。ポーズ決定部530は、確率の高い上位N候補のポーズ付与結果510と、2つ組N-gramモデル520と、が入力されれば良いので、それらを予め各装置で作成しておけばポーズ付与装置200′と300′は不要である。よって、図8ではそれぞれを破線で表記している。
ポーズ付与装置500によれば、確率の高い上位N候補のポーズ付与結果510と2つ組N-gramモデル520とを組み合わせて用いるので、合成対象の話者のポーズ付きテキストのドメインと口調の両方に適したポーズ付与を行うことができる。
以上説明したようにポーズ付与モデル選択装置100によれば、大量のテキスト情報から作成されたドメインごとのポーズ付与モデルを、ポーズ付与対象の少量のテキスト情報と品詞N-gramモデルとから求めたパープレキシティの値に応じて、ポーズ付与対象のテキスト情報に適合するポーズ付与モデルを選択するので、ポーズ付与モデルを準備する工数を、従来に比べて大幅に削減することができる。また、ポーズ付与装置200,300によれば、ポーズ付与対象のテキスト情報に適合した選択済みポーズ付与モデルを用いて、テキスト情報にポーズを付与するので、適切な位置にポーズを付与することができる。また、ポース付与装置400と500は、上記した効果を奏する。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 様々なドメインの学習テキストを用いて構築した品詞N-gramモデルとポーズ付与モデルとの組からなる複数の言語モデルと、
    ポーズ付与対象のテキスト情報を入力として、当該テキスト情報のパープレキシティを上記各ドメインの品詞N-gramモデルを用いて算出し、当該パープレキシティが最も小さいドメインに対応するポーズ付与モデルを選択済みポーズ付与モデルとして出力するポーズ付与モデル選択部と、
    を具備するポーズ付与モデル選択装置。
  2. 請求項1に記載したポーズ付与モデル選択装置と、
    上記ポーズ付与対象のテキスト情報を入力として、当該テキスト情報に上記選択済みポーズ付与モデルを用いてポーズを付与して出力するポーズ付与部と、
    を具備するポーズ付与装置。
  3. 請求項2に記載したポーズ付与装置において、
    上記複数の言語モデルは、様々な異なる口調の学習テキストを用いて構築した当該口調ごとの品詞とポーズ有無の2つ組N-gramモデルとポーズ付与モデルとの組からなる複数の言語モデルであり、
    上記ポーズ付与モデル選択部は、合成対象の話者のポーズラベル付テキストを入力として、当該ポーズラベル付テキストのパープレキシティを上記2つ組N-gramモデルを用いて算出し、当該パープレキシティが最も小さいドメインに対応するポーズ付与モデルを選択済みポーズ付与モデルとして出力するもの、
    であることを特徴とするポーズ付与装置。
  4. 様々な異なる口調の学習テキスト用いて構築した品詞とポーズ有無の2つ組N-gramモデルと当該学習テキストとの組からなる複数の言語モデルと、
    合成対象の話者のポーズラベル付きテキスト情報を入力として、当該ポーズラベル付テキストから品詞とポーズ有無の2つ組の系列を作成し、当該2つ組の系列の各口調の2つ組N-gramモデルにおけるパープレキシティを算出し、当該パープレキシティが小さい2つ組N-gramモデルの口調に対応する学習テキストをパープレキシティが小さい順にN個選択し、当該選択したN個の学習テキストと上記合成対象の話者のポーズラベル付きテキストを重み付きで足し合わせてポーズ付与モデルの学習を行いポーズ付与モデルを出力するポーズ付与モデル学習部と、
    上記合成対象の話者のポーズラベル付きテキスト情報を入力として、当該テキスト情報に上記ポーズ付与モデルを用いてポーズを付与して出力するポーズ付与部と、
    を具備するポーズ付与装置。
  5. 請求項2に記載したポーズ付与装置でポーズを付与した確率の高い上位N候補のポーズ付与結果と、請求項3に記載したポーズ付与装置で選択したパープレキシティが最も小さい値を示すドメインの品詞とポーズ有無の2つ組N-gramモデルと、を入力として、
    上記上位N候補のポーズ付与結果の各候補におけるパープレキシティを上記2つ組N-gramモデルを用いて計算し、当該計算結果のうち最もパープレキシティが小さいポーズ付与結果を出力するポーズ決定部を、
    具備するポーズ付与装置。
  6. ポーズ付与対象のテキスト情報を入力として、様々なドメインの学習テキストを用いて構築した品詞N-gramモデルとポーズ付与モデルとの組からなる複数の言語モデルを参照し、上記テキスト情報のパープレキシティを、様々なドメインの学習テキストを用いて構築した品詞N-gramモデルを用いて算出した当該パープレキシティが最も小さいドメインに対応するポーズ付与モデルを、選択済みポーズ付与モデルとして出力するポーズ付与モデル選択過程を備えるポーズ付与モデル選択方法。
  7. 請求項6に記載したポーズ付与モデル選択方法と、
    上記ポーズ付与対象のテキスト情報を入力として、当該テキスト情報に上記選択済みポーズ付与モデルを用いてポーズを付与して出力するポーズ付与過程と、
    を備えるポーズ付与方法。
  8. 請求項1に記載したポーズ付与モデル選択装置、請求項2乃至5の何れかに記載したポーズ付与装置としてコンピュータを機能させるためのプログラム。
JP2013111680A 2013-05-28 2013-05-28 ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム Active JP6082657B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013111680A JP6082657B2 (ja) 2013-05-28 2013-05-28 ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013111680A JP6082657B2 (ja) 2013-05-28 2013-05-28 ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム

Publications (2)

Publication Number Publication Date
JP2014232145A JP2014232145A (ja) 2014-12-11
JP6082657B2 true JP6082657B2 (ja) 2017-02-15

Family

ID=52125581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013111680A Active JP6082657B2 (ja) 2013-05-28 2013-05-28 ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム

Country Status (1)

Country Link
JP (1) JP6082657B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021784B (zh) * 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
CN105225658B (zh) * 2015-10-21 2018-10-19 百度在线网络技术(北京)有限公司 韵律停顿信息的确定方法和装置
JP6879552B2 (ja) * 2017-05-26 2021-06-02 国立大学法人茨城大学 株価予測システム、株価予測方法及び株価予測プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2910587B2 (ja) * 1994-11-15 1999-06-23 日本電気株式会社 音声合成装置
JPH0962286A (ja) * 1995-08-22 1997-03-07 Sony Corp 音声合成装置および音声合成方法
US9075774B2 (en) * 2010-05-20 2015-07-07 Nec Corporation Perplexity calculation device

Also Published As

Publication number Publication date
JP2014232145A (ja) 2014-12-11

Similar Documents

Publication Publication Date Title
AU2019347734B2 (en) Conversational agent pipeline trained on synthetic data
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US10936664B2 (en) Dialogue system and computer program therefor
CN106469552B (zh) 语音识别设备和方法
KR102209689B1 (ko) 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
JP4762103B2 (ja) 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
EP2329489A1 (en) Stochastic phoneme and accent generation using accent class
CN112825249A (zh) 语音处理方法和设备
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
CN113674733A (zh) 用于说话时间估计的方法和设备
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP2007241881A (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP7235136B2 (ja) ポーズ推定モデル学習装置、ポーズ推定装置、それらの方法、およびプログラム
WO2020162239A1 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
JP2014102345A (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
JPWO2018066083A1 (ja) 学習プログラム、情報処理装置および学習方法
JP2022067223A (ja) 生成装置および生成方法
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP2020140674A (ja) 回答選択装置及びプログラム
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP2014215396A (ja) 発音付与方法とその装置とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170123

R150 Certificate of patent or registration of utility model

Ref document number: 6082657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150