JP2004198456A - 音響モデル学習装置 - Google Patents
音響モデル学習装置 Download PDFInfo
- Publication number
- JP2004198456A JP2004198456A JP2002363376A JP2002363376A JP2004198456A JP 2004198456 A JP2004198456 A JP 2004198456A JP 2002363376 A JP2002363376 A JP 2002363376A JP 2002363376 A JP2002363376 A JP 2002363376A JP 2004198456 A JP2004198456 A JP 2004198456A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- acoustic model
- learning
- unit
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】実発声データを用いなくとも、様々な声質で様々な内容を発声したのと同等の学習データを用いての学習を可能とする音響モデル学習装置を提供する。
【解決手段】音声を所定の単位毎に音響特徴量の統計値としてモデル化した第1音響モデル31を基に、その統計値を所定の手続によって変換する際の変化量を定めた合成パラメータメモリ20から受け取った合成パラメータと第1音響モデル31で想定する単位を表すシンボル系列を生成する単位系列生成器40から受け取ったシンボル系列を用いて、音響特徴量列を合成し、合成した音響特徴量列を用いて特徴量学習器50において、第2音響モデル32の学習を行う。
【選択図】 図1
【解決手段】音声を所定の単位毎に音響特徴量の統計値としてモデル化した第1音響モデル31を基に、その統計値を所定の手続によって変換する際の変化量を定めた合成パラメータメモリ20から受け取った合成パラメータと第1音響モデル31で想定する単位を表すシンボル系列を生成する単位系列生成器40から受け取ったシンボル系列を用いて、音響特徴量列を合成し、合成した音響特徴量列を用いて特徴量学習器50において、第2音響モデル32の学習を行う。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識において、特に、音声の特徴量を統計値として表現した音響モデルについて、音響モデルを学習する音響モデル学習装置に関するものである。
【0002】
【従来の技術】
従来、音声を学習する装置において、単語文または文節である複数の発声内容を、複数の話者の音声波形信号に基づいて選択的に音声合成する手段と、音声合成された話者の音声信号を用いて音響モデルを学習する学習器とを用いることで、発声データを用いずに音響モデルを学習する音声認識装置の学習装置が公知である(特許文献1)。
【0003】
【特許文献1】
特開2001−134284号公報
【0004】
【発明が解決しようとする課題】
しかしながら、従来技術においては、次のような問題点があった。
1.合成のために複数の話者の音声波形信号を格納しなければならないため、合成品質の高い合成音声を得るためには大容量の記憶装置が必要となる。
2.収録された音声波形信号を基にしているため、性質の異なる音声を学習データとして用いることができない。例えば、男性の声を基にして女性用の音響モデルを学習できない。
本発明は上記課題を解決するものであって、少量のメモリ量で大量の学習データを得ることができ、また様々な声質の音声に相当する学習データを学習することができる音響モデル学習装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
本願の請求項1に記載の音響モデル学習装置は、音声を所定の単位毎に音響特徴量の統計値としてモデル化した第1の音響モデルと、前記統計値を変換するための変化量を定める合成パラメータと、前記第1の音響モデルにおける所定の単位をあらわすシンボルの系列とを用いて特徴量列を合成する特徴量合成手段と、前記合成した特徴量列を用いて学習を行い第2の音響モデルを生成する学習手段とを有することを特徴とする。
【0006】
【発明の作用及び効果】
本発明の音響モデル学習装置は、模擬音声である擬似学習データを自動生成する特徴量合成手段を有している。特徴量合成手段には様々な声質を生成するために基準となる音声を変換するための合成パラメータが与えられる。また、言語的に様々な発声内容を網羅するためにテキスト列に相当するシンボルの系列をパラメータとして与える。これにより本発明の音響モデル学習装置は、様々な声質で様々な内容を発声したのと同等の学習データを用いて学習が可能となる。
また、本発明によれば実発声データを用いずとも大量の学習データを用いたのと同等の効果を得ることができる。
【0007】
【発明の実施の形態】
以下に図面を参照して本発明の実施の形態を説明する。
(実施の形態)
図1は本発明の実施の形態の音響モデル学習装置の構成を示すブロック図である。本実施の形態の音響モデル学習装置は、特徴量合成器10とそれに接続された合成パラメータメモリ20、第1音響モデル31、単位系列生成器40及び特徴量学習器50と第2音響モデル32とからなる。ここで、音響モデルとは、音響特徴量(例えば音韻的特徴パラメータ等)を統計的に表現したモデルであり、用途によって「音素」「音節」「単語」等の単位でモデル化されているものである。本実施の形態では音素単位にモデル化されているものとする。
【0008】
本実施の形態においては、文献1(沢辺敦他、”HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用”、電子情報通信学会技術研究報告、SP2001-72、p.65-72、Sept.2001)に記載されている固有声手法による音響特徴量合成を利用する。この合成手法は文献2(徳田恵一他、”動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム”、日本音響学会誌、vol.53、no.3、1997)に記載の音声合成手法を応用したもので、合成に用いる音響特徴量に主成分分析を施すことによって得られる固有ベクトルに、重み係数を乗じて得られるベクトルと平均ベクトルとの和を計算することによって様々な特徴の音声をパラメトリック合成できる手法である。具体的には、重み係数を変化させることによって声質を変化させることができる。文献1の実験結果によると第一主成分の重みを変化させることにより男性的な小声から女性的な大声へと連続的に声質を変化させることができる。
【0009】
図2に特徴量合成器の処理の流れをフローチャートで示す。はじめに音響特徴量合成のための第1音響モデル31(初期音響モデル)を読み込む(S10)。次に第1音響モデルを変換するための合成パラメータを合成パラメータメモリ20から読み込む(S20)。ここでは、文献1に記載されている実験のように第一主成分と第二主成分の重みを−30〜30の範囲で制御するようにその最大値30、最小値−30と増分値1を読み込む。次に、第一主成分における重みの最小値を変数w1に格納し(S30)、第二主成分における重みの最小値をw2に格納する(S40)。
【0010】
次に、単位系列生成器40に対してシンボル系列(単位系列)を送信するようにリクエストを送信し、単位系列生成器40からシンボル系列を受け取る(S50)。次に、読み取った第1音響モデル、w1及びw2、そして受け取ったシンボル系列にしたがって特徴量列を合成する(S60)。ここでの合成方法は文献1に示されるアルゴリズムを用いる。
【0011】
次に、w2に所定の増分値w2stepを加算する(S70)。w2が与えられた値域で全ての値をとりうるまで処理を繰り返す(S80)。w2が与えられた最大値を超えた場合には、w1に所定の増分値w1stepを加算し(S90)、再びS40〜S80の処理を繰り返す。w1が与えられた地域で全ての値を取りうるまで処理を繰り返す(S110)。例えば、w1min=w2min=−30、w1max=w2max=30、w1step=w2step=1の場合、61×61=3721種類の声質の特徴量列を合成することができる。
【0012】
次に、本実施の形態に係る単位系列生成器40の処理のフローチャートを図3に示す。本実施の形態の単位系列生成器40では、実行の前にあらかじめ第1音響モデル31の音韻基本単位に従って合成内容の書き下し文が用意されている。例えば、「音素」を単位としたとき、「サクラサク」という文のシンボル系列を生成するには、/sakurasaku/という書き下し文を収めたファイルが第1音響モデル31に用意されている。
【0013】
単位系列生成器40は、はじめにファイルから書き下し文を全て読み込む(S51)。次にカウンタiの値を1に初期化する(S52)。特徴量合成器10からのシンボル系列の送信リクエストを待ち(S53)、リクエストを受け取るとi番目の書き下し文を特徴量合成器10へ送信する(S54)。そして、カウンタiに1を加算し(S55)、再びS53で特徴量合成器10からのシンボル系列の送信リクエストを待つ。読み込んだ全ての書き下し文を送信した場合には(S56)、カウンタiを1にリセットして(S57)、特徴量合成器10からのシンボル系列の送信リクエストを待ち、S53〜S55の処理を繰り返す。
【0014】
特徴量学習器50は、特徴量合成器10から合成した特徴量とそれに対応するシンボル系列の情報を受け取り、音響モデルを学習し、第2音響モデル32として出力する。ここで、特徴量学習器50での処理は一般によく知られている反復法により最適解を求めるEMアルゴリズム(例えば、文献3「Lawrence Rabinerand Biing-Hwang Juang, "Fundamentals of speech recognition", Prientice Hall」を参照)によって実現される。
尚、本発明の音響モデル学習装置は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
【図面の簡単な説明】
【図1】本発明の実施の形態の構成を示すブロック図。
【図2】本発明の実施の形態の特徴量合成器の処理を示すフローチャート。
【図3】本発明の実施の形態の単位系列生成器の処理を示すフローチャート。
【発明の属する技術分野】
本発明は、音声認識において、特に、音声の特徴量を統計値として表現した音響モデルについて、音響モデルを学習する音響モデル学習装置に関するものである。
【0002】
【従来の技術】
従来、音声を学習する装置において、単語文または文節である複数の発声内容を、複数の話者の音声波形信号に基づいて選択的に音声合成する手段と、音声合成された話者の音声信号を用いて音響モデルを学習する学習器とを用いることで、発声データを用いずに音響モデルを学習する音声認識装置の学習装置が公知である(特許文献1)。
【0003】
【特許文献1】
特開2001−134284号公報
【0004】
【発明が解決しようとする課題】
しかしながら、従来技術においては、次のような問題点があった。
1.合成のために複数の話者の音声波形信号を格納しなければならないため、合成品質の高い合成音声を得るためには大容量の記憶装置が必要となる。
2.収録された音声波形信号を基にしているため、性質の異なる音声を学習データとして用いることができない。例えば、男性の声を基にして女性用の音響モデルを学習できない。
本発明は上記課題を解決するものであって、少量のメモリ量で大量の学習データを得ることができ、また様々な声質の音声に相当する学習データを学習することができる音響モデル学習装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
本願の請求項1に記載の音響モデル学習装置は、音声を所定の単位毎に音響特徴量の統計値としてモデル化した第1の音響モデルと、前記統計値を変換するための変化量を定める合成パラメータと、前記第1の音響モデルにおける所定の単位をあらわすシンボルの系列とを用いて特徴量列を合成する特徴量合成手段と、前記合成した特徴量列を用いて学習を行い第2の音響モデルを生成する学習手段とを有することを特徴とする。
【0006】
【発明の作用及び効果】
本発明の音響モデル学習装置は、模擬音声である擬似学習データを自動生成する特徴量合成手段を有している。特徴量合成手段には様々な声質を生成するために基準となる音声を変換するための合成パラメータが与えられる。また、言語的に様々な発声内容を網羅するためにテキスト列に相当するシンボルの系列をパラメータとして与える。これにより本発明の音響モデル学習装置は、様々な声質で様々な内容を発声したのと同等の学習データを用いて学習が可能となる。
また、本発明によれば実発声データを用いずとも大量の学習データを用いたのと同等の効果を得ることができる。
【0007】
【発明の実施の形態】
以下に図面を参照して本発明の実施の形態を説明する。
(実施の形態)
図1は本発明の実施の形態の音響モデル学習装置の構成を示すブロック図である。本実施の形態の音響モデル学習装置は、特徴量合成器10とそれに接続された合成パラメータメモリ20、第1音響モデル31、単位系列生成器40及び特徴量学習器50と第2音響モデル32とからなる。ここで、音響モデルとは、音響特徴量(例えば音韻的特徴パラメータ等)を統計的に表現したモデルであり、用途によって「音素」「音節」「単語」等の単位でモデル化されているものである。本実施の形態では音素単位にモデル化されているものとする。
【0008】
本実施の形態においては、文献1(沢辺敦他、”HMM音声合成におけるスペクトル・ピッチへの固有声手法の適用”、電子情報通信学会技術研究報告、SP2001-72、p.65-72、Sept.2001)に記載されている固有声手法による音響特徴量合成を利用する。この合成手法は文献2(徳田恵一他、”動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム”、日本音響学会誌、vol.53、no.3、1997)に記載の音声合成手法を応用したもので、合成に用いる音響特徴量に主成分分析を施すことによって得られる固有ベクトルに、重み係数を乗じて得られるベクトルと平均ベクトルとの和を計算することによって様々な特徴の音声をパラメトリック合成できる手法である。具体的には、重み係数を変化させることによって声質を変化させることができる。文献1の実験結果によると第一主成分の重みを変化させることにより男性的な小声から女性的な大声へと連続的に声質を変化させることができる。
【0009】
図2に特徴量合成器の処理の流れをフローチャートで示す。はじめに音響特徴量合成のための第1音響モデル31(初期音響モデル)を読み込む(S10)。次に第1音響モデルを変換するための合成パラメータを合成パラメータメモリ20から読み込む(S20)。ここでは、文献1に記載されている実験のように第一主成分と第二主成分の重みを−30〜30の範囲で制御するようにその最大値30、最小値−30と増分値1を読み込む。次に、第一主成分における重みの最小値を変数w1に格納し(S30)、第二主成分における重みの最小値をw2に格納する(S40)。
【0010】
次に、単位系列生成器40に対してシンボル系列(単位系列)を送信するようにリクエストを送信し、単位系列生成器40からシンボル系列を受け取る(S50)。次に、読み取った第1音響モデル、w1及びw2、そして受け取ったシンボル系列にしたがって特徴量列を合成する(S60)。ここでの合成方法は文献1に示されるアルゴリズムを用いる。
【0011】
次に、w2に所定の増分値w2stepを加算する(S70)。w2が与えられた値域で全ての値をとりうるまで処理を繰り返す(S80)。w2が与えられた最大値を超えた場合には、w1に所定の増分値w1stepを加算し(S90)、再びS40〜S80の処理を繰り返す。w1が与えられた地域で全ての値を取りうるまで処理を繰り返す(S110)。例えば、w1min=w2min=−30、w1max=w2max=30、w1step=w2step=1の場合、61×61=3721種類の声質の特徴量列を合成することができる。
【0012】
次に、本実施の形態に係る単位系列生成器40の処理のフローチャートを図3に示す。本実施の形態の単位系列生成器40では、実行の前にあらかじめ第1音響モデル31の音韻基本単位に従って合成内容の書き下し文が用意されている。例えば、「音素」を単位としたとき、「サクラサク」という文のシンボル系列を生成するには、/sakurasaku/という書き下し文を収めたファイルが第1音響モデル31に用意されている。
【0013】
単位系列生成器40は、はじめにファイルから書き下し文を全て読み込む(S51)。次にカウンタiの値を1に初期化する(S52)。特徴量合成器10からのシンボル系列の送信リクエストを待ち(S53)、リクエストを受け取るとi番目の書き下し文を特徴量合成器10へ送信する(S54)。そして、カウンタiに1を加算し(S55)、再びS53で特徴量合成器10からのシンボル系列の送信リクエストを待つ。読み込んだ全ての書き下し文を送信した場合には(S56)、カウンタiを1にリセットして(S57)、特徴量合成器10からのシンボル系列の送信リクエストを待ち、S53〜S55の処理を繰り返す。
【0014】
特徴量学習器50は、特徴量合成器10から合成した特徴量とそれに対応するシンボル系列の情報を受け取り、音響モデルを学習し、第2音響モデル32として出力する。ここで、特徴量学習器50での処理は一般によく知られている反復法により最適解を求めるEMアルゴリズム(例えば、文献3「Lawrence Rabinerand Biing-Hwang Juang, "Fundamentals of speech recognition", Prientice Hall」を参照)によって実現される。
尚、本発明の音響モデル学習装置は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
【図面の簡単な説明】
【図1】本発明の実施の形態の構成を示すブロック図。
【図2】本発明の実施の形態の特徴量合成器の処理を示すフローチャート。
【図3】本発明の実施の形態の単位系列生成器の処理を示すフローチャート。
Claims (1)
- 音声認識に用いる音響モデルを学習するための音響モデル学習装置であって、
音声を所定の単位毎に音響特徴量の統計値としてモデル化した第1の音響モデルと、
前記統計値を変換するための変化量を定める合成パラメータと、
前記第1の音響モデルにおける所定の単位をあらわすシンボルの系列と
を用いて特徴量列を合成する特徴量合成手段と、
前記合成した特徴量列を用いて学習を行い第2の音響モデルを生成する学習手段と
を有することを特徴とする音響モデル学習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002363376A JP2004198456A (ja) | 2002-12-16 | 2002-12-16 | 音響モデル学習装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002363376A JP2004198456A (ja) | 2002-12-16 | 2002-12-16 | 音響モデル学習装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004198456A true JP2004198456A (ja) | 2004-07-15 |
Family
ID=32761534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002363376A Pending JP2004198456A (ja) | 2002-12-16 | 2002-12-16 | 音響モデル学習装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004198456A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058696A (ja) * | 2006-08-31 | 2008-03-13 | Nara Institute Of Science & Technology | 声質変換モデル生成装置及び声質変換システム |
KR100912339B1 (ko) * | 2007-05-10 | 2009-08-14 | 주식회사 케이티 | 음성 변이를 이용한 소수 화자 음성 데이터 훈련 장치 및그 방법 |
WO2013182085A1 (zh) * | 2012-10-12 | 2013-12-12 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
CN110379411A (zh) * | 2018-04-11 | 2019-10-25 | 阿里巴巴集团控股有限公司 | 针对目标说话人的语音合成方法和装置 |
-
2002
- 2002-12-16 JP JP2002363376A patent/JP2004198456A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058696A (ja) * | 2006-08-31 | 2008-03-13 | Nara Institute Of Science & Technology | 声質変換モデル生成装置及び声質変換システム |
KR100912339B1 (ko) * | 2007-05-10 | 2009-08-14 | 주식회사 케이티 | 음성 변이를 이용한 소수 화자 음성 데이터 훈련 장치 및그 방법 |
WO2013182085A1 (zh) * | 2012-10-12 | 2013-12-12 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
CN103730117A (zh) * | 2012-10-12 | 2014-04-16 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
US9552813B2 (en) | 2012-10-12 | 2017-01-24 | Zte Corporation | Self-adaptive intelligent voice device and method |
CN110379411A (zh) * | 2018-04-11 | 2019-10-25 | 阿里巴巴集团控股有限公司 | 针对目标说话人的语音合成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
US7277856B2 (en) | System and method for speech synthesis using a smoothing filter | |
Huang et al. | Whistler: A trainable text-to-speech system | |
Huang et al. | Recent improvements on Microsoft's trainable text-to-speech system-Whistler | |
US20050203745A1 (en) | Stochastic modeling of spectral adjustment for high quality pitch modification | |
CN108831437A (zh) | 一种歌声生成方法、装置、终端和存储介质 | |
CN102543081B (zh) | 可调控式韵律重估测系统与方法及计算机程序产品 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
CN101471071A (zh) | 一种基于混合隐马尔可夫模型的语音合成系统 | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
US7162417B2 (en) | Speech synthesizing method and apparatus for altering amplitudes of voiced and invoiced portions | |
US20050267739A1 (en) | Neuroevolution based artificial bandwidth expansion of telephone band speech | |
Amrouche et al. | Arabic speech synthesis system based on HMM | |
TWI503813B (zh) | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 | |
CN116229932A (zh) | 一种基于跨域一致性损失的语音克隆方法及系统 | |
CN113436600B (zh) | 一种语音合成方法及装置 | |
CN105474307A (zh) | 定量的f0轮廓生成装置及方法、以及用于生成f0轮廓的模型学习装置及方法 | |
CN111837184A (zh) | 声音处理方法、声音处理装置及程序 | |
US6813604B1 (en) | Methods and apparatus for speaker specific durational adaptation | |
JP2004198456A (ja) | 音響モデル学習装置 | |
CN112037757A (zh) | 一种歌声合成方法、设备及计算机可读存储介质 | |
RU61924U1 (ru) | Статистическая модель речи | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP2009122381A (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080819 |