JP6420198B2 - 閾値推定装置、音声合成装置、その方法及びプログラム - Google Patents
閾値推定装置、音声合成装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP6420198B2 JP6420198B2 JP2015088375A JP2015088375A JP6420198B2 JP 6420198 B2 JP6420198 B2 JP 6420198B2 JP 2015088375 A JP2015088375 A JP 2015088375A JP 2015088375 A JP2015088375 A JP 2015088375A JP 6420198 B2 JP6420198 B2 JP 6420198B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- learning
- speech
- target
- variance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
対象スペクトルパラメータを補正する際に、対象スペクトルパラメータと学習用スペクトルパラメータの分散のみを考慮するのではなく、音声合成用HMM(Hidden Markov Model)を学習する際に、対象スペクトルパラメータを補正する際の補正倍率(σm org/σm)の上限(閾値)を推定し、対象スペクトルパラメータを補正する際にその閾値を使用する。
第一実施形態に係る音声合成システムは、学習部100と音声合成部200とから構成される。
まず、学習用音声データと発話情報について説明する。学習用音声データは、音声合成用音声モデルの学習に使用する音声データであり、予め収録しておく。発話情報は、学習用音声データの発話情報である。
図2は学習部100の機能ブロック図を、図3はその処理フローを示す。
モデル学習部110は、学習用音声データを受け取り、学習用音声データを用いて音声合成用HMMを学習し(S110)、音声合成用HMMのパラメータセットλを出力する。
分散計算部120は、学習用スペクトルパラメータcm org(p,n)を受け取り、各次元mの分散である学習分散σm orgを計算し(S120)、出力する。
音声パラメータ生成部130は、音声合成用HMMのパラメータセットλと発話情報とを受け取り、音声合成用HMMを用いて、学習用音声データの音素列と同じ音素列を持つ音声データに対応するスペクトルパラメータである第一スペクトルパラメータcm (1)(p,n)を生成し(S130)、出力する。スペクトルパラメータの生成方法は、既存の方法、例えば非特許文献1の方法を用いればよい。
閾値推定部140は、学習用スペクトルパラメータcm org(p,n)と第一スペクトルパラメータcm (1)(p,n)と学習分散σm orgとを受け取り、これらの値を用いて、Variance Scaling法による音声合成時に用いる補正倍率に対する、各次元mの閾値αmを推定し(S140)、出力する。
DPマッチング部141は、学習用スペクトルパラメータcm org(p,n)及び第一スペクトルパラメータcm (1)(p,n)を受け取り、DPマッチングを用いて、各文章pの学習用スペクトルパラメータcm org(p,n)及び第一スペクトルパラメータcm (1)(p,n)の時間情報を揃えたマッチング済学習用スペクトルパラメータc'm org(p,n)及びマッチング済第一スペクトルパラメータc"m (1)(p,n)を求め(S141)、出力する。
第一平均及び分散計算部142は、マッチング済第一スペクトルパラメータc"m (1)(p,n)を受け取り、文章p毎のマッチング済第一スペクトルパラメータc"m (1)(p,n)の平均μm (1)(p)及び分散σm (1)(p)を計算し(S142)、出力する。なお、分散σm (1)(p)のことを第一分散σm (1)(p)ともいう。
第一パラメータ補正部143は、マッチング済第一スペクトルパラメータc"m (1)(p,n)と学習分散σm orgと第一分散σm (1)(p)と平均μm (1)(p)とを受け取り、学習分散σm orgと第一分散σm (1)(p)と用いて文章p毎の補正倍率(σm org/σm (1)(p))を求め、補正倍率(σm org/σm (1)(p))と平均μm (1)(p)とを用いて、マッチング済第一スペクトルパラメータc"m (1)(p,n)を補正し(S143)、補正済第一スペクトルパラメータc'm (1)(p,n)を得、補正倍率(σm org/σm (1)(p))とともに出力する。なお、スペクトルパラメータの補正方法は、既存の方法、例えば非特許文献2の方法を用いればよい。例えば、次式により、補正する。
判定部144は、マッチング済学習用スペクトルパラメータc'm org(p,n)、補正済第一スペクトルパラメータc'm (1)(p,n)及び補正倍率(σm org/σm (1)(p))を受け取り、各文章pに対するマッチング済学習用スペクトルパラメータc'm org(p,n)及びマッチング済第一スペクトルパラメータc'm (1)(p,n)とを比較して、各文章pに異音が存在するか否かを判定し(S144)、異音が存在する文章sに対応する補正倍率(σm org/σm (1)(s))を出力する。ただし、sは異音が存在する文章を示すインデックスである。
maxorg pm < max(1) pm
minorg pm > min(1) pm
一般的に、異音が生じる音声は補正済第一スペクトルパラメータc'm (1)(p,n)がマッチング済学習用スペクトルパラメータc'm org(p,n)では存在しない数値になっていると考えられる。そのため、各文章p、各次元mのマッチング済学習用スペクトルパラメータc'm org(p,n)の最大値、最小値の範囲を異音が発生しない範囲として、補正済第一スペクトルパラメータc'm (1)(p,n)がその範囲に収まっているかどうかで、異音が存在するか否かを判定する。
閾値決定部145は、異音が存在すると判定された文章sに対応する補正倍率(σm org/σm (1)(s))を受け取り、次元m毎に、受け取った補正倍率(σm org/σm (1)(s))の中で最も小さいものを閾値αmとし(S145)、出力する。
図6は音声合成部200の機能ブロック図を、図7はその処理フローを示す。
テキスト解析部210は、対象テキストを受け取り、テキスト解析を行い(S210)、少なくとも対象テキストに対応する音素列を取得し、出力する。なお、テキスト解析方法は既存の方法を用いればよい。例えば、テキスト解析の結果、アクセント、品詞等の情報を一緒に取得してもよい。
対象音声パラメータ生成部220は、音声合成前に、学習部100で求めたパラメータセットλを受け取り、学習後の音声合成用HMMを用意する。対象音声パラメータ生成部220は、対象テキストに対応する音素列を受け取り、音声合成用HMMとを用いて、音素列に対応するスペクトルパラメータである対象スペクトルパラメータcm ta(n)を生成し(S220)、出力する。スペクトルパラメータの生成方法は、音声パラメータ生成部130と同様の方法を用いればよい。
第二平均及び分散計算部230は、対象スペクトルパラメータcm ta(n)を受け取り、対象スペクトルパラメータcm ta(n)の平均である対象平均μm taと分散である対象分散σm taを計算し(S230)、出力する。
第二パラメータ補正部240は、音声合成前に、学習部100で求めた学習分散σm orgと閾値とαmを音声合成前に受け取る。第二パラメータ補正部240は、対象スペクトルパラメータcm ta(n)と対象平均μm taと対象分散σm taとを受け取り、これらの値を用いて、対象スペクトルパラメータcm ta(n)を補正し、補正済対象スペクトルパラメータc'm ta(n)を得(S240)、出力する。
音声波形生成部250は、補正済対象スペクトルパラメータc'm ta(n)を受け取り、この値を用いて、音声合成フィルタにより音声波形を生成し(S250)、合成音声として出力する。音声波形の生成方法は、既存の方法、例えば、参考文献1の方法を用いればよい。
(参考文献1)今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A, Vol.J66-A, No.2, pp.122-129, Feb. 1983.
参考文献1では、補正済対象スペクトルパラメータc'm ta(n)と合成対象の基本周波数とを用いて、音声合成フィルタ(MLSAフィルタ)により音声波形を生成する。
モデル学習時に対象スペクトルパラメータを補正する際の補正倍率(σm org/σm)の閾値を推定し、パラメータ補正時に用いることで、過剰に対象スペクトルパラメータを補正してしまうことを防ぎ、異音の発生を抑圧することができる。
学習部100と音声合成部200とは、一台の装置の中に実装されてもよいし、別々の装置の中に実装されてもよい。また、音声パラメータ生成部130と閾値推定部140とを含む閾値推定装置としてもよく、パラメータセットλと学習分散σm orgとを求める既存の学習装置(例えば、非特許文献2参照)と組合せて、本実施形態のように利用してもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- 音声合成用HMMは学習用音声データを用いて学習されるものとし、学習分散を学習用音声データから得られるスペクトルパラメータである学習用スペクトルパラメータの分散とし、
音声合成用HMMを用いて、学習用音声データの音素列と同じ音素列を持つ音声データに対応するスペクトルパラメータである第一スペクトルパラメータを生成する音声パラメータ生成部と、
学習用スペクトルパラメータ、学習分散及び前記第一スペクトルパラメータを用いて、音声合成時に用いる補正倍率に対する閾値を推定する閾値推定部とを含み、
前記閾値推定部は、
時間情報が揃えられた学習用スペクトルパラメータ及び第一スペクトルパラメータをマッチング済学習用スペクトルパラメータ及びマッチング済第一スペクトルパラメータとし、
マッチング済第一スペクトルパラメータの判定単位毎の平均及び第一分散を計算する第一平均及び分散計算部と、
前記学習分散と前記第一分散とを用いて補正倍率を求め、当該補正倍率と前記平均とを用いて、前記マッチング済第一スペクトルパラメータを補正し、補正済第一スペクトルパラメータを得るパラメータ補正部と、
各判定単位に対するマッチング済学習用スペクトルパラメータ及び補正済第一スペクトルパラメータとを比較して、各判定単位に異音が存在するか否かを判定する判定部と、
異音が存在する場合、異音が存在すると判定された判定単位に対応する補正倍率の中で最も小さいもの、または、異音が存在しないと判定された判定単位に対応する補正倍率の中で最も大きいものを前記閾値とする閾値決定部とを含む、
閾値推定装置。 - 請求項1の閾値推定装置であって、
前記判定部は、
各判定単位に対するマッチング済学習用スペクトルパラメータ及び補正済第一スペクトルパラメータの最大値及び最小値の少なくとも何れかを得、(1)前記マッチング済学習用スペクトルパラメータの最大値よりも前記補正済第一スペクトルパラメータの最大値が大きいとき、及び、(2)前記マッチング済学習用スペクトルパラメータの最小値よりも前記補正済第一スペクトルパラメータの最小値が小さいとき、の少なくとも何れかの条件を満たすときに異音が存在すると判定する、
閾値推定装置。 - 請求項1または請求項2の閾値推定装置で推定された前記閾値を用いる音声合成装置であって、
前記音声合成用HMMとを用いて、音声合成対象となる対象テキストに対してテキスト解析を行って得られる音素列に対応する対象スペクトルパラメータを生成する対象音声パラメータ生成部と、
前記対象スペクトルパラメータの平均である対象平均と分散である対象分散を計算する第二平均及び分散計算部と、
前記対象平均と前記対象分散と前記学習分散と前記閾値とを用いて、前記対象スペクトルパラメータを補正し、補正済対象スペクトルパラメータを得る第二パラメータ補正部と、
前記補正済対象スペクトルパラメータを用いて、音声合成フィルタにより音声波形を生成する音声波形生成部とを含む、
音声合成装置。 - 音声合成用HMMは学習用音声データを用いて学習されるものとし、学習分散を学習用音声データから得られるスペクトルパラメータである学習用スペクトルパラメータの分散とし、
音声合成用HMMを用いて、学習用音声データの音素列と同じ音素列を持つ音声データに対応するスペクトルパラメータである第一スペクトルパラメータを生成する音声パラメータ生成ステップと、
学習用スペクトルパラメータ、学習分散及び前記第一スペクトルパラメータを用いて、音声合成時に用いる補正倍率に対する閾値を推定する閾値推定ステップとを含み、
前記閾値推定ステップは、
時間情報が揃えられた学習用スペクトルパラメータ及び第一スペクトルパラメータをマッチング済学習用スペクトルパラメータ及びマッチング済第一スペクトルパラメータとし、
マッチング済第一スペクトルパラメータの判定単位毎の平均及び第一分散を計算する第一平均及び分散計算ステップと、
前記学習分散と前記第一分散とを用いて補正倍率を求め、当該補正倍率と前記平均とを用いて、前記マッチング済第一スペクトルパラメータを補正し、補正済第一スペクトルパラメータを得るパラメータ補正ステップと、
各判定単位に対するマッチング済学習用スペクトルパラメータ及び補正済第一スペクトルパラメータとを比較して、各判定単位に異音が存在するか否かを判定する判定ステップと、
異音が存在する場合、異音が存在すると判定された判定単位に対応する補正倍率の中で最も小さいもの、または、異音が存在しないと判定された判定単位に対応する補正倍率の中で最も大きいものを前記閾値とする閾値決定ステップとを含む、
閾値推定方法。 - 請求項5の閾値推定方法で推定された前記閾値を用いる音声合成方法であって、
前記音声合成用HMMとを用いて、音声合成対象となる対象テキストに対してテキスト解析を行って得られる音素列に対応する対象スペクトルパラメータを生成する対象音声パラメータ生成ステップと、
前記対象スペクトルパラメータの平均である対象平均と分散である対象分散を計算する第二平均及び分散計算ステップと、
前記対象平均と前記対象分散と前記学習分散と前記閾値とを用いて、前記対象スペクトルパラメータを補正し、補正済対象スペクトルパラメータを得るパラメータ補正ステップと、
前記補正済対象スペクトルパラメータを用いて、音声合成フィルタにより音声波形を生成する音声波形生成ステップとを含む、
音声合成方法。 - 請求項1若しくは請求項2の閾値推定装置、または、請求項3若しくは請求項4の音声合成装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015088375A JP6420198B2 (ja) | 2015-04-23 | 2015-04-23 | 閾値推定装置、音声合成装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015088375A JP6420198B2 (ja) | 2015-04-23 | 2015-04-23 | 閾値推定装置、音声合成装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016206442A JP2016206442A (ja) | 2016-12-08 |
JP6420198B2 true JP6420198B2 (ja) | 2018-11-07 |
Family
ID=57489585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015088375A Active JP6420198B2 (ja) | 2015-04-23 | 2015-04-23 | 閾値推定装置、音声合成装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6420198B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7081214B2 (ja) * | 2018-03-02 | 2022-06-07 | 東洋インキScホールディングス株式会社 | 接着剤硬化物、加飾シート及び加飾成形体 |
CN109817196B (zh) * | 2019-01-11 | 2021-06-08 | 安克创新科技股份有限公司 | 一种噪音消除方法、装置、系统、设备及存储介质 |
JP7385381B2 (ja) * | 2019-06-21 | 2023-11-22 | 株式会社日立製作所 | 異常音検知システム、擬似音生成システム、および擬似音生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4455610B2 (ja) * | 2007-03-28 | 2010-04-21 | 株式会社東芝 | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 |
JP5346897B2 (ja) * | 2010-09-14 | 2013-11-20 | 京セラドキュメントソリューションズ株式会社 | 現像剤セット |
-
2015
- 2015-04-23 JP JP2015088375A patent/JP6420198B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016206442A (ja) | 2016-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP5242782B2 (ja) | 音声認識方法 | |
JP2011180596A (ja) | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 | |
WO2018159402A1 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JP5150542B2 (ja) | パターン認識装置、パターン認識方法、及び、プログラム | |
JP2007279349A (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
GB2546981B (en) | Noise compensation in speaker-adaptive systems | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP2007279444A (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
JP6420198B2 (ja) | 閾値推定装置、音声合成装置、その方法及びプログラム | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
CN113053356A (zh) | 语音波形生成方法、装置、服务器及存储介质 | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
JPWO2013132959A1 (ja) | 雑音抑制方法、プログラム及び装置 | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
JP2008064849A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
CN108288464B (zh) | 一种修正合成音中错误声调的方法 | |
JP4809913B2 (ja) | 音素分割装置、方法及びプログラム | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180501 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181009 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181011 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6420198 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |