JP4909318B2 - 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 - Google Patents
音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 Download PDFInfo
- Publication number
- JP4909318B2 JP4909318B2 JP2008156458A JP2008156458A JP4909318B2 JP 4909318 B2 JP4909318 B2 JP 4909318B2 JP 2008156458 A JP2008156458 A JP 2008156458A JP 2008156458 A JP2008156458 A JP 2008156458A JP 4909318 B2 JP4909318 B2 JP 4909318B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- model
- integration
- acoustic model
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
前記第2音素モデル遷移確率と前記第2音素モデル混合分布とから求まる第2音響モデルと前記第1音響モデルとをまとめて前記目的音響モデルとして出力する。
第1音素モデル→高詳細度音素モデル
第1音素 →高詳細度音素
第2音響モデル→中詳細度音響モデル、低詳細度音響モデル
第2音素モデル→中詳細度音素モデル、低詳細度音素モデル
第2音素 →中詳細度音素、低詳細度音素
ただし、f()は混合分布の統合を行う関数であり、μは平均ベクトル、Uは分散ベクトル、cは重みベクトルを示す。以下に一例として、「*−a+*」の低詳細度モデルについての第1状態S1の混合分布を求める式を示す。この場合は、
F*−a+*、1(N(μ、U)、c)=
f(Fa−a+a、1(N(μ、U)、c)、Fa−a+i、1(N(μ、U)、c)、
f(Fa−a+u、1(N(μ、U)、c)、...、f(Fa−a+n、1(N(μ、U)、c)、...)
ここで、N()は正規分布を示す。
c1(k−a+u[1])(以下、c1と示す。)
c2(k−a+u[1])(以下、c2と示す。)
c3(k−a+u[1])(以下、c3と示す。)とする。
[1]は混合分布の状態1であることを示す。
c1(k−a+e[1])(以下、c4と示す。)
c2(k−a+e[1])(以下、c5と示す。)
c3(k−a+e[1])(以下、c6と示す。)とする。
c1’=c1・w(0)/{w(0)+w(1)}
c2’=c2・w(0)/{w(0)+w(1)}
c3’=c3・w(0)/{w(0)+w(1)}
c4’=c4・w(1)/{w(0)+w(1)}
c5’=c5・w(1)/{w(0)+w(1)}
c6’=c6・w(1)/{w(0)+w(1)}
/全音素の継続長の総和 (5)
w(0)=音素列(k−a+u)の継続長/全音素の継続長の総和 (6)
/全音素の出現頻度の総和 (7)
w(k−a+u)={w(*−k+*)+w(*−u+*)}/2
となる。
つまり、この場合は、「音素モデルの音素列の左右両端に位置しない音素」とは、「a」であり、左側または右側の少なくとも一方に位置する音素「k」のそれぞれを環境独立音素とした場合、つまり、(*−k+*)の継続長またはこれの平均、出現頻度またはこれの平均、学習時フレーム数の期待値またはこれの平均、を用いて求めれば良い。
この場合には、音素モデルの音素列の左右両端に位置しない音素とは「o」となり、音素「o」の左側または右側の少なくとも一方に位置する音素列とは、「a−s」および「b−u」となり、それぞれを独立環境音素とすると、(*−a+*)、(*−s+*)、(*−o+*)、(*−b+*)、(*−u+*)となり、これら独立環境音素の継続長またはこれの平均、出現頻度またはこれの平均、学習時フレーム数の期待値またはこれの平均からw(*−a+*)、w(*−s+*)、w(*−o+*)、w(*−b+*)、w(*−u+*)をそれぞれ求めればよい。
そして音素を用いて表すと以下の音素列で表すことができる。
(9)の音素列の例から明らかなように、単語の最後の音素(単語境界「/」の左側の音素)は母音(「a」や「i」などの音素)、母音以外に撥音「ん」、側音「っ」等になる場合が多く、子音(「k」や「s」などの音素)になる場合はほとんどない。従って、中詳細度音素である右側依存音素(上記(9)に示した音素列の例では、X−h+a、X−t+o、X−o+o、X−m+a)において左側の音素Xに子音が位置することはほとんどないということが言える。よって、生成対象の第2音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデル(つまり、音声認識において、あまり使用しない音素モデル)を含ませずに第2音素モデルを求め、更に全ての音素についての第2音素モデルから第2音響モデルを求める。
次に、変形例を説明する。上述では、第2音素モデルに関して、中詳細度音素(biophone)モデルや低詳細度音素(monophone)モデルを想定して記述したが、低詳細度音素モデルの代わりに、音声GMM(Gaussian Mixture Model)を用いてもよい。ここで、音声GMMは、通常、1状態で表現されることが多く、無音以外の音声区間から学習して構築される場合が多く、音声/非音声判定などに用いられることがある。3状態で表される他の音素(biophone/monophone)モデルでは、状態位置を固定していた。一方、音声GMMでは、高詳細度音素モデルの全ての状態(上記の例では第1状態S1〜第3状態S3)の混合分布や(自己/状態間)遷移確率を元に、音声GMMの混合分布や遷移確率を求めることとする。また、音声GMMの構築の際には第1音素モデルを高詳細音素モデルではなく、低詳細度音素モデルを用いても良い。
本発明は上述の実施の形態に限定されるものではない。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本実施例の単語追加装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
Claims (20)
- 入力された第1音響モデルを用いて、当該第1音響モデルより詳細度が低い第2音響モデルを生成して、第1音響モデルと第2音響モデルとをまとめて目的音響モデルとして出力する音響モデル生成方法であって、
第2音響モデルが有する第2音素モデルについての第2音素を決定する決定過程と、
第1音響モデルから、第2音素と同一の音素環境に属する第1音素についての第1音素モデルを取得する取得過程と、
第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該第1音素モデルの数で除算することで、第2音素モデルの遷移確率(以下、「第2音素モデル遷移確率」という。)を求める計算過程と、
第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、第2音素モデルの混合分布(以下、「第2音素モデル混合分布」という。)を生成する統合過程と、
前記第2音素モデル遷移確率と前記第2音素モデル混合分布とから求まる第2音響モデルと前記第1音響モデルとをまとめて前記目的音響モデルとして出力する出力過程と、
を有し、
前記統合過程は、
I個(Iは整数)の混合分布のうち、統合重み係数wの統合元混合分布Aと、当該統合元混合分布A以外の統合重み係数w(i)の統合対象混合分布A(i)(ただし、i=1、...、I−1)のうち少なくとも1つとから、前記統合重み係数wと前記統合重み係数w(i)とを用いて、統合後の混合分布A’を生成する統合ステップと、
前記統合元混合分布Aの統合重み係数wよりも大きな値を、前記統合後の混合分布A’の統合重み係数w’として求める更新ステップとを有し、
前記統合後の混合分布A’を統合元混合分布Aとして、前記統合後の混合分布A’の統合重み係数w’を前記統合元混合分布Aの統合重み係数wとして、前記統合ステップと前記更新ステップとを、前記第2音素モデルの各状態毎に統合される前記第1音素モデルの全ての統合対象混合分布A(i)について行うことを特徴とする音響モデル作成方法。 - 請求項1記載の音響モデル作成方法において、
前記更新ステップは、前記統合元混合分布Aの統合重み係数wと前記統合対象混合分布A(i)の統合重み係数w(i)とを加算したものを前記統合後の混合分布A’の統合重み係数w’とすることを特徴とする音響モデル作成方法。 - 請求項1または2記載の音響モデル作成方法であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の継続長を、全音素の継続長の総和で除算した値であることを特徴とする音響モデル作成方法。 - 請求項1または2記載の音響モデル作成方法であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の出現頻度を、全音素の出現頻度の総和で除算した値であることを特徴とする音響モデル作成方法。 - 請求項1または2記載の音響モデル作成方法であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の第1音響モデル学習時のフレーム数の期待値を、全音素の第1音響モデル学習時のフレーム数の期待値の総和で除算した値であることを特徴とする音響モデル作成方法。 - 請求項1または2記載の音響モデル作成方法であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の継続長の平均であることを特徴とする音響モデル作成方法。 - 請求項1または2記載の音響モデル作成方法であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の出現頻度の平均であることを特徴とする音響モデル作成方法。 - 請求項1または2記載の音響モデル作成方法であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の第1音響モデル学習時のフレーム数の期待値の平均であることを特徴とする音響モデル作成方法。 - 請求項1〜8何れかに記載の音響モデル作成方法であって、
生成対象の第2音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデルを含ませずに第2音響モデルを求めることを特徴とする音響モデル作成方法。 - 入力された第1音響モデルを用いて、当該第1音響モデルより詳細度が低い第2音響モデルを生成して、第1音響モデルと第2音響モデルとをまとめて目的音響モデルとして出力する音響モデル生成装置であって、
第2音響モデルが有する第2音素モデルについての第2音素を決定する決定部と、
第1音響モデルから、第2音素と同一の音素環境に属する第1音素についての第1音素モデルを取得する取得部と、
第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての遷移確率の合計値を、当該第1音素モデルの数で除算することで、第2音素モデルの遷移確率(以下、「第2音素モデル遷移確率」という。)を求める遷移確率計算部と、
第2音素モデルの各状態毎に、前記第1音素モデルの当該状態と同一の状態の全ての混合分布を統合することで、第2音素モデルの混合分布(以下、「第2音素モデル混合分布」という。)を生成する混合分布生成部と、
前記第2音素モデル遷移確率と前記第2音素モデル混合分布とから求まる第2音響モデルと前記第1音響モデルとをまとめて前記目的音響モデルとして出力する出力部と、
を具備し、
前記混合分布生成部は、
I個(Iは整数)の混合分布のうち、統合重み係数wの統合元混合分布Aと、当該統合元混合分布A以外の統合重み係数w(i)の統合対象混合分布A(i)(ただし、i=1、...、I−1)のうち少なくとも1つとから、前記統合重み係数wと前記統合重み係数w(i)とを用いて、統合後の混合分布A’を生成する統合手段と、
前記統合元混合分布Aの統合重み係数wよりも大きな値を、前記統合後の混合分布A’の統合重み係数w’として求める更新手段とを有し、
前記統合後の混合分布A’を統合元混合分布Aとして、前記統合後の混合分布A’の統合重み係数w’を前記統合元混合分布Aの統合重み係数wとして、前記統合手段と前記更新手段とを、前記第2音素モデルの各状態毎に統合される前記第1音素モデルの全ての統合対象混合分布A(i)について行うことを特徴とする音響モデル作成装置。 - 請求項10記載の音響モデル作成装置であって、
前記更新手段は、前記統合元混合分布Aの統合重み係数wと前記統合対象混合分布A(i)の統合重み係数w(i)とを加算したものを前記統合後の混合分布A’の統合重み係数w’とすることを特徴とする音響モデル作成装置。 - 請求項10または11記載の音響モデル作成装置であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の継続長を、全音素の継続長の総和で除算した値であることを特徴とする音響モデル作成装置。 - 請求項10または11記載の音響モデル作成装置であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の出現頻度を、全音素の出現頻度の総和で除算した値であることを特徴とする音響モデル作成装置。 - 請求項10または11記載の音響モデル作成装置であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の第1音響モデル学習時のフレーム数の期待値を、全音素の第1音響モデル学習時のフレーム数の期待値の総和で除算した値であることを特徴とする音響モデル作成装置。 - 請求項10または11記載の音響モデル作成装置であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の継続長の平均であることを特徴とする音響モデル作成装置。 - 請求項10または11記載の音響モデル作成装置であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の出現頻度の平均であることを特徴とする音響モデル作成装置。 - 請求項10または11記載の音響モデル作成装置であって、
前記統合対象混合分布A(i)の統合重み係数w(i)は、当該混合分布を有する音素モデルの音素列の左右両端に位置しない音素の左側または右側の少なくとも一方に位置する音素列のそれぞれを環境独立音素とした場合の、当該環境独立音素の学習時のフレーム数の期待値の平均であることを特徴とする音響モデル作成装置。 - 請求項10〜17何れかに記載の音響モデル作成装置であって、
生成対象の第2音素モデルが右側依存音素である場合において、左側の音素が子音になる右側依存音素についての音素モデルを含ませずに第2音響モデルを求めることを特徴とする音響モデル作成装置。 - 請求項1〜9何れかに記載の音響モデル作成方法の各過程をコンピュータに実行させるためのプログラム。
- 請求項19に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008156458A JP4909318B2 (ja) | 2008-06-16 | 2008-06-16 | 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008156458A JP4909318B2 (ja) | 2008-06-16 | 2008-06-16 | 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009300830A JP2009300830A (ja) | 2009-12-24 |
JP4909318B2 true JP4909318B2 (ja) | 2012-04-04 |
Family
ID=41547778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008156458A Expired - Fee Related JP4909318B2 (ja) | 2008-06-16 | 2008-06-16 | 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4909318B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168703B (zh) * | 2023-04-24 | 2023-07-21 | 北京探境科技有限公司 | 一种语音识别方法、装置、系统、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3033322B2 (ja) * | 1992-02-14 | 2000-04-17 | 日本電気株式会社 | 連続音声認識方法 |
JPH10116091A (ja) * | 1996-10-14 | 1998-05-06 | Oki Electric Ind Co Ltd | 音素辞書作成方法及び音声認識装置 |
-
2008
- 2008-06-16 JP JP2008156458A patent/JP4909318B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009300830A (ja) | 2009-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP5242724B2 (ja) | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 | |
JP4455610B2 (ja) | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 | |
US8224648B2 (en) | Hybrid approach in voice conversion | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP6452591B2 (ja) | 合成音声品質評価装置、合成音声品質評価方法、プログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
EP3038103A1 (en) | Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern | |
JP4705557B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP2009128490A (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
US20220051655A1 (en) | Acoustic model learning device, voice synthesis device, and program | |
JP4909318B2 (ja) | 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
JP6006678B2 (ja) | 音声モデル生成装置、方法、プログラム | |
JP2010054588A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
WO2020166359A1 (ja) | 推定装置、推定方法、及びプログラム | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP5155811B2 (ja) | 音響モデル作成方法、その装置、プログラム、その記録媒体 | |
JP4801108B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP5155836B2 (ja) | 収録テキスト生成装置、その方法、そのプログラム | |
JP7093081B2 (ja) | 学習装置、推定装置、推定方法、およびプログラム | |
JP3926716B2 (ja) | 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100726 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4909318 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |