JPH1195795A

JPH1195795A - 音声品質評価方法および記録媒体

Info

Publication number: JPH1195795A
Application number: JP9250913A
Authority: JP
Inventors: Kiyoaki Aikawa; 清明相川; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-09-16
Filing date: 1997-09-16
Publication date: 1999-04-09

Abstract

(57)【要約】【課題】発声音声に対し、高いスコアを与え、誤った
発声音声に対して低いスコアを与え、信頼度を向上す
る。【解決手段】予め学習音声を用いて、その音素セグメ
ントと正解音素の確率モデルとの尤度値がどのように広
がりをもって分布するかの正解絶対対数尤度分布Ｐ^G _P1
（ｘ）と、各非正解音素確率モデルとの尤度値がどのよ
うに広がりをもって分布するかの非正解絶対対数尤度分
布Ｐ^N _P1P2（ｘ）とを予め求めておき、評価音声に対
し、セグメントに分解して正解音素系列を割当（Ｓ
１）、その各セグメントの正解音素Ｐ１のモデルの尤度
Ｓ^G _P1＝ｘを求め（Ｓ２）、そのｘを用いて予め求めて
Ｐ^G _P1（Ｘ）と各Ｐ^N _P1P2（ｘ）を求め、これらの各差
の合計値を累積的な絶対スコアＳＣ_P1（Ｘ）とする（Ｓ
３）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、コンピュータを
用いて発声された音声の品質評価を行う方法及び記録媒
体に関する。

【０００２】

【従来の技術】従来の音声品質評価方法として、スペク
トル距離尺度による方法がある（例えば、文献１，伊藤
憲三，北脇信彦，筧一彦，“音声のディジタル波形符号
化方式の客観的評価尺度の検討”，電子情報通信学会，
Ｖｏｌ．Ｊ６６−Ａ，Ｎｏ．３，ｐｐ．２７３（１９８
３））。例えば、ある通信系や符号化法を通した音声を
評価をする場合、入力端の原音声と出力端の音声のスペ
クトルを比較することにより、音声の品質を評価するこ
とができる。この方法においては、リファレンス（基
準）音声として、評価音声が歪む前の原音声が必要であ
る。したがって、外国語の発声訓練者の音声を評価する
ような場合には適用できない。語学の発声訓練で、リフ
ァレンス音声となるのは、母国語話者と同等の発声方法
を習得した語学訓練者本人の音声であり、訓練中はとう
てい得られない。任意の母国語話者の音声をリファレン
スとすることも考えられるが、音声には話者固有のスペ
クトルの特徴があるため、発声の未熟さに起因するスペ
クトルの特徴の差であるか、話者の違いによるスペクト
ルの特徴の差であるかを区別することができないので正
しい評価が行えないという問題がある。この問題を解決
するために、隠れマルコフモデル（ＨｉｄｄｅｎＭａ
ｒｋｏｖＭｏｄｅｌ：ＨＭＭ）のような確率モデルを
用いた音声品質評価方法がある。ＨＭＭは、多数の話者
の音声を用いて学習して得るため、様々な話者の特徴を
モデル内に含ませることができる。大量の学習データを
用意すれば、話者の違いによる影響を小さくでき、発声
方法の違いによる差のみを評価に反映することができ
る。例えば、ＨＭＭを用いた方法を、外国語の発声訓練
中の音声評価に適用するためには、多数の母国語話者の
音声を集め、これをもとにＨＭＭを作成する。これをリ
ファレンスとして、訓練者の音声と比較することにより
評価を行う。

【０００３】ＨＭＭの詳細は例えば文献２（中川聖一：
確率モデルによる音声認識，電子情報通信学会）に示さ
れている。図７Ａに、３状態の連続混合分布型ＨＭＭの
例を示す。この様なモデルを音声単位（音素，音節，単
語など）ごとに作成する。各状態Ｓ１からＳ３には、音
声特徴パラメータの統計的な分布Ｄ１からＤ３が付与さ
れる。例えば、これが音素モデルであるとすると、第１
状態は音素の始端付近、第２状態は中心付近、第３状態
は終端付近の特徴量の統計的な分布を表現する。

【０００４】各状態の特徴量分布Ｄ１〜Ｄ３は、複雑な
分布形状を表現するために、複数の連続確率分布（以
下、混合連続分布と記す）を用いて表現される場合が多
い。連続確率分布には、様々な分布が考えられるが、正
規分布が用いられることが多い。また、それぞれの正規
分布は、特徴量と同じ次元数の多次元無相関正規分布で
表現されることが多い。図７Ｂに、混合連続分布の例を
示す。この図における正規分布の個数はＮ１〜Ｎ３の３
つである。混合連続分布ＨＭＭの状態ｉの時刻ｔの入力
特徴量ベクトルｏｔ＝（ｏｔ１，ｔ２，…， oｔＰ )
（Ｐは総次元数）に対する出力確率ｂｉ（ｏｔ）は、ｂｉ（ｏｔ）＝Σ_m=1 ^Mｗｉｍ・φｉ，ｍ（ｏｔ）（１）のように計算される。ここで、ｗｉｍは状態ｉのｍ番目
の多次元正規分布に対する重み係数を表わす。多次元正
規分布ｍに対する確率密度は、

【０００５】

【数１】

【０００６】のように計算される。ここで、μｉｍは状
態ｉのｍ番目の多次元正規分布に対する平均値ベクト
ル、Σ_imは共分散行列を表わす。Ｔは行列の転置を表わ
す。各正規分布の共分散行列は対角成分のみであるとす
ると、φｉｍ（ｏｔ）の対数値は、

【０００７】

【数２】

【０００８】と表わせる。ここで、μｉｍｐは状態ｉの
ｍ番目の多次元正規分布の平均ベクトルの第ｐ次目の成
分を、σｉｍｐ²は、状態ｉのｍ番目の多次元正規分布
の共分散行列の第ｐ次目の対角成分（分散値）を表わ
す。従来の、ＨＭＭを用いた音声評価方法におけるスコ
アとしては、式（３）の対数尤度値が用いられた。ＨＭ
Ｍは、多数の話者の音声の特徴を確率分布として含んで
いるため、ある１人の話者の音声をリファレンスとする
方法よりも適切な評価が行える。しかし、式（３）で計
算される対数尤度値のみを用いる従来法では、正しく発
声された音声に対して、低い対数尤度値を示す場合があ
り、評価値として不適切であるという問題があった。

【０００９】

【発明が解決しようとする課題】この発明の目的は、確
率モデルを用いた音声品質評価方法において、母音子音
等が正しく発声された音声に対して、高いスコアを与
え、誤った発声の音声に対して低いスコアを与える信頼
性の高い音声評価方法を提供することにある。

【００１０】

【課題を解決するための手段】この発明では、母音や子
音など、音素ごとのような音声基本単位の音声特徴量に
関する確率モデルを用いて、評価音声に対する絶対スコ
アと相対スコアを計算し、これらのどちらかまたは両方
を用いて品質評価を行う。はじめに、絶対スコアを得る
手順を音声基本単位として音素を用いる場合について述
べる。学習時に、大量の学習用音声サンプルを母音、子
音等の音素に分解して音素セグメントを得たのち、各音
声セグメントと、それが属すべき正しい音素（正しい言
語的カテゴリ）の確率モデルとの尤度値、つまり正しい
カテゴリとなる尤度、例えば対数尤度値（正解絶対対数
尤度と記す）を計算する。次に、正解絶対対数尤度値が
どのような広がりをもって分布するかに関する情報を蓄
えるための分布、つまり正しいカテゴリと対数尤度の分
布であって、（正解絶対対数尤度分布）を求めておく。
また、各音声セグメントと、発声とは異なる誤った音素
（誤った言語的カテゴリ）の確率モデルとの尤度値（例
えば対数尤度値、非正解対数尤度）を計算する。非正解
絶対対数尤度値に関しても、これがどのような広がりを
もって分布するかの情報を蓄えるための分布、つまり誤
ったカテゴリとなる尤度の分布（非正解絶対対数尤度分
布）を求めておく。評価時には、評価される音声と発声
されるべき音素系列を入力し、音素セグメントに分解す
る。各音素セグメントに対し、正解絶対対数尤度を計算
し、正解絶対対数尤度と正解絶対対数尤度分布から得ら
れる確からしさを示す尤度値、つまり前記計算した尤度
が正解となる確からしさを示す値（尤度１）と、正解絶
対対数尤度と非正解絶対対数尤度分布から得られる尤
度、つまり前記計算した尤度が非正解となる確からしさ
を示す値（尤度２）を計算する。得られた上記２つの尤
度（尤度１と尤度２）から絶対スコアを得る。

【００１１】次に、相対スコアを得る手順を述べる。学
習時に、大量の学習用音声サンプルを用いて、各音声サ
ンプルとそれが属すべき正しい言語の確率モデルとの尤
度値（例えば正解絶対対数尤度）と、誤った音素（誤っ
た言語的カテゴリ）の確率モデルとの尤度値（例えば非
正解絶対対数尤度）の差の尤度値（正解相対対数尤度）
を計算する。次に、正解相対対数尤度値がどのような広
がりをもって分布するかに関する情報を蓄えるたるめの
分布、つまり正しいカテゴリとなる尤度と誤ったカテゴ
リとなる尤度との差の分布、（正解相対対数尤度分布）
を求めておく。また、各音声セグメントと、誤った音素
の確率モデルの対数尤度値（非正解絶対対数尤度）どう
しの差の尤度値（非正解相対対数尤度）を計算する。非
正解相対対数尤度値に関しても、これがどのような広が
りをもって分布するかの情報を蓄えるための分布、各誤
ったカテゴリとなる尤度間の差の分布（非正解相対対数
尤度分布）を求めておく。評価時には、評価される音声
と発声されるべき音素系列を入力し、音素セグメントに
分解する。各音素セグメントに対し正解相対対数尤度を
計算し、正解相対対数尤度と前記予め蓄えた正解相対対
数尤度分布から得られる尤度、つまり前記計算した尤度
が対象とする正解カテゴリと非正解カテゴリとの違いと
なる確からしさを示す値（尤度３）と、正解相対対数尤
度と前記予め蓄えた非正解相対対数尤度分布から得られ
る尤度、つまり前記計算した尤度が、対象とする非正解
カテゴリ間の違いとなる確からしさを示す値（尤度４）
を計算する。得られた上記２つの尤度（尤度３と尤度
４）から相対スコアを得る。

【００１２】最終的な評価スコアとしては、上記の絶対
スコアまたは上記の相対スコアのどちらか、またはその
両方から計算されるスコアを採用することを最も主な特
徴とする。従来の方法は、評価される音声とそれが属す
べき正しい言語カテゴリの確率モデルとの正解絶対対数
尤度値をスコアとしている。したがって、この発明の方
法は、誤った言語カテゴリの確率モデルに対する対数尤
度値を考慮している点、対数尤度値がどのように分布す
るかを考慮している点、絶対尤度値だけでなく、相対尤
度値を考慮している点が従来法と異なる。

【００１３】なお、上記確率モデルは、ＨＭＭを用いる
とモデルパラメータの推定が容易であり、推定精度も高
い。また、上記の正解絶対対数尤度分布、非正解絶対対
数尤度分布、正解相対対数尤度分布、非正解相対対数尤
度分布には、数学的に取り扱いやすい正規分布や、シグ
モイド関数を用いると分布のパラメータを求めやすい。

【００１４】

【作用】従来の評価方法で用いられていた、正しい音素
カテゴリの確率モデルとの絶対対数尤度値は、学習用音
声とどの程度類似しているかを示している。もちろん、
この絶対的な指標は音声を評価する上で重要である。し
かし、母音子音などの音素カテゴリには、複数の類似し
たカテゴリ（例えば、音素／ｂ／，／ｄ／，／ｇ／）が
存在するため、評価される音声が他のカテゴリに近い音
であるかどうかを知った上で評価することは重要である
（非正解絶対対数尤度分布の利用）。この発明の実施例
では、正解絶対対数尤度分布と非正解絶対対数尤度分布
の両方を考慮した絶対スコアを用いる。例えば、音素／
ｂ／の音声サンプルがあったとき、音素／ｂ／の確率モ
デルに対する対数尤度値が高いとしても、同様に音素／
ｄ／の確率モデルに対する対数尤度値が高ければ、この
サンプルが正しい音素／ｂ／であると言い切ることは難
しいはずである。この発明の絶対スコアは、このような
事象を考慮した評価値を得ることができる。

【００１５】また、正しい発声であるにも関わらず、絶
対対数尤度値が低い場合がある。これは、音声認識で用
いられている音声の特徴量（例えばケプストラム）は、
音声の識別（音素間のスコアの大小関係によってのみ決
まる）には適当であるが、絶対的な評価には適当でない
場合があるからである。正しい音素カテゴリの確率モデ
ルとの絶対対数尤度値は低くても、他のカテゴリの確率
モデルに対する絶対対数尤度値は更に低いことが多い。
絶対対数尤度値は低くても、圧倒的に正しい音素カテゴ
リに近いと言える場合は正しい発声とみなしてもよいと
考える。この発明の実施例では、正しい音素カテゴリの
確率モデルとの絶対対数尤度値と、誤った音素カテゴリ
の確率モデルとの絶対対数尤度値との差（相対スコア）
を考慮することにより、以上の事象を考慮した評価値を
得ることができる。

【００１６】総合的なスコアは、絶対スコアと相対スコ
アのどちらか、または両方を考慮して決定する。両方を
考慮した場合、以上述べた絶対的な音質評価と他のカテ
ゴリとの相対的な音質評価をすることが可能となり、こ
の発明の目的である信頼性の高い音声品質評価を行うこ
とができるようになる。

【００１７】

【発明の実施の形態】この発明を外国語の発声訓練に用
いた実施例について述べる。ここでは、確率モデルにＨ
ＭＭを用いた。はじめに、学習ステップ（システムの準
備段階）について述べる。母国語話者が発声した音声デ
ータベースをもとに音素単位の不特定話者用ＨＭＭを学
習する。例えば、対象言語が日本語の場合、日本語に現
れるすべての音素ＨＭＭを日本人の発声した音声を用い
て学習する。前後の音素との音響的な影響を考慮して、
音素環境依存型ＨＭＭを作成する。図１は、正解絶対対
数尤度分布と非正解絶対対数尤度分布をもとめるフロー
チャートである。学習音声サンプルと発声に即した音素
系列を与える。音素系列に従い、音素ＨＭＭを連結し、
音声サンプルとマッチングさせ、各音素に対応したセグ
メント音声を求める（Ｓ１）。正解音素のＨＭＭと音素
セグメントとの対数尤度値を求める（Ｓ２）。対数尤度
値は長さＬに従って正規化される。正規化の方法は例え
ば、Ｓｎｏ＝Ｓｓ／Ｌ（４）のようになる。ここで、Ｓｓは音素セグメントから得ら
れる対数尤度値、Ｓｎｏは正規化された対数尤度値であ
る。ここではこの正規化尤度を、正解絶対対数尤度と呼
ぶことにする。

【００１８】正解絶対対数尤度Ｓ^G _P1は正しい音素モデ
ル（ｐｈｏｎ１）を与えたときの、セグメント長で正規
化された絶対対数尤度値である。また、音素セグメント
に対して、誤った音素のＨＭＭとの対数尤度値も計算す
る。同様に、対数尤度値はセグメント長で正規化する。
これをここでは、非正解絶対対数尤度と呼ぶことにす
る。

【００１９】非正解絶対対数尤度Ｓ^N _P1P2は音素（ｐｈ
ｏｎ１）の音声セグメントに、対抗音素モデル（ｐｈｏ
ｎ２）を当てはめたときの、セグメント長で正規化され
た絶対対数尤度値である。学習データのある音素（ｐｈ
ｏｎ１）について、正解絶対対数尤度と非正解絶対対数
尤度を計算した後、次のような累積分布関数を描くと
（Ｓ４，Ｓ５）、例えば図２Ａのような曲線になる。

【００２０】ｆ（ｘ）＝Ｐｒｏｂ｛Ｓ^G _P1＜ｘ｝（５）ｇ（ｘ）＝Ｐｒｏｂ｛Ｓ^N _P1P2＜ｘ｝（６）これらの累積頻度分布を数学的に取り扱やすいシグモイ
ド関数で近似する（Ｓ６，Ｓ７）。ｆ（ｘ）＝１／｛１＋ｅｘｐ（−α１（ｘ−β１））｝（７）ｇ（ｘ）＝１／｛１＋ｅｘｐ（−α２（ｘ−β２））｝（８）ここで、αとβは、シグモイド曲線の０．１から０．９
の値域の間で最も適合するように決定される。これらの
関数の確率密度分布は数学的に以下のように与えられ
る。

【００２１】

【数３】

【００２２】

【数４】

【００２３】上記の確率密度関数で与えられる分布の例
を図２Ｂに示す。横軸は尤度である。これらが即ち正解
絶対対数尤度分布と非正解絶対対数尤度分布である。音
素（ｐｈｏｎ１）について正解絶対対数尤度を求め、ま
た、すべての対抗音素（ｐｈｏｎ２：ここでは全２５音
素）ごとに非正解絶対対数尤度を求めたときの累積分布
関数を図３に示す。従って、式（９）の関数は各音素ご
と１つ、式（１０）の関数は各音素ごとに対抗音素の数
だけ存在する。

【００２４】図４は正解相対対数尤度分布と非正解相対
対数尤度分布をもとめるフローチャートである。図１に
示した場合と同様にして、学習音声サンプルと、それぞ
れ音素セグメントに分解し、その各音素セグメントに正
解音系列の対応正解音素を割当てる（Ｓ１）。これらセ
グメントについて、それぞれ正解絶対対数尤度Ｓ^G _P1を
求め（Ｓ２）、また非正解絶対対数尤度Ｓ^N _P1P2を求め
る（Ｓ３）。これら正解絶対対数尤度と非正解絶対対数
尤度の差を正解相対対数尤度とし、以下のように計算す
る（Ｓ４）。

【００２５】 Δ^G _P1P2＝Ｓ^G _P1−Ｓ^N _P1P2 （11）また非正解相対対数尤度は、以下のように計算される
（Ｓ５）。 Δ^N _P1P2＝（Ｓ^N _P1）′−Ｓ^N _P1P2 （12）（Ｓ^N _P1）′＝（１／（ｎ−１））Σ^N _P1P2 （13）ここでΣは音素（ｐｈｏｎ１）と一致しない各音素（ｐ
ｈｏｎ２）についてのＳ^N _P1P2の総和でありＮは音素モ
デルの総数である。正解相対対数尤度と非正解相対対数
尤度について、絶対スコアと同様にそれぞれの累積分布
関数を描き（Ｓ６，Ｓ７）、シグモイド関数の当てはめ
を行った後（Ｓ８，Ｓ９）、確率密度関数（ｑ
^G _P1P2（ｘ），ｑ^N _P1P2（ｘ））を得る（Ｓ１０，Ｓ１
１）。これらが、正解相対対数尤度分布と非正解相対対
数尤度分布である。以上が、学習のステップである。

【００２６】次に、評価すべき音声セグメントが与えら
れたとき、評価値を与える評価ステップについて説明す
る。図５は、綜合スコアを求めるフローチャートであ
る。評価すべき音声と発声しようとした目標音声の音素
系列を与える。音素系列に従い音素ＨＭＭを連結し、入
力音声を音素にセグメントする（Ｓ１）。正解音素（ｐ
ｈｏｎ１）に対する正解絶対対数尤度Ｓ^G _P1＝ｘを計算
し（Ｓ２）、式（９）、式（１０）に従い尤度値を計算
する。図２Ｂの２つの分布の重なりは、誤った判定をす
るエラー領域である。この重なりを反映するスコア関数
としては、以下のようなものが考えられる。

【００２７】Ｄ_P1P2（ｘ）＝Ｐ^G _P1（ｘ）−Ｐ^N _P1P2（ｘ）（14）ここで、ｘは正解絶対対数尤度である。Ｄ_P1P2（ｘ）が
正のときは正しい発声であり、負のときは誤った発声で
あるとみなす。最終的な絶対スコアＳＣ_P1（ｘ）は、以
下のように計算される（Ｓ３）。ＳＣ_P1（ｘ）＝ΣＤ_P1P2（ｘ）（15） Σはｐｈｏｎ１と一致しないすべてのｐｈｏｎ２につい
てのＤ_P1P2（ｘ）の和である。

【００２８】次に、各音素セグメントに対し、非正解音
素に対する非正解相対対数尤度Ｓ_P1 _P2を求める（Ｓ
４）。正解絶対対数尤度と非正解絶対対数尤度をもと
に、式（１１）に従って正解相対対数尤度を計算する
（Ｓ５）。絶対スコアの場合と同様に、正解相対対数尤
度分布と非正解相対対数尤度分布から、最終的な相対ス
コアΔＳＣ_P1（ｘ）を以下のように計算する（Ｓ６）。

【００２９】 Δ_P1P2（ｘ）＝ｑ^G _P1P2（ｘ）−ｑ^N _P1P2（ｘ）（16） ΔＳＣ_P1（ｘ）＝ΣΔ_P1P2（ｘ）（17）ここで、Σはｐｈｏｎ１以外のｐｈｏｎ２についてのΔ
_P1P2（ｘ）の総和であり、ｘは正解相対対数尤度であ
る。綜合スコアＳＣtoは、絶対スコアＳＣと相対スコア
ΔＳＣから求める。例えば、両者の線形結合を考える
（Ｓ７）。

【００３０】ＳＣto＝λ・ＳＣ＋（１−λ）・ΔＳＣ（18）ここで、λは結合係数である。λが０のときは絶対スコ
アのみ、λが１のときは相対スコアのみが綜合スコアに
反映される。両スコアの結合は、線形関数に限らず、非
線形関数でもよい。以上の実施例では、各音素ごとに評
価した。これを単語や文章単位で評価する場合は、各音
素ごとの綜合スコアの重み付き平均などが考えられる。

【００３１】図６Ａは、音声特徴量として、メルケプス
トラムを用いてＨＭＭを構成し、この発明による評価方
法を適用した結果の例である。この図は複数の音素／ｂ
／の音声サンプルを音素／ｂ／として評価したときの結
果であり、各点がそれぞれのサンプルに対する結果であ
る。この実験は、正しい発声がなされたときを仮定した
ものである。横軸は、絶対スコアで、縦軸が相対スコア
である。また、図６Ｂは、複数の音素／ｂ／以外の音声
サンプルを音素／ｂ／として評価したときの結果であ
る。この実験は、誤った不適切な発声がなされたときを
仮定したものである。これらの結果から、正しい発声
（サンプル）の場合は、絶対スコアと相対スコアの両方
が大きい場合がほとんどであるが、相対スコアのみが大
きいものも数多く見うけられる。誤った発声（サンプ
ル）の場合は、絶対スコアと相対スコアの両方が小さい
場合が多いが、絶対スコアは必ずしも小さい値になると
は限らない。ここに、相対スコアを導入する効果が認め
られた。

【００３２】綜合スコアを求める際に線形関数を用いる
と、図６Ａと図６Ｂに示されるように、絶対スコアと相
対スコアで構成される２次元空間上で、直線上の点を同
じスコアとなるように計算される。非線形関数を用いれ
ば、曲線上の点を同じスコアとなるように与えることが
できるので、サンプルの分布に、より即した評価値を与
えることができる。

【００３３】上述では音素を単位とする確率モデルを用
いたが、その他の音声基本単位、例えば音節、単語など
でもよい。また絶対対数尤度を用いたが正しい音声単位
のカテゴリの確率モデルに対する正解尤度と、その正解
尤度がどのような広がりを示すかの正解尤度分布と、他
のカテゴリの確率モデルに対する非正解尤度と、その非
正解尤度がどのような広がりを示すかの非正解尤度分布
などを求めてもよい。

【００３４】

【発明の効果】以上説明したように、音声認識のための
ＨＭＭなどの音響モデルを用いると、正しい発声でも絶
対スコアが悪いことがある。しかし、その場合でも相対
スコアが高いことが多い。従って、絶対スコアと相対ス
コアの両方を用いれば、より正しい発声品質評価が可能
となる。

【００３５】この発明は、例えば外国語の発声訓練に用
いることができる。

【図面の簡単な説明】

【図１】学習音声サンプルから正解絶対対数尤度分布と
非正解絶対対数尤度分布を生成する手順を示す流れ図。

【図２】Ａは正解絶対対数尤度、非正解絶対対数尤度の
各累積度分布をシグモイド関数で近似した例を示す図、
Ｂはこれらの確率度密度関数の例を示す図である。

【図３】正解絶対対数尤度と各非正解絶対対数尤度のそ
れぞれの系統分布関数の例を示す図。

【図４】学習音声サンプルから正解相対対数尤度分布と
非正解相対対数尤度分布を生成する手順を示す流れ図。

【図５】この発明方法による品質評価の手順の例を示す
流れ図。

【図６】この発明の実施例を示す図。

【図７】Ａは３状態ＨＭＭの例を示す図、ＢはＨＭＭの
確率分布の表現例を示す図である。

Claims

【特許請求の範囲】

【請求項１】音響的特徴に関する確率モデルで表現さ
れた音素、音節、単語などの基本単位の複数の言語的カ
テゴリを用い、あらかじめ学習音声により、確率モデルから計算される
正しいカテゴリとなる尤度の分布と、各誤ったカテゴリ
となる尤度の分布とを求めておき、評価される音声サンプルと、その音声に対応した発声さ
れるべき基本単位系列を入力するステップと、音声サンプルを基本単位に分解するステップと、上記分解された音声基本単位に、正しいカテゴリの確率
モデルを当てはめて尤度を求めるステップと、上記求めた尤度と上記正しいカテゴリとなる尤度の分
布、及び上記各誤ったカテゴリとなる尤度の分布とから
その尤度が正解となる確からしさを示す値及び各非正解
となる確からしさを示す値をそれぞれ求めるステップ
と、これら確からしさを示す値から品質を評価する絶対スコ
アを求めるステップとを有する音声品質評価方法。
【請求項２】上記正しいカテゴリとなる尤度の分布は
正解絶対対数尤度分布であって、上記学習音声を正しいカテゴリの確率モデルに当てはめ
て正解絶対対数尤度を計算するステップと、その正解絶対対数尤度がどのような値の広がりを示すか
を表現する正解絶対対数尤度分布を求めるステップとに
より求め、上記各誤ったカテゴリとなる尤度の分布は、非正解絶対
対数尤度分布であって、上記学習音声を各誤ったカテゴリの確率モデルに当ては
めて各非正解絶対対数尤度を計算するステップと、その各非正解絶対対数尤度がどのような値の広がりを示
すかを表現する非正解絶対対数尤度分布を求めるステッ
プとにより求め、上記正しいカテゴリの確率モデルを当てはめて求める尤
度は正解絶対対数尤度であり、上記正解となる確からしさを示す値及び上記非正解とな
る確からしさを示す値はそれぞれ正解絶対対数尤度確率
密度値及び非正解絶対対数尤度確率密度値であることを
特徴とする請求項１記載の音声品質評価方法。
【請求項３】上記絶対スコアを求めるステップは、上
記正解絶対対数尤度確率密度値と、各非正解カテゴリに
対する上記非正解絶対対数尤度確率密度値との差を加算
して求めるステップであることを特徴とする請求項２記
載の音声品質評価方法。
【請求項４】音響的特徴に関する確率モデルで表現さ
れた音素、音節、単語などの基本単位の複数の言語的カ
テゴリを用い、あらかじめ学習音声により、確率モデルから計算される
正しいカテゴリとなる尤度と誤ったカテゴリとなる尤度
との違いの分布（正解相対分布と記す）と、各誤ったカ
テゴリとなる尤度間の違いの分布（非正解相対分布と記
す）とを求めておき、評価される音声サンプルと、その音声に対応した発声さ
れるべき基本単位系列を入力するステップと、上記音声サンプルを基本単位に分解するステップと、上記分解された音声基本単位に、正しいカテゴリの確率
モデルを当てはめて正解尤度を求めるステップと、上記分解された音声基本単位に、各誤ったカテゴリの確
率モデルを当てはめて非正解尤度をそれぞれ求めるステ
ップと、上記正解尤度と非正解尤度との違いを相対尤度として求
めるステップと、この各相対尤度と上記正解相対分布及び上記非正解相対
分布とからその相対尤度がその正しいカテゴリと誤った
カテゴリとの違いとなる確からしさを示す値（正解相対
確からしさ値と記す）、及びその相対尤度が誤ったカテ
ゴリと誤ったカテゴリとの違いとなる確からしさを示す
値（非正解相対確からしさ値と記す）をそれぞれ求める
ステップと、これら両確からしさ値から評価する相対スコアを求める
ステップとを有する音声品質評価方法。
【請求項５】上記正解相対分布は、上記学習音声を正しいカテゴリの確率モデルに当てはめ
て正解絶対対数尤度を計算するステップと、上記学習音声を各誤ったカテゴリの確率モデルに当ては
めて各非正解絶対対数尤度を計算するステップと、上記正解絶対対数尤度と上記各非正解絶対対数尤度との
差を正解相対対数尤度として求めるステップと、その正解相対対数尤度がどのような値の広がりを示すか
を表現する分布を求めるステップとにより求め、上記非正解相対分布は、上記非正解絶対対数尤度どうしの差を非正解相対対数尤
度として求めるステップと、上記非正解相対対数尤度がどのような値の広がりを示す
かを表現する分布を求めるステップとにより求め、上記正解尤度は正解絶対対数尤度であり、上記非正解尤
度は非正解絶対対数尤度であり、上記相対尤度は上記正
解絶対対数尤度と上記非正解絶対対数尤度との差であ
り、上記正解相対確からしさ値、及び上記非正解相対確から
しさ値はそれぞれ正解相対対数尤度確率密度値及び非正
解相対対数尤度確率密度値であることを特徴とする請求
項４記載の音声品質評価方法。
【請求項６】上記相対スコアを求めるステップは、上
記正解相対対数尤度確率密度値と、対応する上記非正解
相対対数尤度確率密度値との差を、各誤りカテゴリの組
合せを求めてこれらの差を加算して求めるステップであ
ることを特徴とする請求項５記載の音声品質評価方法。
【請求項７】請求項１乃至３の何れかで求めた絶対ス
コアと、これと対応する請求項４乃至７で求めた相対ス
コアとを線形結合して綜合スコアを求めて評価結果とす
ることを特徴とする音声品質評価方法。
【請求項８】上記各対数尤度分布は、対応する上記対
数尤度値に関して累積分布関数を求めるステップと、そ
の累積分布関数をシグモイド関数から確率密度関数を計
算するステップとにより求めることを特徴とする請求項
２、３、５、６の何れかに記載の音声品質評価方法。
【請求項９】上記対数尤度分布は、対応する上記対数
尤度に対し、平均値分散を計算して正規分布を当てはめ
て求めることを特徴とする請求項２、３、５、６の何れ
かに記載の音声品質評価方法。
【請求項１０】音声品質を評価するプログラムを記録
した記録媒体であって、上記プログラムは評価される音声サンプルと、その音声
に対応した発声されるべき音声基本単位系列を入力する
ステップと、上記音声サンプルを音声基本単位に分解するステップ
と、上記分解された音声基本単位に正しいカテゴリの確率モ
デルを当てはめて正解絶対対数尤度を計算するステップ
と、上記正解絶対対数尤度と予め求めた正解絶対対数尤度分
布から正解絶対対数尤度確率密度値を計算するステップ
と、上記正解絶対対数尤度と予め求めた非正解絶対対数尤度
分布から非正解絶対対数尤度確率密度値を計算するステ
ップと、上記正解絶対対数尤度確率密度値と上記非正解絶対対数
尤度確率密度値とから上記音声品質の評価を表わす絶対
スコアを計算するステップと、を有することを特徴とするコンピュータにより読取り可
能な記録媒体。
【請求項１１】音声品質を評価するプログラムを記録
した記録媒体であって、上記プログラムは評価される音声サンプルと、その音声
に対応した発声されるべき音声基本単位系列を入力する
ステップと、上記音声サンプルを音声基本単位に分解するステップ
と、上記分解された音声基本単位に正しいカテゴリの確率モ
デルを当てはめて正解絶対対数尤度を計算するステップ
と、上記分解された音声基本単位に誤ったカテゴリの確率モ
デルを当てはめて非正解絶対対数尤度を計算するステッ
プと、上記正解絶対対数尤度と上記非正解絶対対数尤度の差を
計算して正解相対対数尤度を計算するステップと、上記正解相対対数尤度を予め求めた正解相対対数尤度分
布から正解相対対数尤度確率密度値を計算するステップ
と、上記正解相対対数尤度と予め求めた非正解相対対数尤度
分布から非正解相対対数尤度確率密度値を計算するステ
ップと、上記正解相対対数尤度確率密度値と上記非正解相対対数
尤度確率密度値とから品質評価を表わす相対スコアを計
算するステップと、を有することを特徴とするコンピュータにより読取り可
能な記録媒体。
【請求項１２】上記分解された音声基本単位に正しい
カテゴリの確率モデルを当てはめて正解絶対対数尤度を
計算するステップと、上記正解絶対対数尤度と予め求めた正解絶対対数尤度分
布から正解絶対対数尤度確率密度値を計算するステップ
と、上記正解絶対対数尤度と予め求めた非正解絶対対数尤度
分布から非正解絶対対数尤度確率密度値を計算するステ
ップと、上記正解絶対対数尤度確率密度値と上記非正解絶対対数
尤度確率密度値とから品質評価を表わす絶対スコアを計
算するステップと、上記絶対スコアと上記相対スコアとの線形結合を求めて
品質評価を表わす綜合スコアとするステップと、上記プログラムが含むことを特徴とする請求項１１記載
の記録媒体。
【請求項１３】音声品質を評価するために用いるデー
タを記録した記録媒体であって、学習音声の音声基本単位を確率モデルに当てはめて計算
され、正しいカテゴリとなる尤度の分布を表わす正解絶対対数
尤度分布と、誤ったカテゴリとなる尤度の分布を表わす非正解絶対対
数尤度分布と、正しいカテゴリとなる尤度と誤ったカテゴリとなる尤度
との違いの分布を表わす正解相対対数尤度分布と、各誤ったカテゴリとなる尤度間の違いの分布を表わす非
正解対数尤度分布と、が記録されていることを特徴とするコンピュータにより
読出し可能な記録媒体。