JPH1195795A - 音声品質評価方法および記録媒体 - Google Patents

音声品質評価方法および記録媒体

Info

Publication number
JPH1195795A
JPH1195795A JP9250913A JP25091397A JPH1195795A JP H1195795 A JPH1195795 A JP H1195795A JP 9250913 A JP9250913 A JP 9250913A JP 25091397 A JP25091397 A JP 25091397A JP H1195795 A JPH1195795 A JP H1195795A
Authority
JP
Japan
Prior art keywords
correct
likelihood
log likelihood
distribution
absolute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9250913A
Other languages
English (en)
Inventor
Kiyoaki Aikawa
清明 相川
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9250913A priority Critical patent/JPH1195795A/ja
Publication of JPH1195795A publication Critical patent/JPH1195795A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 発声音声に対し、高いスコアを与え、誤った
発声音声に対して低いスコアを与え、信頼度を向上す
る。 【解決手段】 予め学習音声を用いて、その音素セグメ
ントと正解音素の確率モデルとの尤度値がどのように広
がりをもって分布するかの正解絶対対数尤度分布PG P1
(x)と、各非正解音素確率モデルとの尤度値がどのよ
うに広がりをもって分布するかの非正解絶対対数尤度分
布PN P1P2(x)とを予め求めておき、評価音声に対
し、セグメントに分解して正解音素系列を割当(S
1)、その各セグメントの正解音素P1のモデルの尤度
G P1=xを求め(S2)、そのxを用いて予め求めて
G P1(X)と各PN P1P2(x)を求め、これらの各差
の合計値を累積的な絶対スコアSCP1(X)とする(S
3)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、コンピュータを
用いて発声された音声の品質評価を行う方法及び記録媒
体に関する。
【0002】
【従来の技術】従来の音声品質評価方法として、スペク
トル距離尺度による方法がある(例えば、文献1,伊藤
憲三,北脇信彦,筧一彦,“音声のディジタル波形符号
化方式の客観的評価尺度の検討”,電子情報通信学会,
Vol.J66−A,No.3,pp.273(198
3))。例えば、ある通信系や符号化法を通した音声を
評価をする場合、入力端の原音声と出力端の音声のスペ
クトルを比較することにより、音声の品質を評価するこ
とができる。この方法においては、リファレンス(基
準)音声として、評価音声が歪む前の原音声が必要であ
る。したがって、外国語の発声訓練者の音声を評価する
ような場合には適用できない。語学の発声訓練で、リフ
ァレンス音声となるのは、母国語話者と同等の発声方法
を習得した語学訓練者本人の音声であり、訓練中はとう
てい得られない。任意の母国語話者の音声をリファレン
スとすることも考えられるが、音声には話者固有のスペ
クトルの特徴があるため、発声の未熟さに起因するスペ
クトルの特徴の差であるか、話者の違いによるスペクト
ルの特徴の差であるかを区別することができないので正
しい評価が行えないという問題がある。この問題を解決
するために、隠れマルコフモデル(Hidden Ma
rkov Model:HMM)のような確率モデルを
用いた音声品質評価方法がある。HMMは、多数の話者
の音声を用いて学習して得るため、様々な話者の特徴を
モデル内に含ませることができる。大量の学習データを
用意すれば、話者の違いによる影響を小さくでき、発声
方法の違いによる差のみを評価に反映することができ
る。例えば、HMMを用いた方法を、外国語の発声訓練
中の音声評価に適用するためには、多数の母国語話者の
音声を集め、これをもとにHMMを作成する。これをリ
ファレンスとして、訓練者の音声と比較することにより
評価を行う。
【0003】HMMの詳細は例えば文献2(中川聖一:
確率モデルによる音声認識,電子情報通信学会)に示さ
れている。図7Aに、3状態の連続混合分布型HMMの
例を示す。この様なモデルを音声単位(音素,音節,単
語など)ごとに作成する。各状態S1からS3には、音
声特徴パラメータの統計的な分布D1からD3が付与さ
れる。例えば、これが音素モデルであるとすると、第1
状態は音素の始端付近、第2状態は中心付近、第3状態
は終端付近の特徴量の統計的な分布を表現する。
【0004】各状態の特徴量分布D1〜D3は、複雑な
分布形状を表現するために、複数の連続確率分布(以
下、混合連続分布と記す)を用いて表現される場合が多
い。連続確率分布には、様々な分布が考えられるが、正
規分布が用いられることが多い。また、それぞれの正規
分布は、特徴量と同じ次元数の多次元無相関正規分布で
表現されることが多い。図7Bに、混合連続分布の例を
示す。この図における正規分布の個数はN1〜N3の3
つである。混合連続分布HMMの状態iの時刻tの入力
特徴量ベクトルot=(ot1,t2,…, otP )
(Pは総次元数)に対する出力確率bi(ot)は、 bi(ot)=Σm=1 M wim・φi,m(ot) (1) のように計算される。ここで、wimは状態iのm番目
の多次元正規分布に対する重み係数を表わす。多次元正
規分布mに対する確率密度は、
【0005】
【数1】
【0006】のように計算される。ここで、μimは状
態iのm番目の多次元正規分布に対する平均値ベクト
ル、Σimは共分散行列を表わす。Tは行列の転置を表わ
す。各正規分布の共分散行列は対角成分のみであるとす
ると、φim(ot)の対数値は、
【0007】
【数2】
【0008】と表わせる。ここで、μimpは状態iの
m番目の多次元正規分布の平均ベクトルの第p次目の成
分を、σimp2 は、状態iのm番目の多次元正規分布
の共分散行列の第p次目の対角成分(分散値)を表わ
す。従来の、HMMを用いた音声評価方法におけるスコ
アとしては、式(3)の対数尤度値が用いられた。HM
Mは、多数の話者の音声の特徴を確率分布として含んで
いるため、ある1人の話者の音声をリファレンスとする
方法よりも適切な評価が行える。しかし、式(3)で計
算される対数尤度値のみを用いる従来法では、正しく発
声された音声に対して、低い対数尤度値を示す場合があ
り、評価値として不適切であるという問題があった。
【0009】
【発明が解決しようとする課題】この発明の目的は、確
率モデルを用いた音声品質評価方法において、母音子音
等が正しく発声された音声に対して、高いスコアを与
え、誤った発声の音声に対して低いスコアを与える信頼
性の高い音声評価方法を提供することにある。
【0010】
【課題を解決するための手段】この発明では、母音や子
音など、音素ごとのような音声基本単位の音声特徴量に
関する確率モデルを用いて、評価音声に対する絶対スコ
アと相対スコアを計算し、これらのどちらかまたは両方
を用いて品質評価を行う。はじめに、絶対スコアを得る
手順を音声基本単位として音素を用いる場合について述
べる。学習時に、大量の学習用音声サンプルを母音、子
音等の音素に分解して音素セグメントを得たのち、各音
声セグメントと、それが属すべき正しい音素(正しい言
語的カテゴリ)の確率モデルとの尤度値、つまり正しい
カテゴリとなる尤度、例えば対数尤度値(正解絶対対数
尤度と記す)を計算する。次に、正解絶対対数尤度値が
どのような広がりをもって分布するかに関する情報を蓄
えるための分布、つまり正しいカテゴリと対数尤度の分
布であって、(正解絶対対数尤度分布)を求めておく。
また、各音声セグメントと、発声とは異なる誤った音素
(誤った言語的カテゴリ)の確率モデルとの尤度値(例
えば対数尤度値、非正解対数尤度)を計算する。非正解
絶対対数尤度値に関しても、これがどのような広がりを
もって分布するかの情報を蓄えるための分布、つまり誤
ったカテゴリとなる尤度の分布(非正解絶対対数尤度分
布)を求めておく。評価時には、評価される音声と発声
されるべき音素系列を入力し、音素セグメントに分解す
る。各音素セグメントに対し、正解絶対対数尤度を計算
し、正解絶対対数尤度と正解絶対対数尤度分布から得ら
れる確からしさを示す尤度値、つまり前記計算した尤度
が正解となる確からしさを示す値(尤度1)と、正解絶
対対数尤度と非正解絶対対数尤度分布から得られる尤
度、つまり前記計算した尤度が非正解となる確からしさ
を示す値(尤度2)を計算する。得られた上記2つの尤
度(尤度1と尤度2)から絶対スコアを得る。
【0011】次に、相対スコアを得る手順を述べる。学
習時に、大量の学習用音声サンプルを用いて、各音声サ
ンプルとそれが属すべき正しい言語の確率モデルとの尤
度値(例えば正解絶対対数尤度)と、誤った音素(誤っ
た言語的カテゴリ)の確率モデルとの尤度値(例えば非
正解絶対対数尤度)の差の尤度値(正解相対対数尤度)
を計算する。次に、正解相対対数尤度値がどのような広
がりをもって分布するかに関する情報を蓄えるたるめの
分布、つまり正しいカテゴリとなる尤度と誤ったカテゴ
リとなる尤度との差の分布、(正解相対対数尤度分布)
を求めておく。また、各音声セグメントと、誤った音素
の確率モデルの対数尤度値(非正解絶対対数尤度)どう
しの差の尤度値(非正解相対対数尤度)を計算する。非
正解相対対数尤度値に関しても、これがどのような広が
りをもって分布するかの情報を蓄えるための分布、各誤
ったカテゴリとなる尤度間の差の分布(非正解相対対数
尤度分布)を求めておく。評価時には、評価される音声
と発声されるべき音素系列を入力し、音素セグメントに
分解する。各音素セグメントに対し正解相対対数尤度を
計算し、正解相対対数尤度と前記予め蓄えた正解相対対
数尤度分布から得られる尤度、つまり前記計算した尤度
が対象とする正解カテゴリと非正解カテゴリとの違いと
なる確からしさを示す値(尤度3)と、正解相対対数尤
度と前記予め蓄えた非正解相対対数尤度分布から得られ
る尤度、つまり前記計算した尤度が、対象とする非正解
カテゴリ間の違いとなる確からしさを示す値(尤度4)
を計算する。得られた上記2つの尤度(尤度3と尤度
4)から相対スコアを得る。
【0012】最終的な評価スコアとしては、上記の絶対
スコアまたは上記の相対スコアのどちらか、またはその
両方から計算されるスコアを採用することを最も主な特
徴とする。従来の方法は、評価される音声とそれが属す
べき正しい言語カテゴリの確率モデルとの正解絶対対数
尤度値をスコアとしている。したがって、この発明の方
法は、誤った言語カテゴリの確率モデルに対する対数尤
度値を考慮している点、対数尤度値がどのように分布す
るかを考慮している点、絶対尤度値だけでなく、相対尤
度値を考慮している点が従来法と異なる。
【0013】なお、上記確率モデルは、HMMを用いる
とモデルパラメータの推定が容易であり、推定精度も高
い。また、上記の正解絶対対数尤度分布、非正解絶対対
数尤度分布、正解相対対数尤度分布、非正解相対対数尤
度分布には、数学的に取り扱いやすい正規分布や、シグ
モイド関数を用いると分布のパラメータを求めやすい。
【0014】
【作用】従来の評価方法で用いられていた、正しい音素
カテゴリの確率モデルとの絶対対数尤度値は、学習用音
声とどの程度類似しているかを示している。もちろん、
この絶対的な指標は音声を評価する上で重要である。し
かし、母音子音などの音素カテゴリには、複数の類似し
たカテゴリ(例えば、音素/b/,/d/,/g/)が
存在するため、評価される音声が他のカテゴリに近い音
であるかどうかを知った上で評価することは重要である
(非正解絶対対数尤度分布の利用)。この発明の実施例
では、正解絶対対数尤度分布と非正解絶対対数尤度分布
の両方を考慮した絶対スコアを用いる。例えば、音素/
b/の音声サンプルがあったとき、音素/b/の確率モ
デルに対する対数尤度値が高いとしても、同様に音素/
d/の確率モデルに対する対数尤度値が高ければ、この
サンプルが正しい音素/b/であると言い切ることは難
しいはずである。この発明の絶対スコアは、このような
事象を考慮した評価値を得ることができる。
【0015】また、正しい発声であるにも関わらず、絶
対対数尤度値が低い場合がある。これは、音声認識で用
いられている音声の特徴量(例えばケプストラム)は、
音声の識別(音素間のスコアの大小関係によってのみ決
まる)には適当であるが、絶対的な評価には適当でない
場合があるからである。正しい音素カテゴリの確率モデ
ルとの絶対対数尤度値は低くても、他のカテゴリの確率
モデルに対する絶対対数尤度値は更に低いことが多い。
絶対対数尤度値は低くても、圧倒的に正しい音素カテゴ
リに近いと言える場合は正しい発声とみなしてもよいと
考える。この発明の実施例では、正しい音素カテゴリの
確率モデルとの絶対対数尤度値と、誤った音素カテゴリ
の確率モデルとの絶対対数尤度値との差(相対スコア)
を考慮することにより、以上の事象を考慮した評価値を
得ることができる。
【0016】総合的なスコアは、絶対スコアと相対スコ
アのどちらか、または両方を考慮して決定する。両方を
考慮した場合、以上述べた絶対的な音質評価と他のカテ
ゴリとの相対的な音質評価をすることが可能となり、こ
の発明の目的である信頼性の高い音声品質評価を行うこ
とができるようになる。
【0017】
【発明の実施の形態】この発明を外国語の発声訓練に用
いた実施例について述べる。ここでは、確率モデルにH
MMを用いた。はじめに、学習ステップ(システムの準
備段階)について述べる。母国語話者が発声した音声デ
ータベースをもとに音素単位の不特定話者用HMMを学
習する。例えば、対象言語が日本語の場合、日本語に現
れるすべての音素HMMを日本人の発声した音声を用い
て学習する。前後の音素との音響的な影響を考慮して、
音素環境依存型HMMを作成する。図1は、正解絶対対
数尤度分布と非正解絶対対数尤度分布をもとめるフロー
チャートである。学習音声サンプルと発声に即した音素
系列を与える。音素系列に従い、音素HMMを連結し、
音声サンプルとマッチングさせ、各音素に対応したセグ
メント音声を求める(S1)。正解音素のHMMと音素
セグメントとの対数尤度値を求める(S2)。対数尤度
値は長さLに従って正規化される。正規化の方法は例え
ば、 Sno=Ss/L (4) のようになる。ここで、Ssは音素セグメントから得ら
れる対数尤度値、Snoは正規化された対数尤度値であ
る。ここではこの正規化尤度を、正解絶対対数尤度と呼
ぶことにする。
【0018】正解絶対対数尤度SG P1は正しい音素モデ
ル(phon1)を与えたときの、セグメント長で正規
化された絶対対数尤度値である。また、音素セグメント
に対して、誤った音素のHMMとの対数尤度値も計算す
る。同様に、対数尤度値はセグメント長で正規化する。
これをここでは、非正解絶対対数尤度と呼ぶことにす
る。
【0019】非正解絶対対数尤度SN P1P2は音素(ph
on1)の音声セグメントに、対抗音素モデル(pho
n2)を当てはめたときの、セグメント長で正規化され
た絶対対数尤度値である。学習データのある音素(ph
on1)について、正解絶対対数尤度と非正解絶対対数
尤度を計算した後、次のような累積分布関数を描くと
(S4,S5)、例えば図2Aのような曲線になる。
【0020】 f(x)=Prob{SG P1<x} (5) g(x)=Prob{SN P1P2<x} (6) これらの累積頻度分布を数学的に取り扱やすいシグモイ
ド関数で近似する(S6,S7)。 f(x)=1/{1+exp(−α1(x−β1))} (7) g(x)=1/{1+exp(−α2(x−β2))} (8) ここで、αとβは、シグモイド曲線の0.1から0.9
の値域の間で最も適合するように決定される。これらの
関数の確率密度分布は数学的に以下のように与えられ
る。
【0021】
【数3】
【0022】
【数4】
【0023】上記の確率密度関数で与えられる分布の例
を図2Bに示す。横軸は尤度である。これらが即ち正解
絶対対数尤度分布と非正解絶対対数尤度分布である。音
素(phon1)について正解絶対対数尤度を求め、ま
た、すべての対抗音素(phon2:ここでは全25音
素)ごとに非正解絶対対数尤度を求めたときの累積分布
関数を図3に示す。従って、式(9)の関数は各音素ご
と1つ、式(10)の関数は各音素ごとに対抗音素の数
だけ存在する。
【0024】図4は正解相対対数尤度分布と非正解相対
対数尤度分布をもとめるフローチャートである。図1に
示した場合と同様にして、学習音声サンプルと、それぞ
れ音素セグメントに分解し、その各音素セグメントに正
解音系列の対応正解音素を割当てる(S1)。これらセ
グメントについて、それぞれ正解絶対対数尤度SG P1
求め(S2)、また非正解絶対対数尤度SN P1P2を求め
る(S3)。これら正解絶対対数尤度と非正解絶対対数
尤度の差を正解相対対数尤度とし、以下のように計算す
る(S4)。
【0025】 ΔG P1P2=SG P1−SN P1P2 (11) また非正解相対対数尤度は、以下のように計算される
(S5)。 ΔN P1P2=(SN P1)′−SN P1P2 (12) (SN P1)′=(1/(n−1))ΣN P1P2 (13) ここでΣは音素(phon1)と一致しない各音素(p
hon2)についてのSN P1P2の総和でありNは音素モ
デルの総数である。正解相対対数尤度と非正解相対対数
尤度について、絶対スコアと同様にそれぞれの累積分布
関数を描き(S6,S7)、シグモイド関数の当てはめ
を行った後(S8,S9)、確率密度関数(q
G P1P2(x),qN P1P2(x))を得る(S10,S1
1)。これらが、正解相対対数尤度分布と非正解相対対
数尤度分布である。以上が、学習のステップである。
【0026】次に、評価すべき音声セグメントが与えら
れたとき、評価値を与える評価ステップについて説明す
る。図5は、綜合スコアを求めるフローチャートであ
る。評価すべき音声と発声しようとした目標音声の音素
系列を与える。音素系列に従い音素HMMを連結し、入
力音声を音素にセグメントする(S1)。正解音素(p
hon1)に対する正解絶対対数尤度SG P1=xを計算
し(S2)、式(9)、式(10)に従い尤度値を計算
する。図2Bの2つの分布の重なりは、誤った判定をす
るエラー領域である。この重なりを反映するスコア関数
としては、以下のようなものが考えられる。
【0027】 DP1P2(x)=PG P1(x)−PN P1P2(x) (14) ここで、xは正解絶対対数尤度である。DP1P2(x)が
正のときは正しい発声であり、負のときは誤った発声で
あるとみなす。最終的な絶対スコアSCP1(x)は、以
下のように計算される(S3)。 SCP1(x)=ΣDP1P2(x) (15) Σはphon1と一致しないすべてのphon2につい
てのDP1P2(x)の和である。
【0028】次に、各音素セグメントに対し、非正解音
素に対する非正解相対対数尤度SP1 P2を求める(S
4)。正解絶対対数尤度と非正解絶対対数尤度をもと
に、式(11)に従って正解相対対数尤度を計算する
(S5)。絶対スコアの場合と同様に、正解相対対数尤
度分布と非正解相対対数尤度分布から、最終的な相対ス
コアΔSCP1(x)を以下のように計算する(S6)。
【0029】 ΔP1P2(x)=qG P1P2(x)−qN P1P2(x) (16) ΔSCP1(x)=ΣΔP1P2(x) (17) ここで、Σはphon1以外のphon2についてのΔ
P1P2(x)の総和であり、xは正解相対対数尤度であ
る。綜合スコアSCtoは、絶対スコアSCと相対スコア
ΔSCから求める。例えば、両者の線形結合を考える
(S7)。
【0030】 SCto=λ・SC+(1−λ)・ΔSC (18) ここで、λは結合係数である。λが0のときは絶対スコ
アのみ、λが1のときは相対スコアのみが綜合スコアに
反映される。両スコアの結合は、線形関数に限らず、非
線形関数でもよい。以上の実施例では、各音素ごとに評
価した。これを単語や文章単位で評価する場合は、各音
素ごとの綜合スコアの重み付き平均などが考えられる。
【0031】図6Aは、音声特徴量として、メルケプス
トラムを用いてHMMを構成し、この発明による評価方
法を適用した結果の例である。この図は複数の音素/b
/の音声サンプルを音素/b/として評価したときの結
果であり、各点がそれぞれのサンプルに対する結果であ
る。この実験は、正しい発声がなされたときを仮定した
ものである。横軸は、絶対スコアで、縦軸が相対スコア
である。また、図6Bは、複数の音素/b/以外の音声
サンプルを音素/b/として評価したときの結果であ
る。この実験は、誤った不適切な発声がなされたときを
仮定したものである。これらの結果から、正しい発声
(サンプル)の場合は、絶対スコアと相対スコアの両方
が大きい場合がほとんどであるが、相対スコアのみが大
きいものも数多く見うけられる。誤った発声(サンプ
ル)の場合は、絶対スコアと相対スコアの両方が小さい
場合が多いが、絶対スコアは必ずしも小さい値になると
は限らない。ここに、相対スコアを導入する効果が認め
られた。
【0032】綜合スコアを求める際に線形関数を用いる
と、図6Aと図6Bに示されるように、絶対スコアと相
対スコアで構成される2次元空間上で、直線上の点を同
じスコアとなるように計算される。非線形関数を用いれ
ば、曲線上の点を同じスコアとなるように与えることが
できるので、サンプルの分布に、より即した評価値を与
えることができる。
【0033】上述では音素を単位とする確率モデルを用
いたが、その他の音声基本単位、例えば音節、単語など
でもよい。また絶対対数尤度を用いたが正しい音声単位
のカテゴリの確率モデルに対する正解尤度と、その正解
尤度がどのような広がりを示すかの正解尤度分布と、他
のカテゴリの確率モデルに対する非正解尤度と、その非
正解尤度がどのような広がりを示すかの非正解尤度分布
などを求めてもよい。
【0034】
【発明の効果】以上説明したように、音声認識のための
HMMなどの音響モデルを用いると、正しい発声でも絶
対スコアが悪いことがある。しかし、その場合でも相対
スコアが高いことが多い。従って、絶対スコアと相対ス
コアの両方を用いれば、より正しい発声品質評価が可能
となる。
【0035】この発明は、例えば外国語の発声訓練に用
いることができる。
【図面の簡単な説明】
【図1】学習音声サンプルから正解絶対対数尤度分布と
非正解絶対対数尤度分布を生成する手順を示す流れ図。
【図2】Aは正解絶対対数尤度、非正解絶対対数尤度の
各累積度分布をシグモイド関数で近似した例を示す図、
Bはこれらの確率度密度関数の例を示す図である。
【図3】正解絶対対数尤度と各非正解絶対対数尤度のそ
れぞれの系統分布関数の例を示す図。
【図4】学習音声サンプルから正解相対対数尤度分布と
非正解相対対数尤度分布を生成する手順を示す流れ図。
【図5】この発明方法による品質評価の手順の例を示す
流れ図。
【図6】この発明の実施例を示す図。
【図7】Aは3状態HMMの例を示す図、BはHMMの
確率分布の表現例を示す図である。

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 音響的特徴に関する確率モデルで表現さ
    れた音素、音節、単語などの基本単位の複数の言語的カ
    テゴリを用い、 あらかじめ学習音声により、確率モデルから計算される
    正しいカテゴリとなる尤度の分布と、各誤ったカテゴリ
    となる尤度の分布とを求めておき、 評価される音声サンプルと、その音声に対応した発声さ
    れるべき基本単位系列を入力するステップと、 音声サンプルを基本単位に分解するステップと、 上記分解された音声基本単位に、正しいカテゴリの確率
    モデルを当てはめて尤度を求めるステップと、 上記求めた尤度と上記正しいカテゴリとなる尤度の分
    布、及び上記各誤ったカテゴリとなる尤度の分布とから
    その尤度が正解となる確からしさを示す値及び各非正解
    となる確からしさを示す値をそれぞれ求めるステップ
    と、 これら確からしさを示す値から品質を評価する絶対スコ
    アを求めるステップとを有する音声品質評価方法。
  2. 【請求項2】 上記正しいカテゴリとなる尤度の分布は
    正解絶対対数尤度分布であって、 上記学習音声を正しいカテゴリの確率モデルに当てはめ
    て正解絶対対数尤度を計算するステップと、 その正解絶対対数尤度がどのような値の広がりを示すか
    を表現する正解絶対対数尤度分布を求めるステップとに
    より求め、 上記各誤ったカテゴリとなる尤度の分布は、非正解絶対
    対数尤度分布であって、 上記学習音声を各誤ったカテゴリの確率モデルに当ては
    めて各非正解絶対対数尤度を計算するステップと、 その各非正解絶対対数尤度がどのような値の広がりを示
    すかを表現する非正解絶対対数尤度分布を求めるステッ
    プとにより求め、 上記正しいカテゴリの確率モデルを当てはめて求める尤
    度は正解絶対対数尤度であり、 上記正解となる確からしさを示す値及び上記非正解とな
    る確からしさを示す値はそれぞれ正解絶対対数尤度確率
    密度値及び非正解絶対対数尤度確率密度値であることを
    特徴とする請求項1記載の音声品質評価方法。
  3. 【請求項3】 上記絶対スコアを求めるステップは、上
    記正解絶対対数尤度確率密度値と、各非正解カテゴリに
    対する上記非正解絶対対数尤度確率密度値との差を加算
    して求めるステップであることを特徴とする請求項2記
    載の音声品質評価方法。
  4. 【請求項4】 音響的特徴に関する確率モデルで表現さ
    れた音素、音節、単語などの基本単位の複数の言語的カ
    テゴリを用い、 あらかじめ学習音声により、確率モデルから計算される
    正しいカテゴリとなる尤度と誤ったカテゴリとなる尤度
    との違いの分布(正解相対分布と記す)と、各誤ったカ
    テゴリとなる尤度間の違いの分布(非正解相対分布と記
    す)とを求めておき、 評価される音声サンプルと、その音声に対応した発声さ
    れるべき基本単位系列を入力するステップと、 上記音声サンプルを基本単位に分解するステップと、 上記分解された音声基本単位に、正しいカテゴリの確率
    モデルを当てはめて正解尤度を求めるステップと、 上記分解された音声基本単位に、各誤ったカテゴリの確
    率モデルを当てはめて非正解尤度をそれぞれ求めるステ
    ップと、 上記正解尤度と非正解尤度との違いを相対尤度として求
    めるステップと、 この各相対尤度と上記正解相対分布及び上記非正解相対
    分布とからその相対尤度がその正しいカテゴリと誤った
    カテゴリとの違いとなる確からしさを示す値(正解相対
    確からしさ値と記す)、及びその相対尤度が誤ったカテ
    ゴリと誤ったカテゴリとの違いとなる確からしさを示す
    値(非正解相対確からしさ値と記す)をそれぞれ求める
    ステップと、 これら両確からしさ値から評価する相対スコアを求める
    ステップとを有する音声品質評価方法。
  5. 【請求項5】 上記正解相対分布は、 上記学習音声を正しいカテゴリの確率モデルに当てはめ
    て正解絶対対数尤度を計算するステップと、 上記学習音声を各誤ったカテゴリの確率モデルに当ては
    めて各非正解絶対対数尤度を計算するステップと、 上記正解絶対対数尤度と上記各非正解絶対対数尤度との
    差を正解相対対数尤度として求めるステップと、 その正解相対対数尤度がどのような値の広がりを示すか
    を表現する分布を求めるステップとにより求め、 上記非正解相対分布は、 上記非正解絶対対数尤度どうしの差を非正解相対対数尤
    度として求めるステップと、 上記非正解相対対数尤度がどのような値の広がりを示す
    かを表現する分布を求めるステップとにより求め、 上記正解尤度は正解絶対対数尤度であり、上記非正解尤
    度は非正解絶対対数尤度であり、上記相対尤度は上記正
    解絶対対数尤度と上記非正解絶対対数尤度との差であ
    り、 上記正解相対確からしさ値、及び上記非正解相対確から
    しさ値はそれぞれ正解相対対数尤度確率密度値及び非正
    解相対対数尤度確率密度値であることを特徴とする請求
    項4記載の音声品質評価方法。
  6. 【請求項6】 上記相対スコアを求めるステップは、上
    記正解相対対数尤度確率密度値と、対応する上記非正解
    相対対数尤度確率密度値との差を、各誤りカテゴリの組
    合せを求めてこれらの差を加算して求めるステップであ
    ることを特徴とする請求項5記載の音声品質評価方法。
  7. 【請求項7】 請求項1乃至3の何れかで求めた絶対ス
    コアと、これと対応する請求項4乃至7で求めた相対ス
    コアとを線形結合して綜合スコアを求めて評価結果とす
    ることを特徴とする音声品質評価方法。
  8. 【請求項8】 上記各対数尤度分布は、対応する上記対
    数尤度値に関して累積分布関数を求めるステップと、そ
    の累積分布関数をシグモイド関数から確率密度関数を計
    算するステップとにより求めることを特徴とする請求項
    2、3、5、6の何れかに記載の音声品質評価方法。
  9. 【請求項9】 上記対数尤度分布は、対応する上記対数
    尤度に対し、平均値分散を計算して正規分布を当てはめ
    て求めることを特徴とする請求項2、3、5、6の何れ
    かに記載の音声品質評価方法。
  10. 【請求項10】 音声品質を評価するプログラムを記録
    した記録媒体であって、 上記プログラムは評価される音声サンプルと、その音声
    に対応した発声されるべき音声基本単位系列を入力する
    ステップと、 上記音声サンプルを音声基本単位に分解するステップ
    と、 上記分解された音声基本単位に正しいカテゴリの確率モ
    デルを当てはめて正解絶対対数尤度を計算するステップ
    と、 上記正解絶対対数尤度と予め求めた正解絶対対数尤度分
    布から正解絶対対数尤度確率密度値を計算するステップ
    と、 上記正解絶対対数尤度と予め求めた非正解絶対対数尤度
    分布から非正解絶対対数尤度確率密度値を計算するステ
    ップと、 上記正解絶対対数尤度確率密度値と上記非正解絶対対数
    尤度確率密度値とから上記音声品質の評価を表わす絶対
    スコアを計算するステップと、 を有することを特徴とするコンピュータにより読取り可
    能な記録媒体。
  11. 【請求項11】 音声品質を評価するプログラムを記録
    した記録媒体であって、 上記プログラムは評価される音声サンプルと、その音声
    に対応した発声されるべき音声基本単位系列を入力する
    ステップと、 上記音声サンプルを音声基本単位に分解するステップ
    と、 上記分解された音声基本単位に正しいカテゴリの確率モ
    デルを当てはめて正解絶対対数尤度を計算するステップ
    と、 上記分解された音声基本単位に誤ったカテゴリの確率モ
    デルを当てはめて非正解絶対対数尤度を計算するステッ
    プと、 上記正解絶対対数尤度と上記非正解絶対対数尤度の差を
    計算して正解相対対数尤度を計算するステップと、 上記正解相対対数尤度を予め求めた正解相対対数尤度分
    布から正解相対対数尤度確率密度値を計算するステップ
    と、 上記正解相対対数尤度と予め求めた非正解相対対数尤度
    分布から非正解相対対数尤度確率密度値を計算するステ
    ップと、 上記正解相対対数尤度確率密度値と上記非正解相対対数
    尤度確率密度値とから品質評価を表わす相対スコアを計
    算するステップと、 を有することを特徴とするコンピュータにより読取り可
    能な記録媒体。
  12. 【請求項12】 上記分解された音声基本単位に正しい
    カテゴリの確率モデルを当てはめて正解絶対対数尤度を
    計算するステップと、 上記正解絶対対数尤度と予め求めた正解絶対対数尤度分
    布から正解絶対対数尤度確率密度値を計算するステップ
    と、 上記正解絶対対数尤度と予め求めた非正解絶対対数尤度
    分布から非正解絶対対数尤度確率密度値を計算するステ
    ップと、 上記正解絶対対数尤度確率密度値と上記非正解絶対対数
    尤度確率密度値とから品質評価を表わす絶対スコアを計
    算するステップと、 上記絶対スコアと上記相対スコアとの線形結合を求めて
    品質評価を表わす綜合スコアとするステップと、 上記プログラムが含むことを特徴とする請求項11記載
    の記録媒体。
  13. 【請求項13】 音声品質を評価するために用いるデー
    タを記録した記録媒体であって、 学習音声の音声基本単位を確率モデルに当てはめて計算
    され、 正しいカテゴリとなる尤度の分布を表わす正解絶対対数
    尤度分布と、 誤ったカテゴリとなる尤度の分布を表わす非正解絶対対
    数尤度分布と、 正しいカテゴリとなる尤度と誤ったカテゴリとなる尤度
    との違いの分布を表わす正解相対対数尤度分布と、 各誤ったカテゴリとなる尤度間の違いの分布を表わす非
    正解対数尤度分布と、 が記録されていることを特徴とするコンピュータにより
    読出し可能な記録媒体。
JP9250913A 1997-09-16 1997-09-16 音声品質評価方法および記録媒体 Pending JPH1195795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9250913A JPH1195795A (ja) 1997-09-16 1997-09-16 音声品質評価方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9250913A JPH1195795A (ja) 1997-09-16 1997-09-16 音声品質評価方法および記録媒体

Publications (1)

Publication Number Publication Date
JPH1195795A true JPH1195795A (ja) 1999-04-09

Family

ID=17214891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9250913A Pending JPH1195795A (ja) 1997-09-16 1997-09-16 音声品質評価方法および記録媒体

Country Status (1)

Country Link
JP (1) JPH1195795A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175276A (ja) * 1999-12-17 2001-06-29 Denso Corp 音声認識装置及び記録媒体
JP2007201646A (ja) * 2006-01-24 2007-08-09 Fujitsu Ltd 状態監視装置
JP2015032246A (ja) * 2013-08-06 2015-02-16 Kddi株式会社 数値データ解析装置及びプログラム
JP2016042298A (ja) * 2014-08-18 2016-03-31 株式会社豊田中央研究所 事故情報算出装置、及びプログラム
CN106531190A (zh) * 2016-10-12 2017-03-22 科大讯飞股份有限公司 语音质量评价方法和装置
CN110419078A (zh) * 2017-03-14 2019-11-05 德克萨斯仪器股份有限公司 自动语音识别系统的用户记录关键字的质量反馈
CN111508528A (zh) * 2020-03-12 2020-08-07 上海交通大学 基于自然音频统计特性的无参考音频质量评价方法和装置
JP2022039104A (ja) * 2020-08-27 2022-03-10 日本電信電話株式会社 学習装置、学習方法、推定装置、推定方法及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175276A (ja) * 1999-12-17 2001-06-29 Denso Corp 音声認識装置及び記録媒体
JP2007201646A (ja) * 2006-01-24 2007-08-09 Fujitsu Ltd 状態監視装置
JP4594869B2 (ja) * 2006-01-24 2010-12-08 富士通株式会社 状態監視装置
JP2015032246A (ja) * 2013-08-06 2015-02-16 Kddi株式会社 数値データ解析装置及びプログラム
JP2016042298A (ja) * 2014-08-18 2016-03-31 株式会社豊田中央研究所 事故情報算出装置、及びプログラム
CN106531190A (zh) * 2016-10-12 2017-03-22 科大讯飞股份有限公司 语音质量评价方法和装置
CN110419078A (zh) * 2017-03-14 2019-11-05 德克萨斯仪器股份有限公司 自动语音识别系统的用户记录关键字的质量反馈
CN110419078B (zh) * 2017-03-14 2024-01-23 德克萨斯仪器股份有限公司 用于自动语音识别的系统和方法
CN111508528A (zh) * 2020-03-12 2020-08-07 上海交通大学 基于自然音频统计特性的无参考音频质量评价方法和装置
CN111508528B (zh) * 2020-03-12 2023-02-28 上海交通大学 基于自然音频统计特性的无参考音频质量评价方法和装置
JP2022039104A (ja) * 2020-08-27 2022-03-10 日本電信電話株式会社 学習装置、学習方法、推定装置、推定方法及びプログラム

Similar Documents

Publication Publication Date Title
CN108989341B (zh) 语音自主注册方法、装置、计算机设备及存储介质
JP5530729B2 (ja) 音声理解装置
JP6052814B2 (ja) 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
US6711541B1 (en) Technique for developing discriminative sound units for speech recognition and allophone modeling
JPH1063291A (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
US8005674B2 (en) Data modeling of class independent recognition models
Audhkhasi et al. Theoretical analysis of diversity in an ensemble of automatic speech recognition systems
Mary et al. Searching speech databases: features, techniques and evaluation measures
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
JPH1195795A (ja) 音声品質評価方法および記録媒体
JP7039511B2 (ja) モデル間距離を用いた発音評価用のプログラム、装置及び方法
Bykov et al. Improvement of the learning process of the automated speaker recognition system for critical use with HMM-DNN component
Jambi et al. Speak-Correct: A Computerized Interface for the Analysis of Mispronounced Errors.
Rai et al. An efficient online examination system using speech recognition
CN113035237B (zh) 语音测评方法、装置和计算机设备
CA2896801C (en) False alarm reduction in speech recognition systems using contextual information
Doss Using auxiliary sources of knowledge for automatic speech recognition
Jyothi et al. Revisiting word neighborhoods for speech recognition
Sundaram Effects of Transcription Errors on Supervised Learning in Speech Recognition
Miyazaki et al. Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations
Sigmund Search for keywords and vocal elements in audio recordings
Park et al. Effective acoustic model clustering via decision-tree with supervised learning