JPH04345327A

JPH04345327A - 通話品質客観測定方法

Info

Publication number: JPH04345327A
Application number: JP3118924A
Authority: JP
Inventors: Tetsuro Yamazaki; 哲朗山崎; Hiroshi Irii; 入井　寛
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1991-05-23
Filing date: 1991-05-23
Publication date: 1992-12-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は通話品質客観測定方法に
係り、特に、電話伝送装置から生ずる音声中の歪、雑音
による通話品質劣化を物理測定により推定する通話品質
客観測定方法に関する。

【０００２】

【従来の技術】音声中の歪・雑音が通話品質に及ぼす影
響を表す尺度として、以下のようなものが用いられる。先ず、試験信号として正弦波を用いて、出力信号から入
力信号の周波数成分を除去した後に得られる信号成分を
雑音とし、基本波と高周波を合わせた電圧の２乗平均振
幅に対する基本波を除去し、残った高周波電圧の２乗平
均振幅の比を測定し、入力信号との電圧比を求める高周
波歪率、或いは符号変調（ＰＣＭ；Ｐｕｌｓｅ　Ｃｏｄ
ｅ　Ｍｏｄｕｌａｔｉｏｎ）伝送装置に対しては量子化
歪信号雑音比（ＳＮＱ；Ｓｉｇｎａｌ　ｔｏ　Ｎｏｉｓ
ｅ　ｒａｔｉｏ　ｆｏｒ　Ｑｕａｎｔｉｚａｔｉｏｎ　
ｄｉｓｔｏｒｔｉｏｎ）がある。また、試験信号を音声
或いは、これと類似な信号の場合には、伝送装置の入力
信号と出力信号間の波形の差である信号／雑音比（Ｓ／
Ｎ；Ｓｉｇｎａｌ／Ｎｏｉｓｅ　比）、スペクトルの差
であるスペクトル歪（ＳＤ；Ｓｐｅｃｔｒａｌ　Ｄｉｓ
ｔｏｒｔｉｏｎ）、スペクトル包絡の差に着目して提示
のケプストラム係数をフーリエ変換することにより得ら
れ、従って、スペクトル包絡の差は提示ケプストラム係
数の差、即ち、ケプストラム距離（ＣＤ；Ｃｅｐｓｔｒ
ｕｍ　Ｄｉｓｔａｎｃｅ）などが用いられている。

【０００３】これらより、主観的品質評価値である平均
オピニオン評点（ＭＯＳ；Ｍｅａｎ　Ｏｐｉｎｉｏｎ　
Ｓｃｏｒｅ　）を推定する方法として、既に主観評価が
行われた音声から上記の物理的尺度を求め、ＭＯＳとの
間に成立する回帰式を予め求めておき、試験音声から求
められた物理尺度上の値をこの回帰式に代入してＭＯＳ
の推定値を得る。この場合、物理尺度は通常は一つの尺
度のみで回帰式を表現している。以下に物理尺度である
ケプストラム距離（ＣＤ；Ｃｅｐｓｔｒｕｍ　Ｄｉｓｔ
ａｎｃｅ）からＭＯＳを求める回帰式を示す。ＭＯＳ＝αＣＤ２　＋βＣＤ＋γ 但し、α、β及び、γは回帰係数である。また、これら
の物理尺度上の値は、長時間にわたる平均が多く用いら
れている。これには短時間セグメント毎の値を用いる場
合もあるが、それぞれのセグメントの物理量は相関がな
いものとしていた。

【０００４】また、ＭＯＳを推定する方法は音声信号を
セグメント化して、その音声信号の音響的特徴パラメー
タを標準パターン化し、試験音声の各セグメントの特徴
パラメータが生成するパターンとのパターンマッチング
から推定する方法がある。このときの生成するパターン
の単位はセグメントであり、推定過程にも入力・出力音
声の特徴パラメータの違いである歪パラメータが用いら
れる。

【０００５】

【発明が解決しようとする課題】しかるに、従来の音声
品質を人間の感覚を利用して求める主観的品質評価を行
う方法では、音声品質は複数の心理要因により決定され
ていると考えられ、一つの物理的な特徴パラメータ、歪
パラメータで全ての心理要因を表現することは困難であ
る。また、複数の特徴パラメータ、歪パラメータを用い
た方法も試みられているが、従来の方法のように、物理
量とＭＯＳとの回帰式によって推定する方法は、推定値
を算出する時に使用した主観測定値に依存して回帰係数
が変化してしまうため、歪や雑音の種類が増えるとその
回帰式が使用できなくなるという問題がある。また、主
観値としてＭＯＳのみが用いられているため、より被験
者の評価傾向が反映されていると考えられる評点毎の投
票率に関する情報は全く利用されていなかった。また、
従来のパターン認識を用いる方法では、歪の前後のパラ
メータの時間的変化が表現されていないため、ディジタ
ル通信系における符号誤り、過負荷のような原因によっ
て生ずる非定常な歪に対しては適用できないという問題
がある。

【０００６】本発明は上記の点に鑑みなされたもので、
品質評価値の推定に複数の物理的パラメータを用いて歪
や雑音の種類が増えた場合に拡張性を有し、さらに、非
定常な歪が生じた音声の品質推定が可能であり、誤差が
少ない通話品質客観測定方法を提供することを目的とす
る。

【０００７】

【課題を解決するための手段】電話伝送装置における通
話の雑音及び歪の特徴をパラメータの短時間時系列で表
した標準パターンを用いてパターン認識手法により品質
を推定する通話品質客観測定方法において、伝送装置の
入力及び出力音声である学習音声を短時間毎にセグメン
トに分割し、着目したセグメントの前後の連続する数セ
グメントを１ブロックとし、ブロック内の特徴パラメー
タを時系列的に抽出し、学習音声の全てのブロックに対
し、クラスタリングを行うことにより類似した複数のグ
ループに分類し、それぞれのグループに含まれる各ブロ
ックについて入力信号と時間的に対応する出力信号ブロ
ックの特徴パラメータを全てのブロックについて集め、
それを集合とし、集合を代表する標準パターンを決定し
、品質を推定しようとする試験音声について、各セグメ
ントをブロック化し、各ブロック毎に決定された標準パ
ターンとのパターンマッチングを行い、最も高い類似度
が得られたパターンからパターンが決められた学習音声
に対する品質評点分布を用いて試験音声の品質評点を推
定する。

【０００８】

【作用】本発明は学習過程と品質推定過程の２つの過程
を経ることにより通話品質の推定が行われる。本発明で
は信号の短時間毎のセグメントが持っている音響的な特
徴が、時間領域、周波数領域での物理パラメータの値の
組み合わせ、即ちパターンとして表現できると考える。それぞれのパラメータは複数の次元で表現される。先ず
、学習過程では、伝送装置の入力側に加えられた音声と
出力側の音声が対となっており、異なった歪を生じる伝
送装置を通して得られた標準パターンとしてのサンプル
が用意されている。推定過程では推定対象となる試験音
声は歪音声のみが用意される。歪音声の音響分析を行い
、セグメント毎に特徴パラメータの値を求める。次にブ
ロック内のセグメント毎に求められたパラメータが作る
パターンと学習過程で既に用意されている標準パターン
とのマッチングを行い、試験音声の品質評点を推定する
ので、原音声と歪音声との時間軸の整合を行う必要がな
い。

【０００９】

【実施例】図１は本発明の一実施例の処理過程を説明す
るための図を示す。本発明の処理過程は学習過程１０と
推定過程２０の２つの過程処理を行うことにより試験音
声の品質評点を推定する。学習過程１０では、既に主観
測定が行われ、オピニオン評点が明らかになっている学
習音声サンプル１を利用する。この学習音声サンプル１
は通話伝送装置の入力側に入力された音声である原音声
２と出力側の音声である歪音声３が対となっており、異
なった歪を生ずる伝送装置を通して得られた学習音声サ
ンプルが用意されている。この学習音声サンプル１は標
準パターン作成に用いられ、学習音声サンプルについて
は予め主観品質測定が行われ、サンプル毎に品質が求め
られている。

【００１０】先ず、ｉ番目の歪を与えた学習音声サンプ
ル１に着目する。学習音声サンプル１の原音声２は短時
間毎のセグメントに分割され、そのセグメント毎に音響
分析４が行われる。さらに音響分析４により時間領域及
び、周波数領域での特徴パラメータｘ５の値を求める。ここでｉ番目のセグメントの前後数セグメントを１ブロ
ックとして定義する。図２はブロックに重複してセグメ
ントが存在している状態を示す図である。同図が示すよ
うにブロック３０は音声の開始から１セグメントずつず
らしながら設定される。このようにしてブロックを決定
することにより、各セグメントはいくつかのブロックに
重複して存在することになる。これらブロックの音響的
な特徴は、それぞれのパメータの値を成分ｘ１，ｘ２　
・・・とする特徴ベクトルｘで表現できる。但し、ｘは
各ブロックから抽出した音響パラメータの値である。抽
出された特徴パラメータ５のうち１部を使い、この特徴
パラメータ５を成分とする特徴ベクトル空間をクラスタ
リング６によって各ブロックを性質の似たグループに分
類することによりグループ化され、各ブロックにグルー
プ番号ｊを付与する。

【００１１】一方、学習音声サンプル１の歪音声３につ
いては先ず、歪音声３の音響分析８を行い、原音声２に
関して求めたように特徴パラメータ９の値を求める。本
実施例ではブロック内での特徴パラメータ９の時間的変
化を利用するため、セグメント毎に区別して扱う。原音
声２と歪音声３を時間的に対応させ、原音声２で同じグ
ループ番号ｊを付けたブロックを歪音声３中のブロック
から抽出する。抽出されたブロック中の特徴パラメータ
を代表するベクトルを同一グループ内の平均値Ｍｄｉ　
ｃｊ　によって与える。原音声２にｉ番目の歪を与える
ことによる音声の特徴パラメータ５の標準パターン１１
を平均値Ｍｄｉ　ｃｊ　と、平均値のまわりの分散Ｃｄ
ｉ　ｃｊ　とで表現する。

【００１２】ｉ番目の歪を与えられた音声のｅ番目のブ
ロックｅがグループｊとされた時、特徴ベクトルｘｅ　
がとる確率分布関数　　ｐ（ｘｅ　｜ｄｉ，ｃｊ　）は
次のように、平均値Ｍｄｉ　ｃｊ　，分散Ｃｄｉ　ｃｊ
　の正規分布関数Ｇで表せると仮定する。

【数１】

【００１３】逆に、歪音声３のあるブロックの特徴ベク
トルがｘであった時に、この音声の歪がｉ番目の歪であ
ると言える条件付き確率は

【数２】式（２）　において、ｐ（ｄｉ　，　ｃｊ　）はグルー
プｊに属するブロックで、ｉ番目の歪が発生する先験的
確率であり、ｊ，ｍはグループの違い、ｋは歪の種類の
違いを表す。

【００１４】着目するブロックの特徴ベクトルがｘｅ　
であったときに、オピニオン試験の評点がカテゴリｑ，
ｑｎ＝１（非常に悪い）、２（悪い）、３（普通）、４
（良い）、５（非常に良い）に投票される確率は、

【数
３】となる。ここで、ｘは特徴ベクトルのブロック間の平均
である。また、ｐ（ｑｎ　｜ｘ，　ｄｉ　，　ｃｊ　）
はｊグループだけにｉのような種類の歪が生じたときの
オピニオン評点の分布データとして与えられる。従来の
方法では同じ歪でもそのグループの音響的な特徴が異な
れば、心理的に異なった影響が生じ、確率ｐが異なって
くるにもかかわらず、全く同じ確率ｐ（ｄ｜ｘｅ　）を
用いていたため、精度を劣化させる原因となっていた。

【００１５】次にｉ番目の音声のブロック全ての評点別
確率の平均を求める。

【数４】ここで、Ｌは１つの音声のブロック数である。

【００１６】推定されるＭＯＳ推定値（ＭＯＳ；ｙ）は
条件付き確率ｐ（ｑｎ　｜ｘ）との間に次のような重回
帰を考え重回帰係数αｎ（ｎ＝０，１，２，３，４，５
）を算出する。

【数５】さらに、別の種類の歪を与えた音声サンプルについても
同様な操作を行う。その結果、標準パターンはそれぞれ
のグループについて、用意された歪の種類の数だけでき
ることになる。この標準パターン及び重回帰係数αｎは
次の推定過程２０のために出力される。

【００１７】次に推定過程２０では、推定対象となる試
験音声は歪音声１５だけが用意される。従って、歪パラ
メータを用いた従来の方法では原音声と歪音声の両音声
を使用するための両音声の時間軸の整合が不可欠であっ
たが、本実施例では原音声を試験音声としないため、こ
れが不要になる。先ず、推定過程２０では音響分析１６
を行い、セグメント毎に特徴パラメータｘの値１７を求
める。次に、ブロック内のセグメント毎に求められたパ
ラメータがつくるパターンと先の学習過程１０で既に用
意されている標準パターン１１とのパターンマッチング
１８を行い、式（２）　、（３）　、（４）　式に従っ
て条件付き確率ｐ（ｑｋ　｜ｘ）を求める。さらに式（
５）　に従い、学習過程１０で用意された重回帰係数α
ｎを用いてｙ（ＭＯＳ推定値）を求める。

【００１８】図３は本発明の一実施例の構成を示す。本
実施例のシステム構成はＡ／Ｄ変換器３１、線形予測（
ＬＰＣ；Ｌｉｎｅａｒ　ＰｒｅｄｉｃｔｉｖｅＣｏｒｄ
ｉｎｇ）　分析器３２、高速フーリエ変換（ＦＦＴ；Ｆ
ａｓｔ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）　演算
器３３、メモリＡ３４、パワー演算器３５、ゼロクロス
カウンタ３６、メモリＢ３７、メモリＣ３８、クラスタ
リング演算器３９、パターンマッチング演算器４０、メ
モリＤ４１、標準パターン作成器４２、重回帰係数演算
器４３、メモリＥ４４、積和演算器４５、メモリＦ４６
、平均値演算器４７よりなる。

【００１９】先ず、学習過程１０について説明する。学
習過程１０では歪のない原音声２、その原音声２に異な
った歪を与えた複数の歪音声サンプル３及び、歪音声の
オピニオン評価試験の評価値の頻度が用意される。まず
、原音声２はＡ／Ｄ変換器３１により標本化され、ディ
ジタルデータとなる。本実施例ではクラスタリング６の
特徴パラメータ５は短時間区間（セグメント）の音声波
形の振幅の自乗平均であるセグメントのパワー及び、短
時間区間で音声波形が零レベルを横切る回数である零交
差回数を使用する。１ブロック内のパワーはディジタル
データである音声データがパワー演算器３５に入力され
、セグメント毎に抽出される。また、零交差回数はディ
ジタルデータである音声データがゼロクロスカウンタ３
６に入力され、セグメント毎に抽出される。メモリＢ３
７はパワー演算器３５により抽出された原音声サンプル
２の全てのパワーのセグメントをブロック化し、蓄積す
る。メモリＣ３８はゼロクロスカウンタ３６により抽出
された原音声サンプル２の全ての零交差回数のセグメン
トをブロック化し、蓄積する。クラスタリング演算器３
９はメモリＢ３７及び、メモリＣ３８の全てのブロック
を複数個のグループに分類し、各ブロックを性質が類似
しているグループに分類するためにグループ番号（ｊ）
を付与する。

【００２０】上記の処理終了後に、歪音声が１種類ずつ
Ａ／Ｄ変換器３１に入力され、原音声と時間軸が合うよ
うにセグメント及びブロックが決定される。次にＬＰＣ
分析器３２はＬＰＣ係数を抽出し、次段のＦＦＴ演算器
３３に入力される。ＦＦＴ演算器３３はＬＰＣ分析した
結果得られるＬＰＣ係数をＬＰＣケプストラム係数に変
換する。このＬＰＣケプストラム係数はＬＰＣ分析によ
って得られたスペクトルの対数を逆フーリエ変換した結
果得られる係数である。メモリＡ３４は抽出されたＬＰ
Ｃケプストラム係数により時間的に対応する原音声２の
ブロックのグループ番号が参照され、その参照番号とＬ
ＰＣケプストラム係数を蓄積する。この操作を用意され
た全ての歪音声３に対して繰り返す。

【００２１】次に、メモリＡ３４から同一グループ番号
が付与されたブロックのＬＰＣケプストラム係数を全て
読み出し、ＬＰＣケプストラム係数の同一次数の平均値
Ｍｄｉ　ｃｊ　と分散Ｃｄｉ　ｃｊ　を標準パターン作
成器４２により求め、その結果である標準パターンをメ
モリＤ４１に記憶する。

【００２２】パターンマッチング演算器４０はメモリＡ
３４からそれぞれの歪音声３のケプストラム係数を読み
出し、メモリＤ４１からの標準パターンとのパターンマ
ッチングを行い、条件付き確率ｐ（ｑｎ　｜ｘ）１２を
算出する。これらの操作を全ての学習音声サンプル１の
歪音声３に対して行う。

【００２３】重回帰係数演算器４３はパターンマッチン
グ演算器４０からの条件付き確率１２と、予め用意され
たオピニオン評価頻度１３を用いて、重回帰係数αｎ１
４を算出する。この重回帰係数１４はメモリＥ４４に記
憶される。

【００２４】次に推定過程について説明する。ＭＯＳを
推定したい歪音声１５はＡ／Ｄ変換器３１により標本化
され、ディジタルデータとなる。推定過程ではＬＰＣ分
析器３２、ＦＦＴ演算器３３のみのパスで処理され、抽
出されたケプストラム係数がメモリＡ３４に記憶される
。パターンマッチング演算器４０はメモリＡ３４から１
ブロック毎のケプストラム係数を読み出すと共に、メモ
リＤ４１に記憶されている標準パターンを順番に読み出
し、ケプストラム係数と学習過程で得られた標準パター
ンのパターンマッチング１８を行い、その結果として、
条件付き確率ｐ（ｑｋ　｜ｘ）１９が出力される。この
確率とメモリＥ４４から読み出される重回帰係数αｎを
積和演算器４５に入力し、当該ブロックのＭＯＳ推定値
２１を算出し、メモリＦ４６に備える。この操作を試験
音声（推定したい歪音声１５）の全てのブロックについ
て順次行う。最後に平均値演算器４７が平均値を求め、
ＭＯＳ推定値として出力する。

【００２５】図４は本発明の方法を用いた場合と、従来
のケプストラム距離尺度法で通話品質を推定した場合の
誤差を示す。同図はケプストラム距離尺度法で推定した
ときの主観評価によるＭＯＳとＭＯＳ推定値を示す。同
図により本発明の方法は従来の方法に較べて誤差が少な
いことがわかる。

【００２６】

【発明の効果】上述のように本発明によれば、品質評価
値の推定に複数の物理的パラメータを用い、しかもそれ
をパターンとして持っているため、歪や雑音の種類が増
えればパターンの種類を増やしていけばよく、拡張性が
ある。また、物理的には同じ歪であっても音韻環境が異
なるため、心理的には違った印象を与える効果は各セグ
メントが音響的に似たグループにクラスタリングされて
いることによって推定法に反映することができる。さら
に、複数のセグメントをブロック化し、各パラメータが
ブロック内での時系列的変化として表現されているため
、歪の発生前後まで含めた歪尺度の変化がパターン化さ
れるので、非定常な歪が生じた音声の品質推定に有用で
ある。符号誤り雑音が生じた音声のＭＯＳを本発明の方
法と既存の方法の一つであるケプストラム距離尺度法で
推定したときの主観値との誤差を比較すると、本発明の
誤差の方が小さいことがわかる。これにより、パターン
認識を用いる方法において、歪前後のパラメータの時系
列的な変化が表現されるので、ディジタル通信系におけ
る符号誤り、過負荷のような原因によって生ずる非定常
な歪に対して適用できる。

【図面の簡単な説明】

【図１】本発明の一実施例の処理過程を説明するための
図である。

【図２】ブロックに重複してセグメントが存在している
状態を示す図である。

【図３】本発明の一実施例の構成図である。

【図４】本発明の方法を用いた場合と、従来のケプスト
ラム距離尺度法で通話品質を推定した場合の誤差を示す
グラフである。

【符号の説明】

１　　学習音声サンプル２　　原音声３　　歪音声４　　音響分析５、９、１７　　特徴パラメータ６　　クラスタリング７　　グループ情報８　　音響分析１０　　学習過程１１　　標準パターン作成１２　　評点別確率平均１３　　学習用音声の主観品質評価値１４　　重回帰係数１５　　推定したい歪音声１６　　音響分析１８　　パターンマッチング１９　　条件付き確率算出２０　　推定過程２１　　ＭＯＳ推定値３１　　Ａ／Ｄ変換器３２　　ＬＰＣ分析器３３　　ＦＦＴ演算器３４　　メモリＡ３５　　パワー演算器３６　　ゼロクロスカウンタ３７　　メモリＢ３８　　メモリＣ３９　　クラスタリング演算器４０　　パターンマッチング演算器４１　　メモリＤ４２　　標準パターン作成器４３　　重回帰係数演算器４４　　メモリＥ４５　　積和演算器４６　　メモリＦ４７　　平均値演算器

Claims

【特許請求の範囲】

【請求項１】　　電話伝送装置における通話の雑音及び
歪の特徴をパラメータの短時間時系列で表した標準パタ
ーンを用いて、パターン認識手法により品質を推定する
通話品質客観測定方法において、伝送装置の入力及び出
力音声である学習音声を短時間毎にセグメントに分割し
、着目したセグメントの前後の連続する数セグメントを
１ブロックとし、ブロック内の特徴パラメータを時系列
的に抽出し、該学習音声全てのブロックに対し、クラス
タリングを行うことにより類似した複数のグループに分
類し、それぞれのグループに含まれる各ブロックについ
て入力信号と時間的に対応する出力信号ブロックの特徴
パラメータを全てのブロックについて集め、それを集合
とし、該集合を代表する標準パターンを決定し、品質を
推定しようとする試験音声について、各セグメントをブ
ロック化し、各ブロック毎に決定された前記標準パター
ンとのパターンマッチングを行い、最も高い類似度が得
られたパターンから該パターンが決められた前記学習音
声に対する品質評点分布を用いて前記試験音声の品質評
点を推定することを特徴とする通話品質客観測定方法。