JPH04345327A - 通話品質客観測定方法 - Google Patents
通話品質客観測定方法Info
- Publication number
- JPH04345327A JPH04345327A JP3118924A JP11892491A JPH04345327A JP H04345327 A JPH04345327 A JP H04345327A JP 3118924 A JP3118924 A JP 3118924A JP 11892491 A JP11892491 A JP 11892491A JP H04345327 A JPH04345327 A JP H04345327A
- Authority
- JP
- Japan
- Prior art keywords
- quality
- pattern
- speech
- block
- blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000691 measurement method Methods 0.000 title claims abstract description 4
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000012567 pattern recognition method Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 12
- 238000013441 quality evaluation Methods 0.000 abstract description 7
- 206010013952 Dysphonia Diseases 0.000 abstract description 4
- 230000015654 memory Effects 0.000 description 27
- 239000013598 vector Substances 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 230000004800 psychological effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Landscapes
- Monitoring And Testing Of Transmission In General (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は通話品質客観測定方法に
係り、特に、電話伝送装置から生ずる音声中の歪、雑音
による通話品質劣化を物理測定により推定する通話品質
客観測定方法に関する。
係り、特に、電話伝送装置から生ずる音声中の歪、雑音
による通話品質劣化を物理測定により推定する通話品質
客観測定方法に関する。
【0002】
【従来の技術】音声中の歪・雑音が通話品質に及ぼす影
響を表す尺度として、以下のようなものが用いられる。 先ず、試験信号として正弦波を用いて、出力信号から入
力信号の周波数成分を除去した後に得られる信号成分を
雑音とし、基本波と高周波を合わせた電圧の2乗平均振
幅に対する基本波を除去し、残った高周波電圧の2乗平
均振幅の比を測定し、入力信号との電圧比を求める高周
波歪率、或いは符号変調(PCM;Pulse Cod
e Modulation)伝送装置に対しては量子化
歪信号雑音比(SNQ;Signal to Nois
e ratio for Quantization
distortion)がある。また、試験信号を音声
或いは、これと類似な信号の場合には、伝送装置の入力
信号と出力信号間の波形の差である信号/雑音比(S/
N;Signal/Noise 比)、スペクトルの差
であるスペクトル歪(SD;Spectral Dis
tortion)、スペクトル包絡の差に着目して提示
のケプストラム係数をフーリエ変換することにより得ら
れ、従って、スペクトル包絡の差は提示ケプストラム係
数の差、即ち、ケプストラム距離(CD;Cepstr
um Distance)などが用いられている。
響を表す尺度として、以下のようなものが用いられる。 先ず、試験信号として正弦波を用いて、出力信号から入
力信号の周波数成分を除去した後に得られる信号成分を
雑音とし、基本波と高周波を合わせた電圧の2乗平均振
幅に対する基本波を除去し、残った高周波電圧の2乗平
均振幅の比を測定し、入力信号との電圧比を求める高周
波歪率、或いは符号変調(PCM;Pulse Cod
e Modulation)伝送装置に対しては量子化
歪信号雑音比(SNQ;Signal to Nois
e ratio for Quantization
distortion)がある。また、試験信号を音声
或いは、これと類似な信号の場合には、伝送装置の入力
信号と出力信号間の波形の差である信号/雑音比(S/
N;Signal/Noise 比)、スペクトルの差
であるスペクトル歪(SD;Spectral Dis
tortion)、スペクトル包絡の差に着目して提示
のケプストラム係数をフーリエ変換することにより得ら
れ、従って、スペクトル包絡の差は提示ケプストラム係
数の差、即ち、ケプストラム距離(CD;Cepstr
um Distance)などが用いられている。
【0003】これらより、主観的品質評価値である平均
オピニオン評点(MOS;Mean Opinion
Score )を推定する方法として、既に主観評価が
行われた音声から上記の物理的尺度を求め、MOSとの
間に成立する回帰式を予め求めておき、試験音声から求
められた物理尺度上の値をこの回帰式に代入してMOS
の推定値を得る。この場合、物理尺度は通常は一つの尺
度のみで回帰式を表現している。以下に物理尺度である
ケプストラム距離(CD;Cepstrum Dist
ance)からMOSを求める回帰式を示す。 MOS=αCD2 +βCD+γ 但し、α、β及び、γは回帰係数である。また、これら
の物理尺度上の値は、長時間にわたる平均が多く用いら
れている。これには短時間セグメント毎の値を用いる場
合もあるが、それぞれのセグメントの物理量は相関がな
いものとしていた。
オピニオン評点(MOS;Mean Opinion
Score )を推定する方法として、既に主観評価が
行われた音声から上記の物理的尺度を求め、MOSとの
間に成立する回帰式を予め求めておき、試験音声から求
められた物理尺度上の値をこの回帰式に代入してMOS
の推定値を得る。この場合、物理尺度は通常は一つの尺
度のみで回帰式を表現している。以下に物理尺度である
ケプストラム距離(CD;Cepstrum Dist
ance)からMOSを求める回帰式を示す。 MOS=αCD2 +βCD+γ 但し、α、β及び、γは回帰係数である。また、これら
の物理尺度上の値は、長時間にわたる平均が多く用いら
れている。これには短時間セグメント毎の値を用いる場
合もあるが、それぞれのセグメントの物理量は相関がな
いものとしていた。
【0004】また、MOSを推定する方法は音声信号を
セグメント化して、その音声信号の音響的特徴パラメー
タを標準パターン化し、試験音声の各セグメントの特徴
パラメータが生成するパターンとのパターンマッチング
から推定する方法がある。このときの生成するパターン
の単位はセグメントであり、推定過程にも入力・出力音
声の特徴パラメータの違いである歪パラメータが用いら
れる。
セグメント化して、その音声信号の音響的特徴パラメー
タを標準パターン化し、試験音声の各セグメントの特徴
パラメータが生成するパターンとのパターンマッチング
から推定する方法がある。このときの生成するパターン
の単位はセグメントであり、推定過程にも入力・出力音
声の特徴パラメータの違いである歪パラメータが用いら
れる。
【0005】
【発明が解決しようとする課題】しかるに、従来の音声
品質を人間の感覚を利用して求める主観的品質評価を行
う方法では、音声品質は複数の心理要因により決定され
ていると考えられ、一つの物理的な特徴パラメータ、歪
パラメータで全ての心理要因を表現することは困難であ
る。また、複数の特徴パラメータ、歪パラメータを用い
た方法も試みられているが、従来の方法のように、物理
量とMOSとの回帰式によって推定する方法は、推定値
を算出する時に使用した主観測定値に依存して回帰係数
が変化してしまうため、歪や雑音の種類が増えるとその
回帰式が使用できなくなるという問題がある。また、主
観値としてMOSのみが用いられているため、より被験
者の評価傾向が反映されていると考えられる評点毎の投
票率に関する情報は全く利用されていなかった。また、
従来のパターン認識を用いる方法では、歪の前後のパラ
メータの時間的変化が表現されていないため、ディジタ
ル通信系における符号誤り、過負荷のような原因によっ
て生ずる非定常な歪に対しては適用できないという問題
がある。
品質を人間の感覚を利用して求める主観的品質評価を行
う方法では、音声品質は複数の心理要因により決定され
ていると考えられ、一つの物理的な特徴パラメータ、歪
パラメータで全ての心理要因を表現することは困難であ
る。また、複数の特徴パラメータ、歪パラメータを用い
た方法も試みられているが、従来の方法のように、物理
量とMOSとの回帰式によって推定する方法は、推定値
を算出する時に使用した主観測定値に依存して回帰係数
が変化してしまうため、歪や雑音の種類が増えるとその
回帰式が使用できなくなるという問題がある。また、主
観値としてMOSのみが用いられているため、より被験
者の評価傾向が反映されていると考えられる評点毎の投
票率に関する情報は全く利用されていなかった。また、
従来のパターン認識を用いる方法では、歪の前後のパラ
メータの時間的変化が表現されていないため、ディジタ
ル通信系における符号誤り、過負荷のような原因によっ
て生ずる非定常な歪に対しては適用できないという問題
がある。
【0006】本発明は上記の点に鑑みなされたもので、
品質評価値の推定に複数の物理的パラメータを用いて歪
や雑音の種類が増えた場合に拡張性を有し、さらに、非
定常な歪が生じた音声の品質推定が可能であり、誤差が
少ない通話品質客観測定方法を提供することを目的とす
る。
品質評価値の推定に複数の物理的パラメータを用いて歪
や雑音の種類が増えた場合に拡張性を有し、さらに、非
定常な歪が生じた音声の品質推定が可能であり、誤差が
少ない通話品質客観測定方法を提供することを目的とす
る。
【0007】
【課題を解決するための手段】電話伝送装置における通
話の雑音及び歪の特徴をパラメータの短時間時系列で表
した標準パターンを用いてパターン認識手法により品質
を推定する通話品質客観測定方法において、伝送装置の
入力及び出力音声である学習音声を短時間毎にセグメン
トに分割し、着目したセグメントの前後の連続する数セ
グメントを1ブロックとし、ブロック内の特徴パラメー
タを時系列的に抽出し、学習音声の全てのブロックに対
し、クラスタリングを行うことにより類似した複数のグ
ループに分類し、それぞれのグループに含まれる各ブロ
ックについて入力信号と時間的に対応する出力信号ブロ
ックの特徴パラメータを全てのブロックについて集め、
それを集合とし、集合を代表する標準パターンを決定し
、品質を推定しようとする試験音声について、各セグメ
ントをブロック化し、各ブロック毎に決定された標準パ
ターンとのパターンマッチングを行い、最も高い類似度
が得られたパターンからパターンが決められた学習音声
に対する品質評点分布を用いて試験音声の品質評点を推
定する。
話の雑音及び歪の特徴をパラメータの短時間時系列で表
した標準パターンを用いてパターン認識手法により品質
を推定する通話品質客観測定方法において、伝送装置の
入力及び出力音声である学習音声を短時間毎にセグメン
トに分割し、着目したセグメントの前後の連続する数セ
グメントを1ブロックとし、ブロック内の特徴パラメー
タを時系列的に抽出し、学習音声の全てのブロックに対
し、クラスタリングを行うことにより類似した複数のグ
ループに分類し、それぞれのグループに含まれる各ブロ
ックについて入力信号と時間的に対応する出力信号ブロ
ックの特徴パラメータを全てのブロックについて集め、
それを集合とし、集合を代表する標準パターンを決定し
、品質を推定しようとする試験音声について、各セグメ
ントをブロック化し、各ブロック毎に決定された標準パ
ターンとのパターンマッチングを行い、最も高い類似度
が得られたパターンからパターンが決められた学習音声
に対する品質評点分布を用いて試験音声の品質評点を推
定する。
【0008】
【作用】本発明は学習過程と品質推定過程の2つの過程
を経ることにより通話品質の推定が行われる。本発明で
は信号の短時間毎のセグメントが持っている音響的な特
徴が、時間領域、周波数領域での物理パラメータの値の
組み合わせ、即ちパターンとして表現できると考える。 それぞれのパラメータは複数の次元で表現される。先ず
、学習過程では、伝送装置の入力側に加えられた音声と
出力側の音声が対となっており、異なった歪を生じる伝
送装置を通して得られた標準パターンとしてのサンプル
が用意されている。推定過程では推定対象となる試験音
声は歪音声のみが用意される。歪音声の音響分析を行い
、セグメント毎に特徴パラメータの値を求める。次にブ
ロック内のセグメント毎に求められたパラメータが作る
パターンと学習過程で既に用意されている標準パターン
とのマッチングを行い、試験音声の品質評点を推定する
ので、原音声と歪音声との時間軸の整合を行う必要がな
い。
を経ることにより通話品質の推定が行われる。本発明で
は信号の短時間毎のセグメントが持っている音響的な特
徴が、時間領域、周波数領域での物理パラメータの値の
組み合わせ、即ちパターンとして表現できると考える。 それぞれのパラメータは複数の次元で表現される。先ず
、学習過程では、伝送装置の入力側に加えられた音声と
出力側の音声が対となっており、異なった歪を生じる伝
送装置を通して得られた標準パターンとしてのサンプル
が用意されている。推定過程では推定対象となる試験音
声は歪音声のみが用意される。歪音声の音響分析を行い
、セグメント毎に特徴パラメータの値を求める。次にブ
ロック内のセグメント毎に求められたパラメータが作る
パターンと学習過程で既に用意されている標準パターン
とのマッチングを行い、試験音声の品質評点を推定する
ので、原音声と歪音声との時間軸の整合を行う必要がな
い。
【0009】
【実施例】図1は本発明の一実施例の処理過程を説明す
るための図を示す。本発明の処理過程は学習過程10と
推定過程20の2つの過程処理を行うことにより試験音
声の品質評点を推定する。学習過程10では、既に主観
測定が行われ、オピニオン評点が明らかになっている学
習音声サンプル1を利用する。この学習音声サンプル1
は通話伝送装置の入力側に入力された音声である原音声
2と出力側の音声である歪音声3が対となっており、異
なった歪を生ずる伝送装置を通して得られた学習音声サ
ンプルが用意されている。この学習音声サンプル1は標
準パターン作成に用いられ、学習音声サンプルについて
は予め主観品質測定が行われ、サンプル毎に品質が求め
られている。
るための図を示す。本発明の処理過程は学習過程10と
推定過程20の2つの過程処理を行うことにより試験音
声の品質評点を推定する。学習過程10では、既に主観
測定が行われ、オピニオン評点が明らかになっている学
習音声サンプル1を利用する。この学習音声サンプル1
は通話伝送装置の入力側に入力された音声である原音声
2と出力側の音声である歪音声3が対となっており、異
なった歪を生ずる伝送装置を通して得られた学習音声サ
ンプルが用意されている。この学習音声サンプル1は標
準パターン作成に用いられ、学習音声サンプルについて
は予め主観品質測定が行われ、サンプル毎に品質が求め
られている。
【0010】先ず、i番目の歪を与えた学習音声サンプ
ル1に着目する。学習音声サンプル1の原音声2は短時
間毎のセグメントに分割され、そのセグメント毎に音響
分析4が行われる。さらに音響分析4により時間領域及
び、周波数領域での特徴パラメータx5の値を求める。 ここでi番目のセグメントの前後数セグメントを1ブロ
ックとして定義する。図2はブロックに重複してセグメ
ントが存在している状態を示す図である。同図が示すよ
うにブロック30は音声の開始から1セグメントずつず
らしながら設定される。このようにしてブロックを決定
することにより、各セグメントはいくつかのブロックに
重複して存在することになる。これらブロックの音響的
な特徴は、それぞれのパメータの値を成分x1,x2
・・・とする特徴ベクトルxで表現できる。但し、xは
各ブロックから抽出した音響パラメータの値である。抽
出された特徴パラメータ5のうち1部を使い、この特徴
パラメータ5を成分とする特徴ベクトル空間をクラスタ
リング6によって各ブロックを性質の似たグループに分
類することによりグループ化され、各ブロックにグルー
プ番号jを付与する。
ル1に着目する。学習音声サンプル1の原音声2は短時
間毎のセグメントに分割され、そのセグメント毎に音響
分析4が行われる。さらに音響分析4により時間領域及
び、周波数領域での特徴パラメータx5の値を求める。 ここでi番目のセグメントの前後数セグメントを1ブロ
ックとして定義する。図2はブロックに重複してセグメ
ントが存在している状態を示す図である。同図が示すよ
うにブロック30は音声の開始から1セグメントずつず
らしながら設定される。このようにしてブロックを決定
することにより、各セグメントはいくつかのブロックに
重複して存在することになる。これらブロックの音響的
な特徴は、それぞれのパメータの値を成分x1,x2
・・・とする特徴ベクトルxで表現できる。但し、xは
各ブロックから抽出した音響パラメータの値である。抽
出された特徴パラメータ5のうち1部を使い、この特徴
パラメータ5を成分とする特徴ベクトル空間をクラスタ
リング6によって各ブロックを性質の似たグループに分
類することによりグループ化され、各ブロックにグルー
プ番号jを付与する。
【0011】一方、学習音声サンプル1の歪音声3につ
いては先ず、歪音声3の音響分析8を行い、原音声2に
関して求めたように特徴パラメータ9の値を求める。本
実施例ではブロック内での特徴パラメータ9の時間的変
化を利用するため、セグメント毎に区別して扱う。原音
声2と歪音声3を時間的に対応させ、原音声2で同じグ
ループ番号jを付けたブロックを歪音声3中のブロック
から抽出する。抽出されたブロック中の特徴パラメータ
を代表するベクトルを同一グループ内の平均値Mdi
cj によって与える。原音声2にi番目の歪を与える
ことによる音声の特徴パラメータ5の標準パターン11
を平均値Mdi cj と、平均値のまわりの分散Cd
i cj とで表現する。
いては先ず、歪音声3の音響分析8を行い、原音声2に
関して求めたように特徴パラメータ9の値を求める。本
実施例ではブロック内での特徴パラメータ9の時間的変
化を利用するため、セグメント毎に区別して扱う。原音
声2と歪音声3を時間的に対応させ、原音声2で同じグ
ループ番号jを付けたブロックを歪音声3中のブロック
から抽出する。抽出されたブロック中の特徴パラメータ
を代表するベクトルを同一グループ内の平均値Mdi
cj によって与える。原音声2にi番目の歪を与える
ことによる音声の特徴パラメータ5の標準パターン11
を平均値Mdi cj と、平均値のまわりの分散Cd
i cj とで表現する。
【0012】i番目の歪を与えられた音声のe番目のブ
ロックeがグループjとされた時、特徴ベクトルxe
がとる確率分布関数 p(xe |di,cj )は
次のように、平均値Mdi cj ,分散Cdi cj
の正規分布関数Gで表せると仮定する。
ロックeがグループjとされた時、特徴ベクトルxe
がとる確率分布関数 p(xe |di,cj )は
次のように、平均値Mdi cj ,分散Cdi cj
の正規分布関数Gで表せると仮定する。
【数1】
【0013】逆に、歪音声3のあるブロックの特徴ベク
トルがxであった時に、この音声の歪がi番目の歪であ
ると言える条件付き確率は
トルがxであった時に、この音声の歪がi番目の歪であ
ると言える条件付き確率は
【数2】
式(2) において、p(di , cj )はグルー
プjに属するブロックで、i番目の歪が発生する先験的
確率であり、j,mはグループの違い、kは歪の種類の
違いを表す。
プjに属するブロックで、i番目の歪が発生する先験的
確率であり、j,mはグループの違い、kは歪の種類の
違いを表す。
【0014】着目するブロックの特徴ベクトルがxe
であったときに、オピニオン試験の評点がカテゴリq,
qn=1(非常に悪い)、2(悪い)、3(普通)、4
(良い)、5(非常に良い)に投票される確率は、
であったときに、オピニオン試験の評点がカテゴリq,
qn=1(非常に悪い)、2(悪い)、3(普通)、4
(良い)、5(非常に良い)に投票される確率は、
【数
3】 となる。ここで、xは特徴ベクトルのブロック間の平均
である。また、p(qn |x, di , cj )
はjグループだけにiのような種類の歪が生じたときの
オピニオン評点の分布データとして与えられる。従来の
方法では同じ歪でもそのグループの音響的な特徴が異な
れば、心理的に異なった影響が生じ、確率pが異なって
くるにもかかわらず、全く同じ確率p(d|xe )を
用いていたため、精度を劣化させる原因となっていた。
3】 となる。ここで、xは特徴ベクトルのブロック間の平均
である。また、p(qn |x, di , cj )
はjグループだけにiのような種類の歪が生じたときの
オピニオン評点の分布データとして与えられる。従来の
方法では同じ歪でもそのグループの音響的な特徴が異な
れば、心理的に異なった影響が生じ、確率pが異なって
くるにもかかわらず、全く同じ確率p(d|xe )を
用いていたため、精度を劣化させる原因となっていた。
【0015】次にi番目の音声のブロック全ての評点別
確率の平均を求める。
確率の平均を求める。
【数4】
ここで、Lは1つの音声のブロック数である。
【0016】推定されるMOS推定値(MOS;y)は
条件付き確率p(qn |x)との間に次のような重回
帰を考え重回帰係数αn(n=0,1,2,3,4,5
)を算出する。
条件付き確率p(qn |x)との間に次のような重回
帰を考え重回帰係数αn(n=0,1,2,3,4,5
)を算出する。
【数5】
さらに、別の種類の歪を与えた音声サンプルについても
同様な操作を行う。その結果、標準パターンはそれぞれ
のグループについて、用意された歪の種類の数だけでき
ることになる。この標準パターン及び重回帰係数αnは
次の推定過程20のために出力される。
同様な操作を行う。その結果、標準パターンはそれぞれ
のグループについて、用意された歪の種類の数だけでき
ることになる。この標準パターン及び重回帰係数αnは
次の推定過程20のために出力される。
【0017】次に推定過程20では、推定対象となる試
験音声は歪音声15だけが用意される。従って、歪パラ
メータを用いた従来の方法では原音声と歪音声の両音声
を使用するための両音声の時間軸の整合が不可欠であっ
たが、本実施例では原音声を試験音声としないため、こ
れが不要になる。先ず、推定過程20では音響分析16
を行い、セグメント毎に特徴パラメータxの値17を求
める。次に、ブロック内のセグメント毎に求められたパ
ラメータがつくるパターンと先の学習過程10で既に用
意されている標準パターン11とのパターンマッチング
18を行い、式(2) 、(3) 、(4) 式に従っ
て条件付き確率p(qk |x)を求める。さらに式(
5) に従い、学習過程10で用意された重回帰係数α
nを用いてy(MOS推定値)を求める。
験音声は歪音声15だけが用意される。従って、歪パラ
メータを用いた従来の方法では原音声と歪音声の両音声
を使用するための両音声の時間軸の整合が不可欠であっ
たが、本実施例では原音声を試験音声としないため、こ
れが不要になる。先ず、推定過程20では音響分析16
を行い、セグメント毎に特徴パラメータxの値17を求
める。次に、ブロック内のセグメント毎に求められたパ
ラメータがつくるパターンと先の学習過程10で既に用
意されている標準パターン11とのパターンマッチング
18を行い、式(2) 、(3) 、(4) 式に従っ
て条件付き確率p(qk |x)を求める。さらに式(
5) に従い、学習過程10で用意された重回帰係数α
nを用いてy(MOS推定値)を求める。
【0018】図3は本発明の一実施例の構成を示す。本
実施例のシステム構成はA/D変換器31、線形予測(
LPC;Linear PredictiveCord
ing) 分析器32、高速フーリエ変換(FFT;F
ast Fourier Transform) 演算
器33、メモリA34、パワー演算器35、ゼロクロス
カウンタ36、メモリB37、メモリC38、クラスタ
リング演算器39、パターンマッチング演算器40、メ
モリD41、標準パターン作成器42、重回帰係数演算
器43、メモリE44、積和演算器45、メモリF46
、平均値演算器47よりなる。
実施例のシステム構成はA/D変換器31、線形予測(
LPC;Linear PredictiveCord
ing) 分析器32、高速フーリエ変換(FFT;F
ast Fourier Transform) 演算
器33、メモリA34、パワー演算器35、ゼロクロス
カウンタ36、メモリB37、メモリC38、クラスタ
リング演算器39、パターンマッチング演算器40、メ
モリD41、標準パターン作成器42、重回帰係数演算
器43、メモリE44、積和演算器45、メモリF46
、平均値演算器47よりなる。
【0019】先ず、学習過程10について説明する。学
習過程10では歪のない原音声2、その原音声2に異な
った歪を与えた複数の歪音声サンプル3及び、歪音声の
オピニオン評価試験の評価値の頻度が用意される。まず
、原音声2はA/D変換器31により標本化され、ディ
ジタルデータとなる。本実施例ではクラスタリング6の
特徴パラメータ5は短時間区間(セグメント)の音声波
形の振幅の自乗平均であるセグメントのパワー及び、短
時間区間で音声波形が零レベルを横切る回数である零交
差回数を使用する。1ブロック内のパワーはディジタル
データである音声データがパワー演算器35に入力され
、セグメント毎に抽出される。また、零交差回数はディ
ジタルデータである音声データがゼロクロスカウンタ3
6に入力され、セグメント毎に抽出される。メモリB3
7はパワー演算器35により抽出された原音声サンプル
2の全てのパワーのセグメントをブロック化し、蓄積す
る。メモリC38はゼロクロスカウンタ36により抽出
された原音声サンプル2の全ての零交差回数のセグメン
トをブロック化し、蓄積する。クラスタリング演算器3
9はメモリB37及び、メモリC38の全てのブロック
を複数個のグループに分類し、各ブロックを性質が類似
しているグループに分類するためにグループ番号(j)
を付与する。
習過程10では歪のない原音声2、その原音声2に異な
った歪を与えた複数の歪音声サンプル3及び、歪音声の
オピニオン評価試験の評価値の頻度が用意される。まず
、原音声2はA/D変換器31により標本化され、ディ
ジタルデータとなる。本実施例ではクラスタリング6の
特徴パラメータ5は短時間区間(セグメント)の音声波
形の振幅の自乗平均であるセグメントのパワー及び、短
時間区間で音声波形が零レベルを横切る回数である零交
差回数を使用する。1ブロック内のパワーはディジタル
データである音声データがパワー演算器35に入力され
、セグメント毎に抽出される。また、零交差回数はディ
ジタルデータである音声データがゼロクロスカウンタ3
6に入力され、セグメント毎に抽出される。メモリB3
7はパワー演算器35により抽出された原音声サンプル
2の全てのパワーのセグメントをブロック化し、蓄積す
る。メモリC38はゼロクロスカウンタ36により抽出
された原音声サンプル2の全ての零交差回数のセグメン
トをブロック化し、蓄積する。クラスタリング演算器3
9はメモリB37及び、メモリC38の全てのブロック
を複数個のグループに分類し、各ブロックを性質が類似
しているグループに分類するためにグループ番号(j)
を付与する。
【0020】上記の処理終了後に、歪音声が1種類ずつ
A/D変換器31に入力され、原音声と時間軸が合うよ
うにセグメント及びブロックが決定される。次にLPC
分析器32はLPC係数を抽出し、次段のFFT演算器
33に入力される。FFT演算器33はLPC分析した
結果得られるLPC係数をLPCケプストラム係数に変
換する。このLPCケプストラム係数はLPC分析によ
って得られたスペクトルの対数を逆フーリエ変換した結
果得られる係数である。メモリA34は抽出されたLP
Cケプストラム係数により時間的に対応する原音声2の
ブロックのグループ番号が参照され、その参照番号とL
PCケプストラム係数を蓄積する。この操作を用意され
た全ての歪音声3に対して繰り返す。
A/D変換器31に入力され、原音声と時間軸が合うよ
うにセグメント及びブロックが決定される。次にLPC
分析器32はLPC係数を抽出し、次段のFFT演算器
33に入力される。FFT演算器33はLPC分析した
結果得られるLPC係数をLPCケプストラム係数に変
換する。このLPCケプストラム係数はLPC分析によ
って得られたスペクトルの対数を逆フーリエ変換した結
果得られる係数である。メモリA34は抽出されたLP
Cケプストラム係数により時間的に対応する原音声2の
ブロックのグループ番号が参照され、その参照番号とL
PCケプストラム係数を蓄積する。この操作を用意され
た全ての歪音声3に対して繰り返す。
【0021】次に、メモリA34から同一グループ番号
が付与されたブロックのLPCケプストラム係数を全て
読み出し、LPCケプストラム係数の同一次数の平均値
Mdi cj と分散Cdi cj を標準パターン作
成器42により求め、その結果である標準パターンをメ
モリD41に記憶する。
が付与されたブロックのLPCケプストラム係数を全て
読み出し、LPCケプストラム係数の同一次数の平均値
Mdi cj と分散Cdi cj を標準パターン作
成器42により求め、その結果である標準パターンをメ
モリD41に記憶する。
【0022】パターンマッチング演算器40はメモリA
34からそれぞれの歪音声3のケプストラム係数を読み
出し、メモリD41からの標準パターンとのパターンマ
ッチングを行い、条件付き確率p(qn |x)12を
算出する。これらの操作を全ての学習音声サンプル1の
歪音声3に対して行う。
34からそれぞれの歪音声3のケプストラム係数を読み
出し、メモリD41からの標準パターンとのパターンマ
ッチングを行い、条件付き確率p(qn |x)12を
算出する。これらの操作を全ての学習音声サンプル1の
歪音声3に対して行う。
【0023】重回帰係数演算器43はパターンマッチン
グ演算器40からの条件付き確率12と、予め用意され
たオピニオン評価頻度13を用いて、重回帰係数αn1
4を算出する。この重回帰係数14はメモリE44に記
憶される。
グ演算器40からの条件付き確率12と、予め用意され
たオピニオン評価頻度13を用いて、重回帰係数αn1
4を算出する。この重回帰係数14はメモリE44に記
憶される。
【0024】次に推定過程について説明する。MOSを
推定したい歪音声15はA/D変換器31により標本化
され、ディジタルデータとなる。推定過程ではLPC分
析器32、FFT演算器33のみのパスで処理され、抽
出されたケプストラム係数がメモリA34に記憶される
。パターンマッチング演算器40はメモリA34から1
ブロック毎のケプストラム係数を読み出すと共に、メモ
リD41に記憶されている標準パターンを順番に読み出
し、ケプストラム係数と学習過程で得られた標準パター
ンのパターンマッチング18を行い、その結果として、
条件付き確率p(qk |x)19が出力される。この
確率とメモリE44から読み出される重回帰係数αnを
積和演算器45に入力し、当該ブロックのMOS推定値
21を算出し、メモリF46に備える。この操作を試験
音声(推定したい歪音声15)の全てのブロックについ
て順次行う。最後に平均値演算器47が平均値を求め、
MOS推定値として出力する。
推定したい歪音声15はA/D変換器31により標本化
され、ディジタルデータとなる。推定過程ではLPC分
析器32、FFT演算器33のみのパスで処理され、抽
出されたケプストラム係数がメモリA34に記憶される
。パターンマッチング演算器40はメモリA34から1
ブロック毎のケプストラム係数を読み出すと共に、メモ
リD41に記憶されている標準パターンを順番に読み出
し、ケプストラム係数と学習過程で得られた標準パター
ンのパターンマッチング18を行い、その結果として、
条件付き確率p(qk |x)19が出力される。この
確率とメモリE44から読み出される重回帰係数αnを
積和演算器45に入力し、当該ブロックのMOS推定値
21を算出し、メモリF46に備える。この操作を試験
音声(推定したい歪音声15)の全てのブロックについ
て順次行う。最後に平均値演算器47が平均値を求め、
MOS推定値として出力する。
【0025】図4は本発明の方法を用いた場合と、従来
のケプストラム距離尺度法で通話品質を推定した場合の
誤差を示す。同図はケプストラム距離尺度法で推定した
ときの主観評価によるMOSとMOS推定値を示す。同
図により本発明の方法は従来の方法に較べて誤差が少な
いことがわかる。
のケプストラム距離尺度法で通話品質を推定した場合の
誤差を示す。同図はケプストラム距離尺度法で推定した
ときの主観評価によるMOSとMOS推定値を示す。同
図により本発明の方法は従来の方法に較べて誤差が少な
いことがわかる。
【0026】
【発明の効果】上述のように本発明によれば、品質評価
値の推定に複数の物理的パラメータを用い、しかもそれ
をパターンとして持っているため、歪や雑音の種類が増
えればパターンの種類を増やしていけばよく、拡張性が
ある。また、物理的には同じ歪であっても音韻環境が異
なるため、心理的には違った印象を与える効果は各セグ
メントが音響的に似たグループにクラスタリングされて
いることによって推定法に反映することができる。さら
に、複数のセグメントをブロック化し、各パラメータが
ブロック内での時系列的変化として表現されているため
、歪の発生前後まで含めた歪尺度の変化がパターン化さ
れるので、非定常な歪が生じた音声の品質推定に有用で
ある。符号誤り雑音が生じた音声のMOSを本発明の方
法と既存の方法の一つであるケプストラム距離尺度法で
推定したときの主観値との誤差を比較すると、本発明の
誤差の方が小さいことがわかる。これにより、パターン
認識を用いる方法において、歪前後のパラメータの時系
列的な変化が表現されるので、ディジタル通信系におけ
る符号誤り、過負荷のような原因によって生ずる非定常
な歪に対して適用できる。
値の推定に複数の物理的パラメータを用い、しかもそれ
をパターンとして持っているため、歪や雑音の種類が増
えればパターンの種類を増やしていけばよく、拡張性が
ある。また、物理的には同じ歪であっても音韻環境が異
なるため、心理的には違った印象を与える効果は各セグ
メントが音響的に似たグループにクラスタリングされて
いることによって推定法に反映することができる。さら
に、複数のセグメントをブロック化し、各パラメータが
ブロック内での時系列的変化として表現されているため
、歪の発生前後まで含めた歪尺度の変化がパターン化さ
れるので、非定常な歪が生じた音声の品質推定に有用で
ある。符号誤り雑音が生じた音声のMOSを本発明の方
法と既存の方法の一つであるケプストラム距離尺度法で
推定したときの主観値との誤差を比較すると、本発明の
誤差の方が小さいことがわかる。これにより、パターン
認識を用いる方法において、歪前後のパラメータの時系
列的な変化が表現されるので、ディジタル通信系におけ
る符号誤り、過負荷のような原因によって生ずる非定常
な歪に対して適用できる。
【図1】本発明の一実施例の処理過程を説明するための
図である。
図である。
【図2】ブロックに重複してセグメントが存在している
状態を示す図である。
状態を示す図である。
【図3】本発明の一実施例の構成図である。
【図4】本発明の方法を用いた場合と、従来のケプスト
ラム距離尺度法で通話品質を推定した場合の誤差を示す
グラフである。
ラム距離尺度法で通話品質を推定した場合の誤差を示す
グラフである。
1 学習音声サンプル
2 原音声
3 歪音声
4 音響分析
5、9、17 特徴パラメータ
6 クラスタリング
7 グループ情報
8 音響分析
10 学習過程
11 標準パターン作成
12 評点別確率平均
13 学習用音声の主観品質評価値
14 重回帰係数
15 推定したい歪音声
16 音響分析
18 パターンマッチング
19 条件付き確率算出
20 推定過程
21 MOS推定値
31 A/D変換器
32 LPC分析器
33 FFT演算器
34 メモリA
35 パワー演算器
36 ゼロクロスカウンタ
37 メモリB
38 メモリC
39 クラスタリング演算器
40 パターンマッチング演算器
41 メモリD
42 標準パターン作成器
43 重回帰係数演算器
44 メモリE
45 積和演算器
46 メモリF
47 平均値演算器
Claims (1)
- 【請求項1】 電話伝送装置における通話の雑音及び
歪の特徴をパラメータの短時間時系列で表した標準パタ
ーンを用いて、パターン認識手法により品質を推定する
通話品質客観測定方法において、伝送装置の入力及び出
力音声である学習音声を短時間毎にセグメントに分割し
、着目したセグメントの前後の連続する数セグメントを
1ブロックとし、ブロック内の特徴パラメータを時系列
的に抽出し、該学習音声全てのブロックに対し、クラス
タリングを行うことにより類似した複数のグループに分
類し、それぞれのグループに含まれる各ブロックについ
て入力信号と時間的に対応する出力信号ブロックの特徴
パラメータを全てのブロックについて集め、それを集合
とし、該集合を代表する標準パターンを決定し、品質を
推定しようとする試験音声について、各セグメントをブ
ロック化し、各ブロック毎に決定された前記標準パター
ンとのパターンマッチングを行い、最も高い類似度が得
られたパターンから該パターンが決められた前記学習音
声に対する品質評点分布を用いて前記試験音声の品質評
点を推定することを特徴とする通話品質客観測定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3118924A JPH04345327A (ja) | 1991-05-23 | 1991-05-23 | 通話品質客観測定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3118924A JPH04345327A (ja) | 1991-05-23 | 1991-05-23 | 通話品質客観測定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04345327A true JPH04345327A (ja) | 1992-12-01 |
Family
ID=14748569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3118924A Pending JPH04345327A (ja) | 1991-05-23 | 1991-05-23 | 通話品質客観測定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04345327A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997005730A1 (en) * | 1995-07-27 | 1997-02-13 | British Telecommunications Public Limited Company | Assessment of signal quality |
WO1997032428A1 (en) * | 1996-02-29 | 1997-09-04 | British Telecommunications Public Limited Company | Training process |
US5794188A (en) * | 1993-11-25 | 1998-08-11 | British Telecommunications Public Limited Company | Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency |
US5799133A (en) * | 1996-02-29 | 1998-08-25 | British Telecommunications Public Limited Company | Training process |
US5999900A (en) * | 1993-06-21 | 1999-12-07 | British Telecommunications Public Limited Company | Reduced redundancy test signal similar to natural speech for supporting data manipulation functions in testing telecommunications equipment |
US6119083A (en) * | 1996-02-29 | 2000-09-12 | British Telecommunications Public Limited Company | Training process for the classification of a perceptual signal |
JP2004343687A (ja) * | 2003-01-18 | 2004-12-02 | Psytechnics Ltd | 品質評価装置 |
JP2005018076A (ja) * | 2003-06-25 | 2005-01-20 | Lucent Technol Inc | 客観的なスピーチ品質評価において時間/言語歪みを反映する方法 |
JP2007049462A (ja) * | 2005-08-10 | 2007-02-22 | Ntt Docomo Inc | 音声品質評価装置、音声品質評価プログラム及び音声品質評価方法 |
JP2021015137A (ja) * | 2019-07-10 | 2021-02-12 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
-
1991
- 1991-05-23 JP JP3118924A patent/JPH04345327A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999900A (en) * | 1993-06-21 | 1999-12-07 | British Telecommunications Public Limited Company | Reduced redundancy test signal similar to natural speech for supporting data manipulation functions in testing telecommunications equipment |
US5794188A (en) * | 1993-11-25 | 1998-08-11 | British Telecommunications Public Limited Company | Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency |
WO1997005730A1 (en) * | 1995-07-27 | 1997-02-13 | British Telecommunications Public Limited Company | Assessment of signal quality |
US6035270A (en) * | 1995-07-27 | 2000-03-07 | British Telecommunications Public Limited Company | Trained artificial neural networks using an imperfect vocal tract model for assessment of speech signal quality |
WO1997032428A1 (en) * | 1996-02-29 | 1997-09-04 | British Telecommunications Public Limited Company | Training process |
US5799133A (en) * | 1996-02-29 | 1998-08-25 | British Telecommunications Public Limited Company | Training process |
US6119083A (en) * | 1996-02-29 | 2000-09-12 | British Telecommunications Public Limited Company | Training process for the classification of a perceptual signal |
JP2004343687A (ja) * | 2003-01-18 | 2004-12-02 | Psytechnics Ltd | 品質評価装置 |
JP4716657B2 (ja) * | 2003-01-18 | 2011-07-06 | サイテクニクス リミテッド | 品質評価装置 |
JP2005018076A (ja) * | 2003-06-25 | 2005-01-20 | Lucent Technol Inc | 客観的なスピーチ品質評価において時間/言語歪みを反映する方法 |
JP2007049462A (ja) * | 2005-08-10 | 2007-02-22 | Ntt Docomo Inc | 音声品質評価装置、音声品質評価プログラム及び音声品質評価方法 |
JP2021015137A (ja) * | 2019-07-10 | 2021-02-12 | 三菱電機株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iser et al. | Bandwidth extension of speech signals | |
CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
US6400310B1 (en) | Method and apparatus for a tunable high-resolution spectral estimator | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
EP1995723B1 (en) | Neuroevolution training system | |
US6609092B1 (en) | Method and apparatus for estimating subjective audio signal quality from objective distortion measures | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
CN106997765B (zh) | 人声音色的定量表征方法 | |
CN112735477B (zh) | 语音情感分析方法和装置 | |
Liang et al. | Output-based objective speech quality | |
JPH04345327A (ja) | 通話品質客観測定方法 | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
US5799133A (en) | Training process | |
AU2021101586A4 (en) | A System and a Method for Non-Intrusive Speech Quality and Intelligibility Evaluation Measures using FLANN Model | |
CN116884438B (zh) | 基于声学特征的练琴音准检测方法及系统 | |
Picovici et al. | Output-based objective speech quality measure using self-organizing map | |
Mercado et al. | Classification of humpback whale vocalizations using a self-organizing neural network | |
Kawahara et al. | Higher order waveform symmetry measure and its application to periodicity detectors for speech and singing with fine temporal resolution | |
Narwaria et al. | Non-intrusive speech quality assessment with support vector regression | |
CN117037840A (zh) | 异响源识别方法、装置、设备及可读存储介质 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
Srivastava | Fundamentals of linear prediction | |
CN116343813A (zh) | 一种汉语语音增强方法 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 |