JP4005128B2

JP4005128B2 - 信号品質の評価

Info

Publication number: JP4005128B2
Application number: JP50735297A
Authority: JP
Inventors: マイケル・ピーターホリアー、; フィリップ・ジュリアンシェパード、; フィリップグレイ、
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-07-27
Filing date: 1996-07-25
Publication date: 2007-11-07
Anticipated expiration: 2016-07-25
Also published as: DE69626115T2; EP0840975A1; NO980331L; CN1192309A; NZ313705A; EP0840975B1; US6035270A; CA2225407C; AU6623296A; WO1997005730A1; KR19990028694A; CA2225407A1; MX9800434A; NO980331D0; AU694932B2; DE69626115D1; JPH11510334A

Description

本発明は、発話(speech)を搬送するオーディオ信号の評価に関する。本発明はとくに使用中の遠隔通信システムの状態の評価に応用される。
信号は遠隔通信リンク上を搬送されるときに、多くの変換、例えばデジタル化、データ圧縮、データ削減、増幅等を経ることができる。これらの全ての処理によって信号は歪む場合がある。例えば、波形をデジタル化するとき、この波形の振幅が最大デジタル化値よりも大きい場合、波形のピークはフラットトップ形式（上が平坦な形式）に変換されることになる（この処理はピーククリッピングとして知られている）。これは信号に好ましくない高調波を付加する。歪みは外部ソースからの電磁干渉によって生じる場合もある。
上記の処理によってもたらされる歪みは非線形であるので、簡単な試験信号を発話のような複雑な波形と同じ方法で歪ませることは殆どまたは全くできない。データを搬送する遠隔通信リンクでは、全ての可能なあるデータ記号（例えば、二進リンクでは２つの記号１および０、またはＤＴＭＦ（デュアルマルチフレケンシィ）システムで使用される１２音の対）を使用してリンクを試験することができる。しかしながら、発話は制限された数の適切に定めた信号要素からではなく、連続的に変化する信号から構成されており、この連続的に変化する信号の要素は発話の内容（および使用される言語）だけでなく、ピッチ、音量、特徴的な母音がもつ音などの特徴に影響を与える個々の話者の生理的および心理的特徴にしたがっても変化する。
遠隔通信装置を試験するとき、発話サンプルを使用して試験シーケンスを実行するやり方が知られている。被試験装置によってもたらされる歪みの識別には被試験装置によって変更される試験シーケンスと元の試験シーケンスとの比較を使用できる。例えば、Edmund Quincyによる文献（the IEEE International Conference on Communications 87;Session 33.3;vol 2, 1164乃至１１７１頁）には、“規則応用”システム（“エキスパード”システムとしても知られている）を使用してこの信号を解析する方法が記載されており、所定の目的規則を使用して、所定の入力信号に対して、信号品質を示す適切な出力を発生する。
上述の構成には予め準備した一連の試験が必要であるので、ライブの遠隔通信リンク、すなわち収入を得るトラヒック（revenue earning traffic）用に現在使用しているリンクにおいて該構成を使用できないことを意味している。その理由は一連の試験は、搬送され且つユーザに聞こえるトラヒックを干渉し、また対照的にライブのトラヒック、それ自身（その内容は予め決めることはできない）を試験信号の歪みとして試験装置によって検出するからである。
使用中の装置が搬送する信号を干渉せずに、その装置で試験（いわゆる非侵襲性試験）を行なうために、生の発話信号自体を試験信号として使用して試験を行なうことが望ましい。しかしながら、進行中の発話を試験信号として使用するとき、測定点で元の信号サンプルを即時に得る方法がないという問題がある。元の信号を測定位置へ送信できる手段は、被試験リンクと同じように歪みを受ける可能性が高い。
本発明の出願人による先願の国際特許出願第WO96/06495号およびWO96/06496号（両出願は1996年2月29日に公開されている）では、この問題に対する２つの可能な解決案を提示している。第WO96/06495号には一定の発話特徴の解析が記載されており、この解析は遠隔通信リンクによって信号がどのように変更されたかを判断するために話者に依存しない発話を扱っている。第WO96/06495号にはさらに発話のある種の特徴の解析について記載されており、この発話のある種の特徴は、それ自体は直接に測定することはできないが、個々の話者の発話の間では一貫したやり方で他の特徴と関係して変化し、したがって発話の他の特徴に関する情報を導き出すことができるとしている。例えば、音声を含まない摩擦音のスペクトル内容は音量（振幅）で変化するが、これは個々の話者によって著しく依存した形をとる。したがってスペクトル内容を使用して、元の信号振幅を推定し、元の信号振幅を受信した信号振幅と比較して、話者と測定点との間の減衰を推定することができる。
第WO96/06496号では、受信した信号の内容を発話認識器によって解析して、この解析結果を発話合成器によって処理して、歪みのない発話信号を再生する。この信号はピッチおよび継続期間を正規化されて、元の発話信号を推定し、推定した元の発話信号を受信した発話信号と比較して、例えば、国際特許出願WO94/00922号および第WO95/15035号に記載した知覚解析技術を使用して、歪みまたは干渉を識別することができる。
一般的に制限された帯域幅で発話を送るには、データ削減を使用する。線形予測可能コーデック（ＬＰＣ）は人間の声道に似たものに基いており、“声道モデル”で同様の動作を行うのに必要なパラメータとして発話波形のセグメントを表わしている。多くの応用において信号の発話内容は、この声道モデルで発話のパラメータを識別することによって解析することができる。しかしながら、このモデルは声道において生成されなかった要素のモデルを作ることはできない。結果として、従来の声道モデルでは歪みを容易に解析できない。
本発明の第１の態様にしたがって、発話を搬送する信号品質を評価する方法であり、発話および歪み信号要素の両方をパラメータで表示可能な係数を生成できるスペクトル表示モデルにしたがって、信号を解析して出力パラメータを生成し、所定の網定義関数にしたがって出力パラメータを重み付けして、重み付けした出力パラメータから導出した出力を生成する方法を提供する。
本発明の第２の態様にしたがって、発話搬送信号の品質を評価する装置であり、発話および歪み信号要素の両方をパラメータで表示可能な係数を生成できるスペクトル表示を使用して、信号を解析して出力パラメータを生成する手段、網定義関数を定める１組の加重値を記憶する記憶手段、および出力パラメータと網定義関数とから導出される出力値を生成する手段とを含む装置を提供する。
好ましくは網定義関数は、予備段階で出力値が分かっているデータから導出する。網定義関数は、既知のデータを使用して自動的に導出できるので、本発明のシステムは“エキスパート”システムで生成可能なよりもより一層複雑な関数にしたがって出力を生成することができ、また人間の聴覚システムで行なわれている生理的なプロセスに関する予見を一切必要としない。
上述で定義したスペクトル表示モデルを以下で“不完全な声道モデル”と記載することにする。この文脈ではこの用語は、声道モデルが“理想的”ではないが、人間の声道では生成できない聴覚スペクトル要素に関係する係数も生成できることを意味するが、これは声道モデル設計の正規の目的ではない。好ましい実施形態では、網定義関数は、例えば良い状態または意図的に悪くした状態といった既知の性質をもち、声道モデルによって解析される発話サンプルを使用することによって生成され、ニューラル網のような訓練可能な処理によって、良い状態または悪い状態の信号に関係しているとして、生成したパラメータが識別できる。この方法では、各信号形式に関係する声道パラメータ（および両方の形式の信号と関係しているので、指標として信頼できず、より小さいまたはゼロ加重値を生成するパラメータ）に対して加重値を作り上げることができ、未知の信号を処理するとき、未知の信号に関係するパラメータに関して予め生成した加重値を使用して、出力を生成することができる。
好ましくは網定義関数の加重値は、出力パラメータの時間的な前後関係に依存するとよい。このためにはパラメータのシーケンスにも個々のパラメータにも加重値を与えてよい。連続する時間フレームのパラメータのシーケンスは、実際の発話音に対応する多数の認識したシーケンスの１つに続くものでなければならない。ある時間フレームに対して１組のパラメータが識別され、それがシーケンスの先行するメンバに続いておらず、または全く現れない場合には、歪みが存在することを示している。
１実施形態では、この装置は記憶した加重値群を生成する訓練手段をさらに含み、訓練手段は発話サンプルをモデリング手段に供給する第１の入力手段と；発話サンプルに関係する既知の出力情報（以下で“ラベル”と記載する）を訓練手段に供給する第２の入力手段と；ラベルに基いてモデリング手段から加重値を生成する手段と；モデリング手段によって生成された加重値を記憶する記憶手段とを含む。
したがって訓練用サンプルで使用される各発話セグメントには、適切な状態（“良好”）または不適切な状態（“劣等”）とラベルを付さなければならない。これは重要な処理である。その理由は一般的なサンプルは数時間の発話を含むので、ある範囲の話者、状態、および他の変数に正確に応答するシステムを訓練するには、多くのこのようなサンプルが必要であるからである。個々のセグメントの継続期間は一般的に２０ミリ秒であるので、全部で数百万のセグメントにラベルを付さなければならない。
好ましい実施形態では、訓練手段は第１の信号と第１の信号を歪ませた形の信号とを含む訓練用シーケンスを供給する手段、訓練用シーケンスを受取り、聞き手に知覚可能な歪みの程度を示す歪み知覚測度を生成する解析手段、および歪み知覚手段を訓練可能な処理装置に設けて、網定義関数を判断する手段を含む。
好ましくは訓練可能な処理は、第１の信号と第１の信号を歪ませた形式の信号とを含む訓練用シーケンスを供給する段階と、聞き手に知覚可能な前記信号の歪みの程度を示す歪み知覚測度を生成することを含む解析処理によって判断されるように、各セグメント内に存在する知覚可能な歪みの程度を測定することによって網定義関数を判断する段階とを含む。
好ましい構成では、解析処理は同じ信号の歪んだ形式と歪んでいない形式によって人間の聴覚システムに与える効果を推定し、前記効果の間の差を判断し、前記差に依存して前記歪み知覚測度を生成する。好ましくは、解析処理によって生成される前記歪み知覚測度は前記歪み知覚強度に依存し、かつ前記歪みの振幅に非線形に依存する。
好ましくは解析処理は前記試験信号および／または前記歪んだ信号の複数のスペクトル成分信号を生成し、各スペクトル成分信号に対するマスキング効果を推定する。マスキング効果とはこのスペクトル成分信号が人間の聴覚システムに与える効果である。
好ましい構成では、解析処理は歪んだ信号を複数のスペクトル成分帯域に分解することにより、前記歪みが人間の聴覚システムに与える効果を推定し、スペクトルマスキングを行なうように整形されており；先行および／または後続の部分が原因である信号の時間的マスキングを計算し；各スペクトル成分信号に対して、歪んだ信号の成分信号と対応して計算した試験信号の成分信号との間の差の表現を形成し；前記差の測度（表現）から前記歪み知覚測度を生成する。とくに好ましい構成では、解析処理によって前記異なる信号から歪みのスペクトルで時間的に分布の測度を生成する。
各訓練シーケンスが異なる話者間の特徴の変化を取込むためには、一般的に自然の発話の大きなコーパスとなる。好ましい実施形態では、解析処理は歪んだ発話信号を複数のスペクトル成分帯域に分解して、スペクトルマスキングを行なう段階と；マスキングの時間な部分に先行および／または後続することが原因である信号の時間的マスキングを計算する段階と；各スペクトル成分信号に対して、歪んだ信号の成分信号と対応して計算した試験信号の成分信号との間の差の表現を形成する段階と；前記差の測度から前記歪み知覚測度を生成する段階とを含む。
適切な発話解析処理は、国際特許出願第WO94/00922号、および第WO95/15035号に記載されている。歪み知覚測度を使用して、セグメントに自動的にラベルを付すことによって、一貫して、しかしそれにも関わらず聞き手に知覚可能な因子にしたがって網定義関数を導出することができる。
ここで本発明の例示的実施形態を添付の図面を引用して記載する。添付の図面には本発明の種々の素子の機能的関係が示されている。本発明は、汎用コンピュータで使用するソフトウエアで有効に実現することができる。
図１は、訓練処理用に構成された訓練可能なシステムの機能素子を示す。
図２は、未知のデータを使用した処理のために構成された同じシステムの機能素子を示す。
図３は、図１の訓練装置を一層詳細に示す。
図４は、図３の解析装置を一層詳細に示す。
図５は、データソースによって供給される最初の発話サンプルを生成できる装置を示す。
図１および２のシステムは、訓練用データソース１および活性トラヒック（実データ）ソース２を含み、両ソースは声道解析器３への入力を設けている。訓練用データと関係するパラメータはさらに、訓練用装置１から分類ユニット５へ供給される。分類ユニット５は、訓練可能な処理装置、とくにニューラル網５として示されている。解析ユニット３によって出力されるパラメータはニューラル網５に供給される。訓練処理中に、ニューラル網５はパラメータをメモリ４に供給する。これらのパラメータは網定義関数を定める。実データを読み取るとき、パラメータをメモリ４から検索し、ニューラル網５でこれを使用して、声道解析器３によって生成される値で網定義関数を実行し、出力６へ供給する分類データを生成する。一般的に出力データは分類の形式であり、解析器３によって生成される値に基づき、網定義関数にしたがって重み付けされ、システムによって識別された歪みの程度を示す。例えば、全ての重み付けしたパラメータが所定の値を越えたとき、および／または重み付けしたパラメータの幾つかの代数的組合せ（例えば、それらの和）が所定の値を越えたとき、信号は“良好”と分類することができる。測定可能な性質は特徴的な値であり、１または複数の他の性質の測定から予測できる。実際に測定した値が予測した値に対応しないとき、一方または他方の値が歪んでいて、それによって信号品質の別の表示を与える。多数の閾値を設定することによって、幾つかの品質レベルを定めることができる。
実際の目的では、信号を時間フレームのシーケンスとして解析する。第１の時間フレームに関係するデータから導出したパラメータは次の時間フレームの解析で使用することができる。この目的のために、声道解析３の出力をバッファメモリ７に記憶して、後でニューラル網５の次の動作で使用する。
図３は訓練用装置１を一層詳細に示している。図３にはデータメモリ８が含まれ、データメモリ８は、“良好な”信号用の第１のメモリ８ａ、および第１のメモリ８ａに記憶した良好な信号を歪ませた信号用の第２のメモリ８ｂから構成されている。メモリ８ａからの良好な信号、およびメモリ８ｂからの良好な信号に対応する歪んだ信号を第１および第２の入力11、12を通って解析ユニット９へ供給する。解析ユニット９はラベルのシーケンスを含む出力を供給し、ラベルシーケンスはニューラル網５へ送られる（図１参照）。さらに歪んだ形式の信号はセグメンタ10へ送られ、セグメンタ10は信号をラベルに対応する個々のセグメントに分割する。次にこれらのセグメントは声道解析器３へ送られる（図１参照）。
図４は解析ユニット９を一層詳細に示している。入力11および12は第１および第２のメモリ（８ａ，８ｂ）から“良好な”信号および良好な信号を歪ませた形式の信号を搬送して、それぞれ聴覚モデル（それぞれ13，14）へ供給され、聴覚モデルの出力はコンパレータ15で比較する。当業者には明らかなように、代りの構成では良好な信号および歪んだ信号に対応する通路は、同じ聴覚モデルに交互に供給され、この聴覚モデルの出力は良好な信号および歪んだ信号の通路で比較される。コンパレータ15からの出力を使用して、エラー面生成器16内にエラー面を生成し、こうして生成したエラー表面の性質を使用して、ラベル生成器17でエラー表面16の特徴に適したラベルを導き出す。セグメンタ10で信号をセグメント化するのと同期して、これらのラベルを生成する。ラベルはニューラル網５へ出力される（図１参照）。
図５は、データメモリ８へのデータ生成を示す。以下で説明するように元の試験信号18を適切な手段によって生成し、第１のメモリ８ａに直接に送信する。同じ信号を歪み手段19へ送り、生成された歪み信号を第２のメモリ８ｂに記憶する。
ここで声道解析システムおよび訓練可能な処理の特徴を簡単に記載することが適切である。声道は非均一な音響管であり、声門から唇へ延在し、時間関数として形状が変化する［Frant G C M, "Acoustic Theory of Speech Production", Mouton and Co., 'sgravehage，オランダ，1960年］。時間にしたがって変化する主要な解剖学的要素は、唇、顎、舌、および帆（軟口蓋）である。計算を簡単にするために、このシステムに対するモデルは両方とも線形であり、時間が一定であることが望ましい。不都合なことは、人間の発話機構はこれらの性質の何れも正確に満たしていないことである。発話は連続的な時間変化プロセスである。加えて、声門を声道から分離せず、その結果非線形の特徴を有する［Flanagan J L "Source-System Interactions in the Vocal Tract", Ann. New York Acad. Sci. 155, 9-15, 1968年］。しかしながら、合理的な仮定を置くことによって、短い時間間隔で線形で固定時間のモデルを生成して、発話イベントを記載することができる［Markel J D, Gray AH, "Linear Prediction of Speech", Spring-Verlag Berlin Heidelberg New York, 1976年］。線形予測コーデックは発話イベントを短い期間すなわちフレームに分割し、終了した発話のフレームを使用して、独特な予測パラメータ群を生成して、現在のフレーム内の発話を表示する［Atal B S, Hanauer S L "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave" J. Acoust. Soc. Amer., vol.50, pp.637-655, 1971年］。線形予測解析は、ピッチ、フォルマント、およびスペクトルのような発話パラメータを推測する方法として幅広く使用されるようになった。聴覚モデル（時間／周波数／振幅のスペクル写真）は、監視している可聴音響の特徴に依存し、それらがどのように生成されるかは考慮せず、一方で声道モデルは、信号が発話形式であるか否か、すなわち実際の声道が発話を生成できるか否かを識別することができる。したがって、聞き取れない差は聴覚モデルでは認識されず、声道モデルによって認識される。
信号品質を測定するには、生成された出力パラメータは測定される性質、すなわち、知覚される発話品質に敏感でなければならない。したがってモデルは発話形式でない歪みをモデリングできなければならず、したがって理想的な声道モデルは適切ではなくなる。理想的なモデルは、全ての入力信号を発話形式に変換したものである（歪みが著しいときは元の発話である必要はない）。このため歪んだ入力および正確な入力が両方とも発話に似ていると分類されると、訓練用の処理が不可能になるので、分類プロセスは信頼できなくなる。したがって先に定義したように、声道モデルは“不完全”であることが重要であり、その理由はプロセスが、人間以外の歪み要素の存在に敏感な声道モデルからの出力パラメータに依存してしまって、不適切な状態の信号と適切な状態の信号を区別するからである。解析器３として使用するのに適した声道モデルは線形予測コーディングモデルであり、これは文献（"Digital Processing of Speech Signals": Rabiner L.R.; Schafer R.W;(Prentice-Hall 1978年），396頁）に記載されている。
声道モデルの代りにスペクトル解析を使用することができ、これは例えば１／３オクターブ解析（"one-third octave analysis"）（文献、"Frequency Analysis", Section 3.6, R.B.Randall著（Bruel & Kjaer発行，1987年（ISBN 87 87355 078）参照）に記載されている。
ここで、訓練可能な処理、とくにニューラル網の特徴を記載する。多数の入力をそれより少数の所定の結果のクラスにマップするために、とくにマッピング処理が自然系を表すときは一連の規則を使用することができる。しかしながら、自然系が著しく複雑なとき、または必要なマッピングが抽象的なパラメータで動作するときは、訓練可能な処理を使用して、訓練用データと呼ばれる一連の既知の結果に応答して必要なマッピングを行うことができる。既知の結果を使用して、入力パラメータと結果のクラスとの間の関係を判断して、次の入力の未知の組合せを分類することができる。ニューラル網は、脳が関心のある特定のタスクまたは関数を実行する方法をモデリングするように設計されている。ニューラル網を訓練して、学習処理［Haykin S, "Neural Networks, A Comprehensive Fomdation", Macmillan IEEE Press, 1944年］によって有用な計算を行うことができる。良好な動作を達成するために、ニューラル網は簡単な処理ユニットを多数接続し、加重値として知られているプロセス間ユニットの接続力を使用して、システムの知識を記憶するようにしている。［Alessander I, Morton H "An Introduction of Neural Computing" Chapman and Hall London, 1990年］。学習処理を実行するのに使用する手続きは学習アルゴリズムと呼ばれ、その機能は順番に網の加重値を変更して、所望の設計目的を達成する。ニューラル網の能力は大規模な並列分散構造とその学習とそれらの一般化能力から得られる；一般化は訓練中に遭遇しなかった入力に対して合理的な出力を生成する網を意味する。監督下の学習は訓練の１形式であり、網に既知のクラス例を示し、相互接続した加重値を変更して、システムからの所望の応答と実際の応答の間の差を最小にする。網が安定状態に到達するまで、各入力クラスからの多数の例に対して訓練を反復する。ニューラル網によって実行される入力−出力マッピングとパラメトリックでない統計的推論によって達成される分類との間にはよい類似が存在する。
ここでシステムの動作を記載する。最初に図２を参照して、ソース２から声道解析システム３へ実際のデータを供給することができる。歪みおよび干渉によって、元の信号の個々の時間フレームを歪ませたり、またはそれを一緒になくすことができる。可能なフレームの小さいサブセットの１つの後にだけ与えられたフレームが現れることができるならば、このサブセットのメンバでないフレームの後に所定のフレームが現れるというのは、メインフレームまたはそれに先行するフレームの何れか（またはその両方）が前後関係に適していた元のフレームから歪んでいたことを示している。各個々のフレームのパラメータは“許容”できる（すなわち、パラメータが所定の範囲内にはいっている）が、パラメータのシーケンスを一体として考慮したときは、許容できない場合があり、歪んでいることを示す。メモリ４に記憶したパラメータは、そのような効果を含む網定義関数を定める。声道解析によって生成されるパラメータは、ニューラル網５への入力として供給され、ニューラル網５は声道解析によって生成されるデータを網定義関数に供給して、出力６を生成する。メモリ４に記憶したパラメータによって網定義関数を定めて、ソース２に供給される信号品質の分類を導き出す。
時間に依存する性質に関係するパラメータを含むために、例えばモデルからの出力の瞬間的な特徴が人間の声道の能力に含まれるか否かだけでなく、時間で変化する性質もこの能力に含まれるか否かを識別するために、声道解析からの出力をバッファメモリ７に記憶する。所定数の記憶したパラメータを現在のサンプルに付加する“ヒストリカルデータ（historical data）”としてニューラル網５への入力として供給し、信号の時間に依存する特徴を測定することができる。記憶したパラメータは現在のサンプルの前および後の両方でイベントに関係付けて、サンプルの“プレヒストリ”と“ポストヒストリ”の両方を考慮対象に組入れてよい。明らかに、ポストヒストリの場合、ポストヒストリが集まるまで、現在のサンプルの解析を行うことはできない。
ソース２は多数の個々の遠隔通信リンクを継続し、それに接続して、多数のリンクの信号品質を監視することができる。とくに“非侵襲性”測定処理に適しているが、本発明はいわゆる“侵襲性”の測定にも使用可能である。侵襲性の測定では、試験信号を生の信号としてではなく、ソースとして使用する。
出力６は、ユーザに適切な形式で表示することができる。例えば、劣等な動作を表す分類を生成するソースは網管理装置に示してもよいので、ソース２によって表される遠隔通信リンクは故障中であるとされ、必要であれば修復され、可能であれば別にルート設定をすることによってリンクを再び確立することになる。可能な１構成では、このような動作は自動的に制御されるか、または人間の制御者が出力６によって供給される指示で動作してよい。
各フレームに記録したパラメータを、パラメータを表すショートコードとして記憶することができる。これはメモリ占有を狭くし、さらに処理時間を著しく低減できる。継続する時間フレームのコードシーケンスは、それらが表すパラメータのように、実際の発話音響に対応する多数の認識したシーケンスの１つに続く。シーケンスの先行するメンバに続いてはならないか、または全くコード化されないコードを有する時間フレームに対して１組のパラメータが識別されたときには、歪みが存在することを示している。
メモリ４に記憶したパラメータを生成するために、ニューラル網５を最初に訓練して、訓練データを使用して、網定義関数を確立しなければならない。このプロセスは図１に示されている。試験データは訓練用装置１から声道解析器３へ供給される。訓練用装置１はさらに試験データに関係する分類パラメータをニューラル網５へ供給して、網定義関数を定めるラベルの生成をメモリ４に記憶することができる。
ここでこれらのラベルの生成を記載する。必要なデータの全体を生成して、ニューラル網を訓練するために、人間のオペレータが個々に正確に評価するには短かすぎる発話セグメントを使用して、このような信号を自動的に生成する方法を案出した。このプロセスは知覚解析モデルの使用に依存し、信号の歪みが聞き手に明らかであるか否かを評価する処理である。最初に２つの関係するメモリ（８ａ，８ｂ）を有する試験信号８のソースを供給する。第１のメモリ８ａは“良好な”信号サンプルを有する。完全なサンプルは一般的に数時間の長さである。第２のメモリ８ｂは同じサンプルの対応する形式を有し、このサンプルは歪を受けており、その手段を次に記載する。第２のメモリ８ｂに記憶されたサンプルは、種々の程度および形式の歪みを有する。歪んだ信号は短いセグメント（一般的に２０ミリ秒）に分割され、短いセグメントは声道解析器３に直接に供給される（図１参照）。解析ユニット９は“良好な”サンプルと歪んだサンプルとを比較して、ラベルのシーケンスを生成する。このラベルは、各セグメント内に存在する歪みが聞き手に知覚可能なモデルによって考えられる程度を表す。ここでこの解析処理を一般的な用語で記載するが、特に適切な解析技術は、公開された国際特許出願第WO94/00922号およびWO95/15035号で使用した技術である。
図４には解析システムが一層詳細に記載されている。“良好な”サンプルおよび対応する歪んだサンプルは、それぞれ入力11,12を通って聴覚モデル13,14に供給される。これらのサンプルは分かりやすくするために個別のモデルとして示されているが、サンプルは交互に同じモデルに送れることが理解できるであろう。何れの場合でも、両方の信号に同じ処理を適用することが重要である。モデルは多数のパラメータを生成し、これらのパラメータは個々の信号セグメントの特徴についての知覚可能な重要度に関係している。処理はサンプルを種々の重なり合うスペクトル帯域に分割し、オーバーラッピングフィルタを使用して、同時マスキングの現象をモデリングすることを含み、このとき音響は周波数がそれに近いより静かな同時音響をマスクし、さらに各セグメントを１または複数の先行または後続のセグメントと比較して、時間的マスキングの現象をモデリングすることも含み、このときは大きい音響の直ぐ前または後の静かな音響は大きい音響が存在しないときよりも知覚しにくい。上記の特許明細書第WO94/00922号およびWO95/15035号に記載したように、聴覚モデル処理は聴覚表面を生成し、次に“良好な”サンプルおよび歪んだサンプルに対応する２つの聴覚表面をコンパレータ15で比較して、エラー表面を生成する。エラー表面は本質的に、多数の時間セグメントおよび周波数またはピッチ帯域の測度であり（帯域の個々の範囲は、例えば、信号をバルクスケールに適合させることによって、同じ知覚重要度を有するように選択される）、ここで、音響信号の知覚した大きさは、ピッチおよび時間軸の両方に垂直な軸上に表される。異なる加重値を正または負の値に加えてよく、例えば付加したノイズと比較して信号損失から生成された減損の差を考慮する。歪みが全く存在しないときは、エラー表面は全表面にわたってゼロの値を有する。記載した例のように、エラー表面の値が聴覚モデル出力間の差（上述のように重み付けされている可能性が高い）の絶対値として判断されるとき、エラー表面の全ての値は正である。
上記の特許出願第WO94/00922号およびWO95/15035号に記載したように、エラー表面の特徴を使用して、その中を搬送される知覚重要度の値を導出すことができる。国際特許出願第WO95/15035号に記載されているように、エラー表面に集められるエラーの絶対的な大きさはこの値の因子である。表面の形状に依存する値を利用することもでき、この値は第WO95/15035号明細書では“エラーエントロピー”と記載されている。
“聴取り努力”Ｙ_LEに対する最後に重み付けした値から、存在する歪みの絶対量が得られ、それは次の式で導き出すことができる：
エラー活性度、

尚、ｃ（ｉ，ｊ）は、解析されるエラー表面のｉ番目の時間セグメントとｊ番目のピッチ帯域のエラー値である。
時間およびピッチのエラー分布（またはむしろ、エネルギーが分布する範囲の逆数に対応する歪みのエントロピー）は次の式から算出される：

上記の式の自然対数（ｌｎ）の項は、エネルギー振幅の変量がエントロピーＥ_Eに作用し、非線形圧縮関数として機能する程度を制御する。
聞き手がピッチおよび時間的に分布した信号ではなく、短期間に単一のピッチに集中するとき、聞き手は高レベルのエラーが著しく認識できることが分るので、エラー活性度およびエラーエントロピー測度は共に、歪みの本質的に知覚したレベルによく対応することが分る。
エラーエントロピーＥ_Eは全エラー量の大きさとは無関係のエラー分布基準を与え、エラー活性度Ｅ_Aはエラー分布とは無関係のエラー量の測度を与える。
事実、この実施形態で使用する可聴エラーの振幅スケールの対数の単位を考慮するために、次のようにＥ_EおよびＥ_AをＥ_EおよびＥ_Aとして再び代入するのが有効である：

エラー活性度およびエラーエントロピー測度を結合して、歪みに対する主体の聞き手の応答があるものに対する良好な指示を、歪みの実際の特徴に対して比較的に堅実な方法で与えることができる。
主体の“聴取り努力”測定Ｙ_LEの良好な指標は、次の式から得られることが分っている。
Ｙ_LE＝−ａ₁＋ａ₂ｌｏｇ_10AＥ′ａ₃Ｅ′_E
なお、ａ₁＝８．３７３；ａ₂＝０．０５３８８；ａ₃＝０．４０９０である。
Ｙ_LEに対する適切な閾値の値を使用して、特定のサンプルに“適切な状態”または“不適切な状態”のようなラベルを付すべきであるか否かを判断することができる。ラベル生成装置17は上記の計算を行い、ニューラル網５にラベルを出力する。このラベルは、メモリ８ｂから抽出した信号から時間的セグメンタ10によって生成された対応する試験信号セグメントに適している。
メモリ８で使用される歪んだおよび“良好な”信号のソースは、予め生成されたメモリから供給することができる。適切なデータの種々のコーパスは既に使用可能であるが、さらに容易にデータを生成することができる。このようなデータの生成は、比較的に簡単であり、図５に示されている。
最初の試験信号は、実際の発話の幾つかのサンプルを含む場合もあり、異なる話者を使用して、代表的な選択を確実にするために、“良好な”メモリ８ａに供給される。同じ信号を歪み生成装置19にも供給する。生成された歪んだ信号は“歪んだ”信号用のメモリ８ｂに記憶する。種々の異なる歪みソースに供給することができる。異なる試験信号および歪み形式の種々の置換を使用することによって、試験データの代表的な表示コーパスを生成して、訓練用データソース１によって供給される訓練用データとして使うことができる。
歪み生成装置19によって試験信号に歪みの典型的な形式が加えられて、訓練用プロセスに対してこの種の信号の代表的な選択を供給する。これらの歪みは種々の効果をシミュレートするために生成できる。それらは試験施設または遠隔通信網のような実際のシステムの何れかにおいて、計算によって（すなわち、例えば基本型システムをエミュレートするサンプルの数学的操作よって）、または元の信号を実際の装置へ送ることによって生成することができる。
訓練用装置１によってニューラル網５へ供給されるラベルは、送信する訓練用信号の性質を網に知らせて、これらの特徴を有するデータに関してメモリ４内に記憶した種々のパラメータへの適切な重み付けを可能にする。訓練用装置１は歪んだ形式または歪んでいない形式の信号例を供給するので、出力６は知覚可能な歪みが存在することだけでなく、歪みによって生じる減損の程度、すなわち歪みの存在によって聞き手がどの程度妨害されるかも識別することができる。
網のデータが正確であることを確実にするために、予め分類が分っている試験データを入力２に供給し、この分類とニューラル網５内の網定義関数によって生成される分類を（図示されていない手段によって）比較してもよい。

Claims

発話を搬送する信号の品質を評価する方法であり、発話および歪み信号要素の両方を、パラメータで表示可能な係数を生成できるスペクトル表示モデルにしたがって、信号を解析して出力パラメータを生成し、所定の網定義関数にしたがって出力パラメータを重み付けして、重み付けした出力パラメータから導出した発話信号の品質を表す出力を生成することを含み、
前記網定義関数が適切な状態および／または不適切な状態のサンプルを使用する訓練可能なプロセスを使用して生成され、スペクトル表示によってモデル化され、
第１の信号および第１の信号を歪ませた形式の信号を含む訓練用シーケンスを使用して、前記信号の歪みが聞き手に知覚可能な程度を示す歪み知覚測度を生成する解析処理によって決まるように、各セグメントに存在する歪みの知覚可能な程度を測定することによって網定義関数を判断し、網定義関数を確立する発話信号の品質評価方法。
前記解析処理が、同じ信号の歪んだ形式と歪んでいない形式とによって人間の聴覚システムにもたらされる効果を推定し、効果の差を判断し、かつ前記差に依存して前記歪み知覚測度を生成する請求項１記載の方法。
前記解析処理が、前記歪みの知覚強度に依存し、前記歪みの振幅に非線形に依存して、前記歪み知覚測度を生成する請求項１または２記載の方法。
発話搬送信号の品質を評価する装置であり、発話および歪み信号要素の両方を、パラメータで表示可能な係数を生成できるスペクトル表示を使用して、信号を解析して出力パラメータを生成する解析手段（３）と、
網定義関数を定める１組の加重値を記憶する記憶手段（４）と、
出力パラメータおよび網定義関数から導出した発話信号の品質を表す出力値を生成する出力手段（５）とを含み、
前記網定義関数が適切な状態および／または不適切な状態のサンプルを使用する訓練可能なプロセスを使用して生成され、スペクトル表示によってモデル化され、
第１の信号および第１の信号を歪ませた形式の信号を含む訓練用シーケンスを使用して、前記信号の歪みが聞き手に知覚可能な程度を示す歪み知覚測度を生成する解析処理によって決まるように、各セグメントに存在する歪みの知覚可能な程度を測定することによって網定義関数を判断し、網定義関数を確立する発話信号の品質評価装置。
記憶した加重値の組を生成する訓練用手段（１）をさらに含み、この訓練用手段が発話のサンプルを解析手段（３）に供給する手段（10）、および発話サンプルに関係する加重値を生成し、記憶手段（４）に加重値を挿入する手段（９）を含む請求項４記載の装置。
訓練用手段が、第１の信号（８ａ）および第１の信号の歪んだ形式の信号（８ｂ）を含む訓練用シーケンスを供給する手段（８）と、訓練用シーケンスを受信し、聞き手が知覚可能な歪みの程度を示す歪み知覚測度を生成し、歪み知覚測度を訓練可能な処理装置（５）へ適用して網定義関数（４）を判断する解析手段（９）とを含む請求項５記載の装置。
解析手段（９）が、同じ信号の歪んだ形式の信号と歪んでいない形式の信号とによって人間の聴覚システムに与える効果を推定する推定手段（13，14）と、前記効果の間の差を判断する手段（15）と、前記差に依存して前記歪み知覚測度を生成する手段（17）を含む請求項６記載の装置。
前記解析手段（９）が歪み知覚測度を生成し、歪み知覚測度値が前記歪みの知覚強度に依存し、前記歪みの振幅に非線形に依存する請求項６または７記載の装置。