JP4005128B2 - 信号品質の評価 - Google Patents
信号品質の評価 Download PDFInfo
- Publication number
- JP4005128B2 JP4005128B2 JP50735297A JP50735297A JP4005128B2 JP 4005128 B2 JP4005128 B2 JP 4005128B2 JP 50735297 A JP50735297 A JP 50735297A JP 50735297 A JP50735297 A JP 50735297A JP 4005128 B2 JP4005128 B2 JP 4005128B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- distortion
- speech
- generating
- distorted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Description
信号は遠隔通信リンク上を搬送されるときに、多くの変換、例えばデジタル化、データ圧縮、データ削減、増幅等を経ることができる。これらの全ての処理によって信号は歪む場合がある。例えば、波形をデジタル化するとき、この波形の振幅が最大デジタル化値よりも大きい場合、波形のピークはフラットトップ形式(上が平坦な形式)に変換されることになる(この処理はピーククリッピングとして知られている)。これは信号に好ましくない高調波を付加する。歪みは外部ソースからの電磁干渉によって生じる場合もある。
上記の処理によってもたらされる歪みは非線形であるので、簡単な試験信号を発話のような複雑な波形と同じ方法で歪ませることは殆どまたは全くできない。データを搬送する遠隔通信リンクでは、全ての可能なあるデータ記号(例えば、二進リンクでは2つの記号1および0、またはDTMF(デュアルマルチフレケンシィ)システムで使用される12音の対)を使用してリンクを試験することができる。しかしながら、発話は制限された数の適切に定めた信号要素からではなく、連続的に変化する信号から構成されており、この連続的に変化する信号の要素は発話の内容(および使用される言語)だけでなく、ピッチ、音量、特徴的な母音がもつ音などの特徴に影響を与える個々の話者の生理的および心理的特徴にしたがっても変化する。
遠隔通信装置を試験するとき、発話サンプルを使用して試験シーケンスを実行するやり方が知られている。被試験装置によってもたらされる歪みの識別には被試験装置によって変更される試験シーケンスと元の試験シーケンスとの比較を使用できる。例えば、Edmund Quincyによる文献(the IEEE International Conference on Communications 87;Session 33.3;vol 2, 1164乃至1171頁)には、“規則応用”システム(“エキスパード”システムとしても知られている)を使用してこの信号を解析する方法が記載されており、所定の目的規則を使用して、所定の入力信号に対して、信号品質を示す適切な出力を発生する。
上述の構成には予め準備した一連の試験が必要であるので、ライブの遠隔通信リンク、すなわち収入を得るトラヒック(revenue earning traffic)用に現在使用しているリンクにおいて該構成を使用できないことを意味している。その理由は一連の試験は、搬送され且つユーザに聞こえるトラヒックを干渉し、また対照的にライブのトラヒック、それ自身(その内容は予め決めることはできない)を試験信号の歪みとして試験装置によって検出するからである。
使用中の装置が搬送する信号を干渉せずに、その装置で試験(いわゆる非侵襲性試験)を行なうために、生の発話信号自体を試験信号として使用して試験を行なうことが望ましい。しかしながら、進行中の発話を試験信号として使用するとき、測定点で元の信号サンプルを即時に得る方法がないという問題がある。元の信号を測定位置へ送信できる手段は、被試験リンクと同じように歪みを受ける可能性が高い。
本発明の出願人による先願の国際特許出願第WO96/06495号およびWO96/06496号(両出願は1996年2月29日に公開されている)では、この問題に対する2つの可能な解決案を提示している。第WO96/06495号には一定の発話特徴の解析が記載されており、この解析は遠隔通信リンクによって信号がどのように変更されたかを判断するために話者に依存しない発話を扱っている。第WO96/06495号にはさらに発話のある種の特徴の解析について記載されており、この発話のある種の特徴は、それ自体は直接に測定することはできないが、個々の話者の発話の間では一貫したやり方で他の特徴と関係して変化し、したがって発話の他の特徴に関する情報を導き出すことができるとしている。例えば、音声を含まない摩擦音のスペクトル内容は音量(振幅)で変化するが、これは個々の話者によって著しく依存した形をとる。したがってスペクトル内容を使用して、元の信号振幅を推定し、元の信号振幅を受信した信号振幅と比較して、話者と測定点との間の減衰を推定することができる。
第WO96/06496号では、受信した信号の内容を発話認識器によって解析して、この解析結果を発話合成器によって処理して、歪みのない発話信号を再生する。この信号はピッチおよび継続期間を正規化されて、元の発話信号を推定し、推定した元の発話信号を受信した発話信号と比較して、例えば、国際特許出願WO94/00922号および第WO95/15035号に記載した知覚解析技術を使用して、歪みまたは干渉を識別することができる。
一般的に制限された帯域幅で発話を送るには、データ削減を使用する。線形予測可能コーデック(LPC)は人間の声道に似たものに基いており、“声道モデル”で同様の動作を行うのに必要なパラメータとして発話波形のセグメントを表わしている。多くの応用において信号の発話内容は、この声道モデルで発話のパラメータを識別することによって解析することができる。しかしながら、このモデルは声道において生成されなかった要素のモデルを作ることはできない。結果として、従来の声道モデルでは歪みを容易に解析できない。
本発明の第1の態様にしたがって、発話を搬送する信号品質を評価する方法であり、発話および歪み信号要素の両方をパラメータで表示可能な係数を生成できるスペクトル表示モデルにしたがって、信号を解析して出力パラメータを生成し、所定の網定義関数にしたがって出力パラメータを重み付けして、重み付けした出力パラメータから導出した出力を生成する方法を提供する。
本発明の第2の態様にしたがって、発話搬送信号の品質を評価する装置であり、発話および歪み信号要素の両方をパラメータで表示可能な係数を生成できるスペクトル表示を使用して、信号を解析して出力パラメータを生成する手段、網定義関数を定める1組の加重値を記憶する記憶手段、および出力パラメータと網定義関数とから導出される出力値を生成する手段とを含む装置を提供する。
好ましくは網定義関数は、予備段階で出力値が分かっているデータから導出する。網定義関数は、既知のデータを使用して自動的に導出できるので、本発明のシステムは“エキスパート”システムで生成可能なよりもより一層複雑な関数にしたがって出力を生成することができ、また人間の聴覚システムで行なわれている生理的なプロセスに関する予見を一切必要としない。
上述で定義したスペクトル表示モデルを以下で“不完全な声道モデル”と記載することにする。この文脈ではこの用語は、声道モデルが“理想的”ではないが、人間の声道では生成できない聴覚スペクトル要素に関係する係数も生成できることを意味するが、これは声道モデル設計の正規の目的ではない。好ましい実施形態では、網定義関数は、例えば良い状態または意図的に悪くした状態といった既知の性質をもち、声道モデルによって解析される発話サンプルを使用することによって生成され、ニューラル網のような訓練可能な処理によって、良い状態または悪い状態の信号に関係しているとして、生成したパラメータが識別できる。この方法では、各信号形式に関係する声道パラメータ(および両方の形式の信号と関係しているので、指標として信頼できず、より小さいまたはゼロ加重値を生成するパラメータ)に対して加重値を作り上げることができ、未知の信号を処理するとき、未知の信号に関係するパラメータに関して予め生成した加重値を使用して、出力を生成することができる。
好ましくは網定義関数の加重値は、出力パラメータの時間的な前後関係に依存するとよい。このためにはパラメータのシーケンスにも個々のパラメータにも加重値を与えてよい。連続する時間フレームのパラメータのシーケンスは、実際の発話音に対応する多数の認識したシーケンスの1つに続くものでなければならない。ある時間フレームに対して1組のパラメータが識別され、それがシーケンスの先行するメンバに続いておらず、または全く現れない場合には、歪みが存在することを示している。
1実施形態では、この装置は記憶した加重値群を生成する訓練手段をさらに含み、訓練手段は発話サンプルをモデリング手段に供給する第1の入力手段と;発話サンプルに関係する既知の出力情報(以下で“ラベル”と記載する)を訓練手段に供給する第2の入力手段と;ラベルに基いてモデリング手段から加重値を生成する手段と;モデリング手段によって生成された加重値を記憶する記憶手段とを含む。
したがって訓練用サンプルで使用される各発話セグメントには、適切な状態(“良好”)または不適切な状態(“劣等”)とラベルを付さなければならない。これは重要な処理である。その理由は一般的なサンプルは数時間の発話を含むので、ある範囲の話者、状態、および他の変数に正確に応答するシステムを訓練するには、多くのこのようなサンプルが必要であるからである。個々のセグメントの継続期間は一般的に20ミリ秒であるので、全部で数百万のセグメントにラベルを付さなければならない。
好ましい実施形態では、訓練手段は第1の信号と第1の信号を歪ませた形の信号とを含む訓練用シーケンスを供給する手段、訓練用シーケンスを受取り、聞き手に知覚可能な歪みの程度を示す歪み知覚測度を生成する解析手段、および歪み知覚手段を訓練可能な処理装置に設けて、網定義関数を判断する手段を含む。
好ましくは訓練可能な処理は、第1の信号と第1の信号を歪ませた形式の信号とを含む訓練用シーケンスを供給する段階と、聞き手に知覚可能な前記信号の歪みの程度を示す歪み知覚測度を生成することを含む解析処理によって判断されるように、各セグメント内に存在する知覚可能な歪みの程度を測定することによって網定義関数を判断する段階とを含む。
好ましい構成では、解析処理は同じ信号の歪んだ形式と歪んでいない形式によって人間の聴覚システムに与える効果を推定し、前記効果の間の差を判断し、前記差に依存して前記歪み知覚測度を生成する。好ましくは、解析処理によって生成される前記歪み知覚測度は前記歪み知覚強度に依存し、かつ前記歪みの振幅に非線形に依存する。
好ましくは解析処理は前記試験信号および/または前記歪んだ信号の複数のスペクトル成分信号を生成し、各スペクトル成分信号に対するマスキング効果を推定する。マスキング効果とはこのスペクトル成分信号が人間の聴覚システムに与える効果である。
好ましい構成では、解析処理は歪んだ信号を複数のスペクトル成分帯域に分解することにより、前記歪みが人間の聴覚システムに与える効果を推定し、スペクトルマスキングを行なうように整形されており;先行および/または後続の部分が原因である信号の時間的マスキングを計算し;各スペクトル成分信号に対して、歪んだ信号の成分信号と対応して計算した試験信号の成分信号との間の差の表現を形成し;前記差の測度(表現)から前記歪み知覚測度を生成する。とくに好ましい構成では、解析処理によって前記異なる信号から歪みのスペクトルで時間的に分布の測度を生成する。
各訓練シーケンスが異なる話者間の特徴の変化を取込むためには、一般的に自然の発話の大きなコーパスとなる。好ましい実施形態では、解析処理は歪んだ発話信号を複数のスペクトル成分帯域に分解して、スペクトルマスキングを行なう段階と;マスキングの時間な部分に先行および/または後続することが原因である信号の時間的マスキングを計算する段階と;各スペクトル成分信号に対して、歪んだ信号の成分信号と対応して計算した試験信号の成分信号との間の差の表現を形成する段階と;前記差の測度から前記歪み知覚測度を生成する段階とを含む。
適切な発話解析処理は、国際特許出願第WO94/00922号、および第WO95/15035号に記載されている。歪み知覚測度を使用して、セグメントに自動的にラベルを付すことによって、一貫して、しかしそれにも関わらず聞き手に知覚可能な因子にしたがって網定義関数を導出することができる。
ここで本発明の例示的実施形態を添付の図面を引用して記載する。添付の図面には本発明の種々の素子の機能的関係が示されている。本発明は、汎用コンピュータで使用するソフトウエアで有効に実現することができる。
図1は、訓練処理用に構成された訓練可能なシステムの機能素子を示す。
図2は、未知のデータを使用した処理のために構成された同じシステムの機能素子を示す。
図3は、図1の訓練装置を一層詳細に示す。
図4は、図3の解析装置を一層詳細に示す。
図5は、データソースによって供給される最初の発話サンプルを生成できる装置を示す。
図1および2のシステムは、訓練用データソース1および活性トラヒック(実データ)ソース2を含み、両ソースは声道解析器3への入力を設けている。訓練用データと関係するパラメータはさらに、訓練用装置1から分類ユニット5へ供給される。分類ユニット5は、訓練可能な処理装置、とくにニューラル網5として示されている。解析ユニット3によって出力されるパラメータはニューラル網5に供給される。訓練処理中に、ニューラル網5はパラメータをメモリ4に供給する。これらのパラメータは網定義関数を定める。実データを読み取るとき、パラメータをメモリ4から検索し、ニューラル網5でこれを使用して、声道解析器3によって生成される値で網定義関数を実行し、出力6へ供給する分類データを生成する。一般的に出力データは分類の形式であり、解析器3によって生成される値に基づき、網定義関数にしたがって重み付けされ、システムによって識別された歪みの程度を示す。例えば、全ての重み付けしたパラメータが所定の値を越えたとき、および/または重み付けしたパラメータの幾つかの代数的組合せ(例えば、それらの和)が所定の値を越えたとき、信号は“良好”と分類することができる。測定可能な性質は特徴的な値であり、1または複数の他の性質の測定から予測できる。実際に測定した値が予測した値に対応しないとき、一方または他方の値が歪んでいて、それによって信号品質の別の表示を与える。多数の閾値を設定することによって、幾つかの品質レベルを定めることができる。
実際の目的では、信号を時間フレームのシーケンスとして解析する。第1の時間フレームに関係するデータから導出したパラメータは次の時間フレームの解析で使用することができる。この目的のために、声道解析3の出力をバッファメモリ7に記憶して、後でニューラル網5の次の動作で使用する。
図3は訓練用装置1を一層詳細に示している。図3にはデータメモリ8が含まれ、データメモリ8は、“良好な”信号用の第1のメモリ8a、および第1のメモリ8aに記憶した良好な信号を歪ませた信号用の第2のメモリ8bから構成されている。メモリ8aからの良好な信号、およびメモリ8bからの良好な信号に対応する歪んだ信号を第1および第2の入力11、12を通って解析ユニット9へ供給する。解析ユニット9はラベルのシーケンスを含む出力を供給し、ラベルシーケンスはニューラル網5へ送られる(図1参照)。さらに歪んだ形式の信号はセグメンタ10へ送られ、セグメンタ10は信号をラベルに対応する個々のセグメントに分割する。次にこれらのセグメントは声道解析器3へ送られる(図1参照)。
図4は解析ユニット9を一層詳細に示している。入力11および12は第1および第2のメモリ(8a,8b)から“良好な”信号および良好な信号を歪ませた形式の信号を搬送して、それぞれ聴覚モデル(それぞれ13,14)へ供給され、聴覚モデルの出力はコンパレータ15で比較する。当業者には明らかなように、代りの構成では良好な信号および歪んだ信号に対応する通路は、同じ聴覚モデルに交互に供給され、この聴覚モデルの出力は良好な信号および歪んだ信号の通路で比較される。コンパレータ15からの出力を使用して、エラー面生成器16内にエラー面を生成し、こうして生成したエラー表面の性質を使用して、ラベル生成器17でエラー表面16の特徴に適したラベルを導き出す。セグメンタ10で信号をセグメント化するのと同期して、これらのラベルを生成する。ラベルはニューラル網5へ出力される(図1参照)。
図5は、データメモリ8へのデータ生成を示す。以下で説明するように元の試験信号18を適切な手段によって生成し、第1のメモリ8aに直接に送信する。同じ信号を歪み手段19へ送り、生成された歪み信号を第2のメモリ8bに記憶する。
ここで声道解析システムおよび訓練可能な処理の特徴を簡単に記載することが適切である。声道は非均一な音響管であり、声門から唇へ延在し、時間関数として形状が変化する[Frant G C M, "Acoustic Theory of Speech Production", Mouton and Co., 'sgravehage,オランダ,1960年]。時間にしたがって変化する主要な解剖学的要素は、唇、顎、舌、および帆(軟口蓋)である。計算を簡単にするために、このシステムに対するモデルは両方とも線形であり、時間が一定であることが望ましい。不都合なことは、人間の発話機構はこれらの性質の何れも正確に満たしていないことである。発話は連続的な時間変化プロセスである。加えて、声門を声道から分離せず、その結果非線形の特徴を有する[Flanagan J L "Source-System Interactions in the Vocal Tract", Ann. New York Acad. Sci. 155, 9-15, 1968年]。しかしながら、合理的な仮定を置くことによって、短い時間間隔で線形で固定時間のモデルを生成して、発話イベントを記載することができる[Markel J D, Gray AH, "Linear Prediction of Speech", Spring-Verlag Berlin Heidelberg New York, 1976年]。線形予測コーデックは発話イベントを短い期間すなわちフレームに分割し、終了した発話のフレームを使用して、独特な予測パラメータ群を生成して、現在のフレーム内の発話を表示する[Atal B S, Hanauer S L "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave" J. Acoust. Soc. Amer., vol.50, pp.637-655, 1971年]。線形予測解析は、ピッチ、フォルマント、およびスペクトルのような発話パラメータを推測する方法として幅広く使用されるようになった。聴覚モデル(時間/周波数/振幅のスペクル写真)は、監視している可聴音響の特徴に依存し、それらがどのように生成されるかは考慮せず、一方で声道モデルは、信号が発話形式であるか否か、すなわち実際の声道が発話を生成できるか否かを識別することができる。したがって、聞き取れない差は聴覚モデルでは認識されず、声道モデルによって認識される。
信号品質を測定するには、生成された出力パラメータは測定される性質、すなわち、知覚される発話品質に敏感でなければならない。したがってモデルは発話形式でない歪みをモデリングできなければならず、したがって理想的な声道モデルは適切ではなくなる。理想的なモデルは、全ての入力信号を発話形式に変換したものである(歪みが著しいときは元の発話である必要はない)。このため歪んだ入力および正確な入力が両方とも発話に似ていると分類されると、訓練用の処理が不可能になるので、分類プロセスは信頼できなくなる。したがって先に定義したように、声道モデルは“不完全”であることが重要であり、その理由はプロセスが、人間以外の歪み要素の存在に敏感な声道モデルからの出力パラメータに依存してしまって、不適切な状態の信号と適切な状態の信号を区別するからである。解析器3として使用するのに適した声道モデルは線形予測コーディングモデルであり、これは文献("Digital Processing of Speech Signals": Rabiner L.R.; Schafer R.W;(Prentice-Hall 1978年),396頁)に記載されている。
声道モデルの代りにスペクトル解析を使用することができ、これは例えば1/3オクターブ解析("one-third octave analysis")(文献、"Frequency Analysis", Section 3.6, R.B.Randall著(Bruel & Kjaer発行,1987年(ISBN 87 87355 078)参照)に記載されている。
ここで、訓練可能な処理、とくにニューラル網の特徴を記載する。多数の入力をそれより少数の所定の結果のクラスにマップするために、とくにマッピング処理が自然系を表すときは一連の規則を使用することができる。しかしながら、自然系が著しく複雑なとき、または必要なマッピングが抽象的なパラメータで動作するときは、訓練可能な処理を使用して、訓練用データと呼ばれる一連の既知の結果に応答して必要なマッピングを行うことができる。既知の結果を使用して、入力パラメータと結果のクラスとの間の関係を判断して、次の入力の未知の組合せを分類することができる。ニューラル網は、脳が関心のある特定のタスクまたは関数を実行する方法をモデリングするように設計されている。ニューラル網を訓練して、学習処理[Haykin S, "Neural Networks, A Comprehensive Fomdation", Macmillan IEEE Press, 1944年]によって有用な計算を行うことができる。良好な動作を達成するために、ニューラル網は簡単な処理ユニットを多数接続し、加重値として知られているプロセス間ユニットの接続力を使用して、システムの知識を記憶するようにしている。[Alessander I, Morton H "An Introduction of Neural Computing" Chapman and Hall London, 1990年]。学習処理を実行するのに使用する手続きは学習アルゴリズムと呼ばれ、その機能は順番に網の加重値を変更して、所望の設計目的を達成する。ニューラル網の能力は大規模な並列分散構造とその学習とそれらの一般化能力から得られる;一般化は訓練中に遭遇しなかった入力に対して合理的な出力を生成する網を意味する。監督下の学習は訓練の1形式であり、網に既知のクラス例を示し、相互接続した加重値を変更して、システムからの所望の応答と実際の応答の間の差を最小にする。網が安定状態に到達するまで、各入力クラスからの多数の例に対して訓練を反復する。ニューラル網によって実行される入力−出力マッピングとパラメトリックでない統計的推論によって達成される分類との間にはよい類似が存在する。
ここでシステムの動作を記載する。最初に図2を参照して、ソース2から声道解析システム3へ実際のデータを供給することができる。歪みおよび干渉によって、元の信号の個々の時間フレームを歪ませたり、またはそれを一緒になくすことができる。可能なフレームの小さいサブセットの1つの後にだけ与えられたフレームが現れることができるならば、このサブセットのメンバでないフレームの後に所定のフレームが現れるというのは、メインフレームまたはそれに先行するフレームの何れか(またはその両方)が前後関係に適していた元のフレームから歪んでいたことを示している。各個々のフレームのパラメータは“許容”できる(すなわち、パラメータが所定の範囲内にはいっている)が、パラメータのシーケンスを一体として考慮したときは、許容できない場合があり、歪んでいることを示す。メモリ4に記憶したパラメータは、そのような効果を含む網定義関数を定める。声道解析によって生成されるパラメータは、ニューラル網5への入力として供給され、ニューラル網5は声道解析によって生成されるデータを網定義関数に供給して、出力6を生成する。メモリ4に記憶したパラメータによって網定義関数を定めて、ソース2に供給される信号品質の分類を導き出す。
時間に依存する性質に関係するパラメータを含むために、例えばモデルからの出力の瞬間的な特徴が人間の声道の能力に含まれるか否かだけでなく、時間で変化する性質もこの能力に含まれるか否かを識別するために、声道解析からの出力をバッファメモリ7に記憶する。所定数の記憶したパラメータを現在のサンプルに付加する“ヒストリカルデータ(historical data)”としてニューラル網5への入力として供給し、信号の時間に依存する特徴を測定することができる。記憶したパラメータは現在のサンプルの前および後の両方でイベントに関係付けて、サンプルの“プレヒストリ”と“ポストヒストリ”の両方を考慮対象に組入れてよい。明らかに、ポストヒストリの場合、ポストヒストリが集まるまで、現在のサンプルの解析を行うことはできない。
ソース2は多数の個々の遠隔通信リンクを継続し、それに接続して、多数のリンクの信号品質を監視することができる。とくに“非侵襲性”測定処理に適しているが、本発明はいわゆる“侵襲性”の測定にも使用可能である。侵襲性の測定では、試験信号を生の信号としてではなく、ソースとして使用する。
出力6は、ユーザに適切な形式で表示することができる。例えば、劣等な動作を表す分類を生成するソースは網管理装置に示してもよいので、ソース2によって表される遠隔通信リンクは故障中であるとされ、必要であれば修復され、可能であれば別にルート設定をすることによってリンクを再び確立することになる。可能な1構成では、このような動作は自動的に制御されるか、または人間の制御者が出力6によって供給される指示で動作してよい。
各フレームに記録したパラメータを、パラメータを表すショートコードとして記憶することができる。これはメモリ占有を狭くし、さらに処理時間を著しく低減できる。継続する時間フレームのコードシーケンスは、それらが表すパラメータのように、実際の発話音響に対応する多数の認識したシーケンスの1つに続く。シーケンスの先行するメンバに続いてはならないか、または全くコード化されないコードを有する時間フレームに対して1組のパラメータが識別されたときには、歪みが存在することを示している。
メモリ4に記憶したパラメータを生成するために、ニューラル網5を最初に訓練して、訓練データを使用して、網定義関数を確立しなければならない。このプロセスは図1に示されている。試験データは訓練用装置1から声道解析器3へ供給される。訓練用装置1はさらに試験データに関係する分類パラメータをニューラル網5へ供給して、網定義関数を定めるラベルの生成をメモリ4に記憶することができる。
ここでこれらのラベルの生成を記載する。必要なデータの全体を生成して、ニューラル網を訓練するために、人間のオペレータが個々に正確に評価するには短かすぎる発話セグメントを使用して、このような信号を自動的に生成する方法を案出した。このプロセスは知覚解析モデルの使用に依存し、信号の歪みが聞き手に明らかであるか否かを評価する処理である。最初に2つの関係するメモリ(8a,8b)を有する試験信号8のソースを供給する。第1のメモリ8aは“良好な”信号サンプルを有する。完全なサンプルは一般的に数時間の長さである。第2のメモリ8bは同じサンプルの対応する形式を有し、このサンプルは歪を受けており、その手段を次に記載する。第2のメモリ8bに記憶されたサンプルは、種々の程度および形式の歪みを有する。歪んだ信号は短いセグメント(一般的に20ミリ秒)に分割され、短いセグメントは声道解析器3に直接に供給される(図1参照)。解析ユニット9は“良好な”サンプルと歪んだサンプルとを比較して、ラベルのシーケンスを生成する。このラベルは、各セグメント内に存在する歪みが聞き手に知覚可能なモデルによって考えられる程度を表す。ここでこの解析処理を一般的な用語で記載するが、特に適切な解析技術は、公開された国際特許出願第WO94/00922号およびWO95/15035号で使用した技術である。
図4には解析システムが一層詳細に記載されている。“良好な”サンプルおよび対応する歪んだサンプルは、それぞれ入力11,12を通って聴覚モデル13,14に供給される。これらのサンプルは分かりやすくするために個別のモデルとして示されているが、サンプルは交互に同じモデルに送れることが理解できるであろう。何れの場合でも、両方の信号に同じ処理を適用することが重要である。モデルは多数のパラメータを生成し、これらのパラメータは個々の信号セグメントの特徴についての知覚可能な重要度に関係している。処理はサンプルを種々の重なり合うスペクトル帯域に分割し、オーバーラッピングフィルタを使用して、同時マスキングの現象をモデリングすることを含み、このとき音響は周波数がそれに近いより静かな同時音響をマスクし、さらに各セグメントを1または複数の先行または後続のセグメントと比較して、時間的マスキングの現象をモデリングすることも含み、このときは大きい音響の直ぐ前または後の静かな音響は大きい音響が存在しないときよりも知覚しにくい。上記の特許明細書第WO94/00922号およびWO95/15035号に記載したように、聴覚モデル処理は聴覚表面を生成し、次に“良好な”サンプルおよび歪んだサンプルに対応する2つの聴覚表面をコンパレータ15で比較して、エラー表面を生成する。エラー表面は本質的に、多数の時間セグメントおよび周波数またはピッチ帯域の測度であり(帯域の個々の範囲は、例えば、信号をバルクスケールに適合させることによって、同じ知覚重要度を有するように選択される)、ここで、音響信号の知覚した大きさは、ピッチおよび時間軸の両方に垂直な軸上に表される。異なる加重値を正または負の値に加えてよく、例えば付加したノイズと比較して信号損失から生成された減損の差を考慮する。歪みが全く存在しないときは、エラー表面は全表面にわたってゼロの値を有する。記載した例のように、エラー表面の値が聴覚モデル出力間の差(上述のように重み付けされている可能性が高い)の絶対値として判断されるとき、エラー表面の全ての値は正である。
上記の特許出願第WO94/00922号およびWO95/15035号に記載したように、エラー表面の特徴を使用して、その中を搬送される知覚重要度の値を導出すことができる。国際特許出願第WO95/15035号に記載されているように、エラー表面に集められるエラーの絶対的な大きさはこの値の因子である。表面の形状に依存する値を利用することもでき、この値は第WO95/15035号明細書では“エラーエントロピー”と記載されている。
“聴取り努力”YLEに対する最後に重み付けした値から、存在する歪みの絶対量が得られ、それは次の式で導き出すことができる:
エラー活性度、
尚、c(i,j)は、解析されるエラー表面のi番目の時間セグメントとj番目のピッチ帯域のエラー値である。
時間およびピッチのエラー分布(またはむしろ、エネルギーが分布する範囲の逆数に対応する歪みのエントロピー)は次の式から算出される:
上記の式の自然対数(ln)の項は、エネルギー振幅の変量がエントロピーEEに作用し、非線形圧縮関数として機能する程度を制御する。
聞き手がピッチおよび時間的に分布した信号ではなく、短期間に単一のピッチに集中するとき、聞き手は高レベルのエラーが著しく認識できることが分るので、エラー活性度およびエラーエントロピー測度は共に、歪みの本質的に知覚したレベルによく対応することが分る。
エラーエントロピーEEは全エラー量の大きさとは無関係のエラー分布基準を与え、エラー活性度EAはエラー分布とは無関係のエラー量の測度を与える。
事実、この実施形態で使用する可聴エラーの振幅スケールの対数の単位を考慮するために、次のようにEEおよびEAをEEおよびEAとして再び代入するのが有効である:
エラー活性度およびエラーエントロピー測度を結合して、歪みに対する主体の聞き手の応答があるものに対する良好な指示を、歪みの実際の特徴に対して比較的に堅実な方法で与えることができる。
主体の“聴取り努力”測定YLEの良好な指標は、次の式から得られることが分っている。
YLE=−a1+a2log10AE′a3E′E
なお、a1=8.373;a2=0.05388;a3=0.4090である。
YLEに対する適切な閾値の値を使用して、特定のサンプルに“適切な状態”または“不適切な状態”のようなラベルを付すべきであるか否かを判断することができる。ラベル生成装置17は上記の計算を行い、ニューラル網5にラベルを出力する。このラベルは、メモリ8bから抽出した信号から時間的セグメンタ10によって生成された対応する試験信号セグメントに適している。
メモリ8で使用される歪んだおよび“良好な”信号のソースは、予め生成されたメモリから供給することができる。適切なデータの種々のコーパスは既に使用可能であるが、さらに容易にデータを生成することができる。このようなデータの生成は、比較的に簡単であり、図5に示されている。
最初の試験信号は、実際の発話の幾つかのサンプルを含む場合もあり、異なる話者を使用して、代表的な選択を確実にするために、“良好な”メモリ8aに供給される。同じ信号を歪み生成装置19にも供給する。生成された歪んだ信号は“歪んだ”信号用のメモリ8bに記憶する。種々の異なる歪みソースに供給することができる。異なる試験信号および歪み形式の種々の置換を使用することによって、試験データの代表的な表示コーパスを生成して、訓練用データソース1によって供給される訓練用データとして使うことができる。
歪み生成装置19によって試験信号に歪みの典型的な形式が加えられて、訓練用プロセスに対してこの種の信号の代表的な選択を供給する。これらの歪みは種々の効果をシミュレートするために生成できる。それらは試験施設または遠隔通信網のような実際のシステムの何れかにおいて、計算によって(すなわち、例えば基本型システムをエミュレートするサンプルの数学的操作よって)、または元の信号を実際の装置へ送ることによって生成することができる。
訓練用装置1によってニューラル網5へ供給されるラベルは、送信する訓練用信号の性質を網に知らせて、これらの特徴を有するデータに関してメモリ4内に記憶した種々のパラメータへの適切な重み付けを可能にする。訓練用装置1は歪んだ形式または歪んでいない形式の信号例を供給するので、出力6は知覚可能な歪みが存在することだけでなく、歪みによって生じる減損の程度、すなわち歪みの存在によって聞き手がどの程度妨害されるかも識別することができる。
網のデータが正確であることを確実にするために、予め分類が分っている試験データを入力2に供給し、この分類とニューラル網5内の網定義関数によって生成される分類を(図示されていない手段によって)比較してもよい。
Claims (8)
- 発話を搬送する信号の品質を評価する方法であり、発話および歪み信号要素の両方を、パラメータで表示可能な係数を生成できるスペクトル表示モデルにしたがって、信号を解析して出力パラメータを生成し、所定の網定義関数にしたがって出力パラメータを重み付けして、重み付けした出力パラメータから導出した発話信号の品質を表す出力を生成することを含み、
前記網定義関数が適切な状態および/または不適切な状態のサンプルを使用する訓練可能なプロセスを使用して生成され、スペクトル表示によってモデル化され、
第1の信号および第1の信号を歪ませた形式の信号を含む訓練用シーケンスを使用して、前記信号の歪みが聞き手に知覚可能な程度を示す歪み知覚測度を生成する解析処理によって決まるように、各セグメントに存在する歪みの知覚可能な程度を測定することによって網定義関数を判断し、網定義関数を確立する発話信号の品質評価方法。 - 前記解析処理が、同じ信号の歪んだ形式と歪んでいない形式とによって人間の聴覚システムにもたらされる効果を推定し、効果の差を判断し、かつ前記差に依存して前記歪み知覚測度を生成する請求項1記載の方法。
- 前記解析処理が、前記歪みの知覚強度に依存し、前記歪みの振幅に非線形に依存して、前記歪み知覚測度を生成する請求項1または2記載の方法。
- 発話搬送信号の品質を評価する装置であり、発話および歪み信号要素の両方を、パラメータで表示可能な係数を生成できるスペクトル表示を使用して、信号を解析して出力パラメータを生成する解析手段(3)と、
網定義関数を定める1組の加重値を記憶する記憶手段(4)と、
出力パラメータおよび網定義関数から導出した発話信号の品質を表す出力値を生成する出力手段(5)とを含み、
前記網定義関数が適切な状態および/または不適切な状態のサンプルを使用する訓練可能なプロセスを使用して生成され、スペクトル表示によってモデル化され、
第1の信号および第1の信号を歪ませた形式の信号を含む訓練用シーケンスを使用して、前記信号の歪みが聞き手に知覚可能な程度を示す歪み知覚測度を生成する解析処理によって決まるように、各セグメントに存在する歪みの知覚可能な程度を測定することによって網定義関数を判断し、網定義関数を確立する発話信号の品質評価装置。 - 記憶した加重値の組を生成する訓練用手段(1)をさらに含み、この訓練用手段が発話のサンプルを解析手段(3)に供給する手段(10)、および発話サンプルに関係する加重値を生成し、記憶手段(4)に加重値を挿入する手段(9)を含む請求項4記載の装置。
- 訓練用手段が、第1の信号(8a)および第1の信号の歪んだ形式の信号(8b)を含む訓練用シーケンスを供給する手段(8)と、訓練用シーケンスを受信し、聞き手が知覚可能な歪みの程度を示す歪み知覚測度を生成し、歪み知覚測度を訓練可能な処理装置(5)へ適用して網定義関数(4)を判断する解析手段(9)とを含む請求項5記載の装置。
- 解析手段(9)が、同じ信号の歪んだ形式の信号と歪んでいない形式の信号とによって人間の聴覚システムに与える効果を推定する推定手段(13,14)と、前記効果の間の差を判断する手段(15)と、前記差に依存して前記歪み知覚測度を生成する手段(17)を含む請求項6記載の装置。
- 前記解析手段(9)が歪み知覚測度を生成し、歪み知覚測度値が前記歪みの知覚強度に依存し、前記歪みの振幅に非線形に依存する請求項6または7記載の装置。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP95305313 | 1995-07-27 | ||
GB95305313.9 | 1996-02-29 | ||
GBGB9604315.3A GB9604315D0 (en) | 1996-02-29 | 1996-02-29 | Training process |
GB9604315.3 | 1996-02-29 | ||
GB96301393.3 | 1996-02-29 | ||
EP96301393 | 1996-02-29 | ||
PCT/GB1996/001821 WO1997005730A1 (en) | 1995-07-27 | 1996-07-25 | Assessment of signal quality |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11510334A JPH11510334A (ja) | 1999-09-07 |
JP4005128B2 true JP4005128B2 (ja) | 2007-11-07 |
Family
ID=27236875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50735297A Expired - Lifetime JP4005128B2 (ja) | 1995-07-27 | 1996-07-25 | 信号品質の評価 |
Country Status (12)
Country | Link |
---|---|
US (1) | US6035270A (ja) |
EP (1) | EP0840975B1 (ja) |
JP (1) | JP4005128B2 (ja) |
KR (1) | KR19990028694A (ja) |
CN (1) | CN1192309A (ja) |
AU (1) | AU694932B2 (ja) |
CA (1) | CA2225407C (ja) |
DE (1) | DE69626115T2 (ja) |
MX (1) | MX9800434A (ja) |
NO (1) | NO980331D0 (ja) |
NZ (1) | NZ313705A (ja) |
WO (1) | WO1997005730A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9604315D0 (en) * | 1996-02-29 | 1996-05-01 | British Telecomm | Training process |
US6119083A (en) * | 1996-02-29 | 2000-09-12 | British Telecommunications Public Limited Company | Training process for the classification of a perceptual signal |
AU7342798A (en) * | 1997-05-16 | 1998-12-11 | British Telecommunications Public Limited Company | Measurement of signal quality |
US6438373B1 (en) * | 1999-02-22 | 2002-08-20 | Agilent Technologies, Inc. | Time synchronization of human speech samples in quality assessment system for communications system |
JP4500458B2 (ja) * | 1999-05-25 | 2010-07-14 | アルゴレックス インコーポレイテッド | 音声及びオーディオ信号用リアルタイム品質アナライザ |
JP4659311B2 (ja) * | 1999-07-08 | 2011-03-30 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 転送手段を有するスピーチ認識装置 |
ES2211633T3 (es) | 1999-11-08 | 2004-07-16 | British Telecommunications Public Limited Company | Evaluacion no intrusiva de la calidad del habla. |
DE60118922T2 (de) * | 2000-06-12 | 2006-12-14 | British Telecommunications P.L.C. | Messung der wahrgenommenen sprachqualität während des betriebs durch messen von objektiver fehlerparamter |
EP1241663A1 (en) * | 2001-03-13 | 2002-09-18 | Koninklijke KPN N.V. | Method and device for determining the quality of speech signal |
EP1244312A1 (en) * | 2001-03-23 | 2002-09-25 | BRITISH TELECOMMUNICATIONS public limited company | Multimodal quality assessment |
AU2003212285A1 (en) * | 2002-03-08 | 2003-09-22 | Koninklijke Kpn N.V. | Method and system for measuring a system's transmission quality |
US7308403B2 (en) * | 2002-07-01 | 2007-12-11 | Lucent Technologies Inc. | Compensation for utterance dependent articulation for speech quality assessment |
US7165025B2 (en) * | 2002-07-01 | 2007-01-16 | Lucent Technologies Inc. | Auditory-articulatory analysis for speech quality assessment |
ATE333694T1 (de) * | 2003-01-18 | 2006-08-15 | Psytechnics Ltd | Werkzeug zur nicht invasiven bestimmung der qualität eines sprachsignals |
DE60305306T2 (de) * | 2003-06-25 | 2007-01-18 | Psytechnics Ltd. | Vorrichtung und Verfahren zur binauralen Qualitätsbeurteilung |
US7305341B2 (en) * | 2003-06-25 | 2007-12-04 | Lucent Technologies Inc. | Method of reflecting time/language distortion in objective speech quality assessment |
US7801280B2 (en) * | 2004-12-15 | 2010-09-21 | Verizon Laboratories Inc. | Methods and systems for measuring the perceptual quality of communications |
US7856355B2 (en) * | 2005-07-05 | 2010-12-21 | Alcatel-Lucent Usa Inc. | Speech quality assessment method and system |
JP2008185805A (ja) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | 高品質の合成音声を生成する技術 |
WO2009023807A1 (en) * | 2007-08-15 | 2009-02-19 | Massachusetts Institute Of Technology | Speech processing apparatus and method employing feedback |
JP2012503212A (ja) * | 2008-09-19 | 2012-02-02 | ニューサウス イノベーションズ ピーティーワイ リミテッド | オーディオ信号分析方法 |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
WO2016173675A1 (en) * | 2015-04-30 | 2016-11-03 | Longsand Limited | Suitability score based on attribute scores |
CN105391873A (zh) * | 2015-11-25 | 2016-03-09 | 上海新储集成电路有限公司 | 一种在移动设备中实现本地语音识别的方法 |
US9591125B1 (en) * | 2016-02-23 | 2017-03-07 | Verizon Patent And Licensing Inc. | Testing audio quality associated with a user device during a double talk communication |
US10249305B2 (en) * | 2016-05-19 | 2019-04-02 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
CN106531190B (zh) * | 2016-10-12 | 2020-05-05 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
EP3373208A1 (en) * | 2017-03-08 | 2018-09-12 | Nxp B.V. | Method and system for facilitating reliable pattern detection |
CN111179973B (zh) * | 2020-01-06 | 2022-04-05 | 思必驰科技股份有限公司 | 语音合成质量评价方法及系统 |
CN111370028A (zh) * | 2020-02-17 | 2020-07-03 | 厦门快商通科技股份有限公司 | 一种语音失真检测方法及系统 |
CN112086100B (zh) * | 2020-08-17 | 2022-12-02 | 杭州电子科技大学 | 基于量化误差熵的多层随机神经网络的城市噪音识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04345327A (ja) * | 1991-05-23 | 1992-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 通話品質客観測定方法 |
US5715372A (en) * | 1995-01-10 | 1998-02-03 | Lucent Technologies Inc. | Method and apparatus for characterizing an input signal |
US5867813A (en) * | 1995-05-01 | 1999-02-02 | Ascom Infrasys Ag. | Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system |
GB9604315D0 (en) * | 1996-02-29 | 1996-05-01 | British Telecomm | Training process |
-
1996
- 1996-07-25 KR KR1019970710017A patent/KR19990028694A/ko not_active Application Discontinuation
- 1996-07-25 US US09/000,270 patent/US6035270A/en not_active Expired - Lifetime
- 1996-07-25 NZ NZ313705A patent/NZ313705A/en not_active IP Right Cessation
- 1996-07-25 CA CA002225407A patent/CA2225407C/en not_active Expired - Lifetime
- 1996-07-25 EP EP96925865A patent/EP0840975B1/en not_active Expired - Lifetime
- 1996-07-25 MX MX9800434A patent/MX9800434A/es unknown
- 1996-07-25 JP JP50735297A patent/JP4005128B2/ja not_active Expired - Lifetime
- 1996-07-25 CN CN96195935A patent/CN1192309A/zh active Pending
- 1996-07-25 DE DE69626115T patent/DE69626115T2/de not_active Expired - Lifetime
- 1996-07-25 WO PCT/GB1996/001821 patent/WO1997005730A1/en active IP Right Grant
- 1996-07-25 AU AU66232/96A patent/AU694932B2/en not_active Ceased
-
1998
- 1998-01-26 NO NO980331A patent/NO980331D0/no not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
DE69626115T2 (de) | 2003-11-20 |
EP0840975A1 (en) | 1998-05-13 |
NO980331L (no) | 1998-01-26 |
CN1192309A (zh) | 1998-09-02 |
NZ313705A (en) | 1998-11-25 |
EP0840975B1 (en) | 2003-02-05 |
US6035270A (en) | 2000-03-07 |
CA2225407C (en) | 2002-04-23 |
AU6623296A (en) | 1997-02-26 |
WO1997005730A1 (en) | 1997-02-13 |
KR19990028694A (ko) | 1999-04-15 |
CA2225407A1 (en) | 1997-02-13 |
MX9800434A (es) | 1998-04-30 |
NO980331D0 (no) | 1998-01-26 |
AU694932B2 (en) | 1998-08-06 |
DE69626115D1 (de) | 2003-03-13 |
JPH11510334A (ja) | 1999-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4005128B2 (ja) | 信号品質の評価 | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
MXPA98000434A (en) | Evaluation of quality of se | |
US5794188A (en) | Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency | |
JP4308278B2 (ja) | 電気通信装置の客観的音声品質測定の方法および装置 | |
JP5006343B2 (ja) | 不侵入の信号の品質評価 | |
US5715372A (en) | Method and apparatus for characterizing an input signal | |
Qi et al. | The estimation of signal-to-noise ratio in continuous speech for disordered voices | |
US20060031066A1 (en) | Isolating speech signals utilizing neural networks | |
JPH10505718A (ja) | オーディオ品質の解析 | |
US8682650B2 (en) | Speech-quality assessment method and apparatus that identifies part of a signal not generated by human tract | |
US5799133A (en) | Training process | |
JP2011501206A (ja) | オーディオ送信システムの音声理解度測定方法およびシステム | |
JP2013501952A (ja) | オーディオ・システムの知覚品質を判定する方法およびシステム | |
Xiong et al. | Exploring auditory-inspired acoustic features for room acoustic parameter estimation from monaural speech | |
Harrison | Variability of formant measurements | |
JP4008497B2 (ja) | トレーニングプロセス | |
JP2022036862A (ja) | 音声客観評価装置及びそのプログラム | |
Hauenstein | Application of Meddis' inner hair-cell model to the prediction of subjective speech quality | |
Wang et al. | Non-intrusive objective speech quality measurement based on GMM and SVR for narrowband and wideband speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070724 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070823 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100831 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110831 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110831 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120831 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130831 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |