JP3701671B2 - Method and apparatus for testing communication devices using test signals with reduced redundancy - Google Patents

Method and apparatus for testing communication devices using test signals with reduced redundancy Download PDF

Info

Publication number
JP3701671B2
JP3701671B2 JP50254995A JP50254995A JP3701671B2 JP 3701671 B2 JP3701671 B2 JP 3701671B2 JP 50254995 A JP50254995 A JP 50254995A JP 50254995 A JP50254995 A JP 50254995A JP 3701671 B2 JP3701671 B2 JP 3701671B2
Authority
JP
Japan
Prior art keywords
speech
test signal
communication device
sequence
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP50254995A
Other languages
Japanese (ja)
Other versions
JPH08511672A (en
Inventor
ホーリア、マイケル・ピーター
Original Assignee
ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB939312758A external-priority patent/GB9312758D0/en
Application filed by ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー filed Critical ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Publication of JPH08511672A publication Critical patent/JPH08511672A/en
Application granted granted Critical
Publication of JP3701671B2 publication Critical patent/JP3701671B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/46Monitoring; Testing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/24Arrangements for testing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Telephone Function (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、通信装置の試験方法および装置に関する。
通信装置(例えば、電話線、電話回路網、またはコーデック等の通信装置)を試験する時、試験信号は通信装置の入力に導入され、装置の結果的な出力に対してある試験が行われる。信号対雑音比のような“客観的”試験測定値を得ることが知られており、この値は自動処理装置によって計算されることができる。聞き手が通信装置の出力を聞いて、出力の品質について意見を述べる“主観的”試験を行うことも知られている。
通信システムのいくつかの素子は線形である。したがって、ディスクリートな周波数正弦波、掃引された正弦波信号またはチャープ信号、ランダムまたは疑似ランダム雑音信号、またはパルスのような簡単な人工的な試験信号を適用することができる。出力信号は、例えば高速フーリエ変換(FFT)または他のスペクトル解析技術を使用して解析されることができる。1以上のこのような簡単な試験信号は、線形システムを十分に特徴付けることができる。
他方において、最近の通信システムに含まれる素子では非線形であり、および、または時間的に変化する素子が増加している。例えば、移動電話システムの一部分を形成する最近の低ビット速度のデジタルスピーチコーデックは、非線形応答および自動利得制御(AGC)、音声活動検出器(VAD)および関連した音声スイッチを有し、バーストエラーはそれらが一部分を形成する通信システムに時間的変化を生じさせる。したがって、通信装置の歪みまたは許容度の客観的な尺度を得るために線形システムに対して開発された簡単な試験方法が益々使用できなくなる。
最近、文献(John G.BeerendsおよびJan A.Stemerdink氏による“Measuring the Quality of Audio Devices”presented at the 90th AES Convention 1991年2月19-22日,Paris in AES Preprints as Preprint 3070(L-8)by the Audio Engineering Society)において、実際に記録されたスピーチのデータベースを試験信号として使用し、人間の聴覚に生じると考えられるプロセスにいくつかの点で対応するように設計された知覚的な解析方法を使用するコーデックの対応した出力を解析することによってデジタル移動無線に対してスピーチコーデックの品質を測定することが提案されている。
通信装置の特性を測定するためにセプストラル(cepstral)距離(CD)測定のような通常の歪み解析測定と共に、人工的な音声信号(すなわち、スペクトル的に人間の音声に類似しているが、インテリジェンスを全く伝達しない信号)を使用することもまた提案されている(例えば、Irii、Kurashima、KitawakiおよびItoh氏による文献(“Objective Measurement Method for Estimating Speech Quality of Low Bit Rate Speech Coding”,NTT Review,Vol.3.No.5,1991年9月)。
人間のスピーチを符号化するように設計されたコーデックのような試験装置および人間の聴覚に基づく解析方法を使用した場合、上記のBeernendsおよびStemerdink氏の文献において提案されたように、実際の人間のスピーチサンプルを使用することは明らかである。しかしながら、実際にはこのような試験システムの特性はあまりよくない。
1つの人工的な音声試験信号が、CCITT勧告P50(Artificial Voices.Vol,Rec.P50,Melbourne 1988,published by CCITT)に記載されている。P50試験信号には、予め定められた長さのセグメントで与えられたランダムに選択されたシーケンサで16の予め定められたスペクトルパターンが存在し、そのセグメント間の転移は滑らかである。P50信号は、約10秒にわたって平均化した場合、スピーチに対する長期間および短期間のスペクトル類似性を有する。しかしながら、P50試験信号と実際のスピーチとの間のいくつかの相違が通信システムを試験する時に顕著であることが認められている。
提案された別のタイプの人工的な試験信号は、文献(H.BrehmおよびW.Stammler氏による“Description and Generation of Sphericaliy Invarient Speech Model Signals”Signal Processing,Vol.12 Pt 2,1987年3月)に記載されているように球状の変化しないランダムプロセス(SIRP)を使用する。これは、自然のスピーチと同じ長期間スペクトルを有する信号を提供する。短期間スペクトルは自然のスピーチのものに類似しておらず、経過時間にわたる音のグルーピングが主観的に自然のスピーチと非常に異なって聞こえる。
マルコフ(m)SIRPと呼ばれる変形は、短期間のスペクトルのモデル化を試みているが、自然のスピーチと異なって聞こえるスピーチ音との間の速いランダムな転移を有する。
したがって、本発明は、自然のスピーチにおいて発生する、自然のスピーチに比較して冗長性が減少された音のシーケンスを含む試験信号を提供する。
実際のスピーチデータを使用する時、いくつかの問題に直面する。表現するには、話し手の人数が多くなければならず、各話し手からのスピーチ材料は広範囲にわたるものでなければならず、音声レベルの範囲は各話し手に対して考慮されなければならない。したがって、システムの信頼できる特性を提供するために、試験されているシステムにより動作されなければならない自然のスピーチ材料の量は非常に多い。
本発明は、一般に生理学的および言語学的な制約が、スピーチ音のある組合せが自然のスピーチにおいて発生することを阻止し、試験のために人間のスピーチで生成された音の多くのものに著しい冗長が存在することの認識に基づいている。したがって、本発明によると、実際の人間のスピーチからのスピーチ音(記録または合成されたいずれか)は、冗長を生ぜずに種々のスピーチ音およびレベルの表現例を提供する構造に構成され、実現可能な長さのスピーチ状の試験信号を提供する。この方法において、自然のスピーチのフォルマント構造および時間的(temporal)構造を含み、しかも比較的表現的で現実的な期間のスピーチ信号(上記のSIRPおよびP50試験信号とは異なる)を得ることができる。
本発明の試験信号と共に通信システムの特性を解析するために使用できる解析方法は、ここでは全文が参照文献とされているWO94/00922として公開された本出願人の国際特許出願GB93/01322号明細書に記載されている。
本出願人の欧州特許第94300073.7号明細書(1994年1月6日出願)に記載され、ここでは参照文献とされている修正によって、解析方法は、連続した時間間隔にわたって1組のスペクトル帯域のそれぞれの中の歪みに応答する歪みを与えられた試験信号から1組のスペクトル成分信号を周期的に導出する装置を使用することができる。この装置は、通信装置による歪みの主観的影響の尺度を生成するように構成される。この主観的影響の尺度は、時間にわたる歪みの拡散および、または前記のスペクトル帯域に依存するように計算される。
以下の説明および請求の範囲から本発明の別の観点および好ましい実施例が明らかになるであろう。
以下、添付図面を参照して単なる例示として本発明を説明する。
図1は、使用されている本発明の1実施例の構造を示したブロック図である。
図2は、本発明の1実施例の素子をさらに詳細に示したブロック図である。
図3は、図2の実施例の一部分を形成する試験信号発生器をさらに詳細に示したブロック図である。
図4は、時間にわたる試験信号の構造を概略的に示す。
図5は、本発明による試験信号シーケンスを導出する装置の構造を示したブロック図である。
図6は、図5の装置によって実行されるプロセスを示したフロー図である。
図7は、図6のプロセスの一部分をさらに詳細に示したフロー図である。
図8は図3に対応し、本発明の別の実施例の一部分を形成する試験信号発生器の構造を示す。
図9は、図8の一部分を形成するスピーチシンセサイザをさらに詳細に示したブロック図である。
図10は、図2の実施例の一部分を形成する解析装置をさらに詳細に示したブロック図である。
図11は、本発明の実施例において図8の解析装置により実行されるプロセスの概略を示したフロー図である。
[装置の概要]
図1を参照すると、通信装置1は、入力ポート2および出力ポート3を含む。試験装置4は、試験されている通信装置の入力ポート2に結合する出力ポート5と、試験されている通信装置の出力ポート3に結合するための入力ポート6とを含む。
図2を参照すると、試験装置4は、出力ポート5に結合されてスピーチ状の試験信号をそれに供給する試験信号発生器7と、入力ポート6に結合されて通信装置1から受信された信号を解析する信号解析装置8とを含む。本出願人の上記に参照にされた国際特許出願明細書に詳細に示されているように、解析装置8はまた試験信号発生器7によって生成された試験信号の解析を使用しており、これはこの実施例において出力ポート5から入力ポート6に至るパス9で示されている。
測定信号出力ポート10はまた解析装置8に接続され、ここにおいて通信装置の許容度(例えば、歪み)のある尺度を示す信号が次の処理または図示されていない視覚表示装置(VDU)上における表示のために出力される。
[第1の実施形態]
[試験信号発生器7]
図3に簡単な形態で示されているように、人工スピーチ発生器は、スピーチ信号が再構成されることができる記憶されたデジタルデータを含むデジタル記憶装置71(例えば、ハードディスクまたはデジタルオージオテープ)を含んでいるだけでもよい。記憶されたデータは個々のデジタル化されたスピーチサンプルでもよく、それらは出力ポート5に接続された信号再構成手段72(例えば、デジタルアナログ変換器(DAC))に記憶装置71から連続的に供給される。記憶装置71に記憶されたサンプルデータは、何秒間か(例えば10秒間程度)継続する1以上のスピーチ発声を含む。
制御回路73(例えばマイクロプロセッサ)は、出力されるべき特定の試験信号を選択するように記憶装置71の動作を制御する。
図4を参照すると、記憶装置71に記憶された試験信号データは、複数のセグメントt0,t1,t2,…,tnを含む試験信号を形成するように再構成される。
各セグメントt0乃至tnは、異なるスピーチ音(例えば異なる音素)または沈黙に対応する。
[試験シーケンスの設計]
この実施例において、試験シーケンスは試験信号発生器100(例えば、デジタルコンピュータ)によって予め生成されており、スピーチセグメント記憶装置171がこの発生器100に接続され、記憶装置171は各音素を発声する実際の人間のスピーチの記録されたインスタンス(事例;instance)のデータベースを記憶する。シーケンス発生器100はまた試験信号シーケンスをそれに書込むために記憶装置71に接続される。
試験信号の最初の開始点は、異なる定義に応じて40乃至50個存在する音素のセット、例えば国際発音アルファベット(International Phonetic Alphabet)(文献(W.A.Ainsworth氏による“Mechanisms of Speech Recognition”,Pergamon Press,1976))によって定義されたセットである。
これらの音素は、スペクトル内容、および重要である時間的な構造に応じて第1に発声された音声および音声でない音、第2に母音および子音、第3に破裂音、摩擦音、推移音等のいくつかのカテゴリィに分けられることが可能である。
本発明のために、自然のスピーチにおいて発生した音を1つ残らず使用して通信装置を試験する必要はない。その代りとして、上記の各カテゴリィから1以上の例を採取し、試験信号を形成することで十分である。したがって、音素のセットは異なるスペクトル内容(例えば、発声された音声または音声でない音)および時間構造(例えば、唇の開または閉による終了)を表す10乃至20個のスピーチセグメントのサブセットに減少され、それらは図6のステップ301で選択される。
次に、種々のパラメータ、特にレベルまたはエネルギ、ピッチ、期間およびフォルマント転移率の統計的分散が考慮される。フォルマントは、スピーチのスペクトルに共鳴ピークを含むことがスピーチ分野においてよく知られており、それらのいくつかの位置は調音器官の動きと共に変化する。これらの各パラメータは、典型的に平均値およびまれにしか発生しない上方および下方の値によって特徴付けられる。さらに、音素のいくつかおよび音素のいくつかの組合わせは他のものより平均してより頻繁に発生する。これらの統計的な分布に関する情報は、例えば文献(Richards D.L氏による“Telecommunication by Speech”Butterworths,1973年、またはFletcher H氏による“Speech and Hearing in Communication”,D.Van Nostrand,1953年、或はAinsworth W.A氏による“Mechanisms of Speech Recognition”Permagon Press,1976年、若しくはO′Connor J DおよびTrim J L M氏による“Vowel consonant and Syllable-A Phonological Definition”World,Vol.9,No.2,1953年8月)に記載されている。
その後,音素のスーパーセットは、サブセットの各音素のいくつかのインスタンス、通常レベル(振幅)のもの、実際に通常認められる高いおよび低い極値のもの(例えば、1標準偏差、2標準偏差、またはある別の予め定められた統計的な量だけ平均レベルから外れた)、同様に自然のスピーチにおいて認められるピッチの各極値(高いおよび低い)のもの、およびフォルマントを含む音に対して自然のスピーチにおいて認められたフォルマント転移速度の各極値(高いおよび低い)におけるもの等を採取することによってステップ302で構成される。したがって、スーパーセットは、選択された音素のインスタンスを含む100個程度のスピーチセグメントのリストを含んでいる。発生値の頻度は、スーパーセットの各音素に対して記憶される。
CCITT勧告P56に記載された方法を使用して測定されたようなスピーチレベルの多様性は、英国電話ネットワークにおいてほぼ4dBの標準偏差を示すことが認められている。
通信装置の素子の多くのもの(例えば、エコー消去装置または音声スイッチ)が時間変化特性を有しているため、各スピーチセグメントが発生する内容(すなわち、それに先行する信号部分)は、それが歪みを与えられる程度を決定する時に重要である。例えば、沈黙または低い振幅スピーチセグメントによって先行されるスピーチセグメントは音声スイッチによってクリップされる可能性があり、一方、それが高い振幅スピーチセグメントによって先行された場合には、このようなクリッピングは発生しない。
したがって、このようにして生成されたスピーチセグメントのスーパーセットから試験信号を構成する時、同じスピーチセグメントが1以上の内容(すなわち、異なるスピーチセグメントによって先行された)において試験信号で表現されることを確実にするように注意されるか、或は試験信号がスピーチセグメントの1つのタイプから別のものへの多数の異なるタイプの転移を確実に含むように別の方法で観察される。短い沈黙がスピーチ中に発生するため、“沈黙”セグメントもまたスーパーセット中に含まれる。
しかしながら、人間の音声システムにおける調音器官がある位置から別の位置に直ぐに移動することを阻止する生理学的制限のために、或いは例えば連続した子音の一続きの長さを制限する言語学的な理由(言語間で変化する可能性がある)のいずれかのために1つの音素から別のものへのいくつかの転移は自然のスピーチでは発生しない。したがって、本発明によるとスピーチセグメントのいくつかの連続は、試験信号を構成する時は許されない。
図7は、試験シーケンスを生成するためにステップ303で使用されるアルゴリズムの一例を示す。シーケンスは、180秒程度継続し、セグメントの連続から構成され、それらは好ましくは可変的であるが典型的に数百ミリ秒程度の各期間である。
ステップ201において、第1のスピーチセグメント(図4のt0、インデクスi=0)は、随意またはランダム(疑似ランダム)ベースでスピーチセグメントのスーパーセットから選択される。
ステップ202において、スピーチセグメントが既にそのシーケンスで予め定められた回数以上すでに使用されているか、或いはスピーチセグメントが直前の同じスピーチセグメント(ti-1)の後のシーケンスで既に発生しているかについて試験が行われる。これらの基準のいずれかが満たされた場合、選択されたスピーチセグメントはシーケンスに含まれず、その代わりに選択ステップ201が新しいスピーチセグメントを発見するために反復される。
ステップ203において、選択されたセグメントが自然のスピーチにおいて前のセグメント(ti-1)に続くことが可能であるか否かを決定するために生理学的または言語学的ルールが適用される。例えば、セグメントが2つの先行する子音の後に発生した子音であるか、または2つの先行する摩擦音の後に発生した摩擦音である場合、それは拒否される。このような発生ルールは、例えばテキストとスピーチの合成においてよく知られている。選択されたセグメントがこれらの発生ルールに合わない場合、ステップ201が再度反復される。
ステップ204において、シーケンスの長さが試験され、シーケンスが既に予め定められたセグメント数(すなわち、i=N、予め定められた子音)から構成されている場合、シーケンスは終了し、プロセスは図6のステップ304に進む。
ステップ205において、シーケンス中の最後の沈黙セグメントからのスピーチセグメント数の試験が行なわれる。沈黙セグメントはセグメントのスーパーセットのメンバーであり、したがってステップ201でランダムベースで選択される。しかしながら、2秒以上(例えば)のスピーチセグメントが沈黙セグメントなしに発生している場合、ステップ201でのセグメントの選択に優先して、ステップ206において沈黙セグメントが選択される。
そうではなく、ステップ201で選択されたセグメントがステップ207においてシーケンスに付加された場合、インデクスカウンタiがステップ208でインクレメントされる。
シーケンスを限定するスピーチセグメントのリストを選択すると、この実施例では記憶装置71に記録される信号値のサンプル列が、記憶装置171から対応する記憶されたスピーチセグメントを読取り、2つのセグメントが接する不連続をステップ304で取除くようにスピーチセグメント間の転移部分でシーケンスのデジタル編集を行うことによって得られる。
ステップ304におけるスピーチセグメントの結合すなわち連結は、合成されるアナウンスメントにおいて二重音(diphone)を結合するために使用される重複および付加技術を使用して行なわれることができる。文献(E.MoulinesおよびF.Charpentier氏によるSpeech Communicaiton,Vol.9,No.5/6,453頁,またはC.Hamon氏らによるproceedings IEEE,International Conference on Acoustics,Speech and Signal Processing(ICASSP)1989)に記載されたピッチ同期重複および付加技術(PSOLA)が好ましい。
この技術において、結合される2つのスピーチセグメントのエッジ領域において、両者が発声されたスピーチセグメントである場合、2つのセグメントの異なるピッチが両者の結合部における中間ピッチに向かって漸次的に変化され、2つのスピーチセグメントの波形は上記の文献にさらに詳細に記載されているように重複して付加される。
隣接したスピーチセグメント間のいかなる総エネルギ不整合でも、重複領域にわたる波形の線形リスケーリング(rescaling)によって補正され、スペクトル不整合は、例えば文献(F.CharpentierおよびE.Moulines氏によるIEEE proceedings of International Conference on Acoustics,Speech and Signal Processing(ICASSP)1989)に記載された時間ドメイン平滑化技術を使用して補正される。
したがって、シーケンス発生器100は、デジタル信号サンプルの連続した試験信号シーケンスを信号記憶装置71に漸次的に書込むためにセグメント記憶装置171から選択されたセグメントを連結し、それが続いてデジタルアナログ変換器72を介してスピーチ信号を再構成するために試験信号発生器7において使用される。
[第2の実施例]
図8を参照すると、この実施例では試験信号発生器7は、デジタルアナログ変換器72を介して合成されたスピーチ信号を生成するためにパラメータ記憶装置371により供給される合成パラメータによって制御されるスピーチシンセサイザ370を含む。
スピーチシンセサイザ370は、文献(D H Klatt氏によるJournal of the Acoustic Society of America,Vol.67,No.3,1980年3月)に記載され、その構造が図9に示されており、適切にプログラムされたデジタル信号処理装置(DSP)によって構成されることのできる縦続・並列フォルマントシンセサイザであることが好ましい。それは本質的にインパルス発生器373(音声でないスピーチを生成する)および雑音シーケンスを生成する(発生でないスピーチを生成する)ランダム数発生器374の出力に接続された共振フィルタ371の並列バンクおよび直列縦続フィルタ372から構成されている。インパルス発生器373の反復率およびフィルタの特性は、パラメータ記憶装置371から供給される制御パラメータである。
この実施例において、シーケンス発生器100は、シーケンス記憶装置171がスピーチセグメントの再構成を可能にする制御パラメータのシーケンスを記憶することを除いて前の実施例と同様に動作し、スピーチセグメント間の転移は隣接したスピーチセグメント中の各シンセサイザパラメータの値を互いにテーパーして重複期間にすることによって簡単に達成される。
その代わりに、テキストとスピーチを合成するシンセサイザにおいて使用されるタイプのスピーチシンセサイザ370または記憶されたアナウンスメントが使用されてもよい。このような装置は、図7のステップ203を部分的に置換することができるいくつかのルールを使用して、さらに入力を行うことなく隣接した音素を連結するように動作する。この場合、記憶装置71は音素識別子データ、レベルデータ、ピッチおよび期間または速度データだけを記憶して、出力する。
[解析装置8]
図10を参照すると、解析装置8は入力ポート6から信号を受信し、対応したデジタルパルス列を生成するように構成されたアナログデジタル変換器(ADC)81と、ADC81のデジタル出力を受信するように結合された演算プロセッサ82(例えば、インテル486プロセッサ等のマイクロプロセッサ、或はウェスターン・エレクトリック社製のDSP32Cまたはテキサス・インスツルメンツ社製のTMS C30装置等のデジタル信号処理装置)と、プロセッサ82用の命令シーケンスを記憶し、演算結果を記憶するための動作メモリを提供する記憶装置83と、出力10に接続されたプロセッサ82からの出力ライン84とを含む。
プロセッサ82によって実行されるプロセスは、本出願人の上記に参照文献とされた国際特許出願WO94/00922号明細書および欧州特許出願第94300073.7号明細書に記載されたものに対応し、この両明細書はここでは参照文献にされている。しかしながら、本発明によると、試験信号を得る時に使用されたデータはまた解析装置8によって行われる解析を補助するために使用されることができる。
本出願人の上記に参照にされた特許出願において、解析プロセスは、ある程度の時間間隔にわたって試験信号の歪みの1以上の尺度を計算する。本発明において、時間間隔は解析が行われる時間セグメントに対応し、全てのスピーチセグメントに対して計算された歪みの尺度は1以上の全体的歪み尺度に影響を与え、各スピーチセグメント歪みが尺度が全体的測定値に影響する量は、スピーチセグメントの発生の頻度にしたがって決定される。したがって、まれにしか発生しない音素、まれにしか発生しないレベル、まれにしか発生しないピッチ、まれにしか発生しない期間、およびまれにしか発生しない内容は全て試験信号中に存在する可能性があるが、それらが受けた歪みは、通信装置の特性を決定する時に適切に低い加重を与えられる。
図11を参照すると、1実施例により、動作において発生器7によって生成された試験信号はステップ101においてライン9で解析装置8に供給される。ステップ102において、加重データのシーケンス、試験シーケンスの各セグメントtiに対する1つの加重値Wiは試験信号発生器7から解析装置8に供給される。加重データは、明らかに自然のスピーチにおいて関与するスピーチセグメントの発生する確率、すなわちそのレベル、そのピッチおよびその期間で音素の発生する確率に等しく、随意に直前のスピーチセグメントに続くその音素の確率を考慮してもよい。加重Wi(i=0乃至N)は、試験信号と共に記憶装置71に記憶される。
ステップ106において、試験信号発生器7は、通信装置1を介して解析装置8に供給される試験信号を発生する。ステップ109において、解析装置8は、好ましくは知覚モデルを使用して、また非常に好ましくは本出願人の上記に参照された特許出願明細書(その任意の実施例)に記載された方法を使用して各セグメントに対してライン9で供給された劣化されていない試験信号と通信装置1によって歪みを与えられた試験信号との間における歪みの尺度を計算する。各セグメントに対する歪みの尺度は、例えばエラーラウドネスまたは前記特許出願明細書に記載されたエラーの合計量またはエラーの分布であってもよい。各セグメントEiに対して歪みの尺度(例えば、そのセグメントおよび、またはスペクトル中の歪みの量またはラウドネス、およびその時間的な拡散)を指定すると、通信装置1の全体の歪みの尺度Diがセグメントの歪み尺度Eiの加重された和を取ることによってステップ210で計算される。換言すると、
D=ΣEii
特性のこの尺度は、ステップ111において例えば視覚表示装置(示されていない)に出力される。
別の実施例において、加重Wiを供給する試験信号発生器7ではなく、解析装置8が、音素の完全なセットを表す記憶されたデータに試験信号を整合させることによってライン9で歪みのない(clean)試験信号を認識して、試験信号を含む音素の識別子、レベル等をそれから導出し、それに応じて記憶された音素データと関連した加重係数Wiを使用するように構成されたスピーチ認識装置を含むことができる。
[発明の結果]
本発明の試験信号の効率性は、既知の従来技術のいくつかの試験信号のそれと比較された。
SIRPの生成した試験信号と比較すると、本発明の試験信号は、通常の人間のスピーチのそれに非常に近い時間にわたった構造を有する信号を提供する。これは、音声スイッチ等の時間依存性素子の影響が主観的に非常に顕著である実際の通信システムを評価する時に非常に有効であることが分かっている。
さらに、本発明は(SIRPスピーチ信号とは異なり)発声された部分を含んでいるため、それは聞手に対して主観的に顕著である重要なフォルマント周波数のスペクトル歪みを良好に特徴付けることができる。
CCITT勧告P50の信号と比較すると、本発明はP50の信号には存在しない発声された摩擦音等の特徴を含む非常に変化させられたスピーチ試験信号を供給する。さらに本発明は、P50の信号には存在しない明確な(clear)フォルマント構造を備えた試験信号を供給する。これは、スライドまたは移動するフォルマント周波数(特に第2のフォルマントのもの)が音素の認識において重要であり、したがって通信システムにおけるスピーチ信号の明瞭性にとって重要であるため大切である。
最後に、本発明のスピーチ信号の時間構造は、P50の試験信号のものより可変的で、速い転移、開始および停止を含み、したがって自然のスピーチに近い、時間にわたって詳細な振幅構造を有する。通信ネットワークの素子の時間依存性のために、比較的ゆっくりと変化するP50の試験信号は、速い転移をクリップする歪みを強調しない。
実際の人間のスピーチと比較すると、本発明の試験信号は冗長性を大幅に減少させており、著しく長い期間にわたって装置をサービスしない状態に放置せずに、それが過剰に発生するまたはまれにしか発生しない状況を通信装置1に適用することを可能にする。
本発明において、スピーチセグメントの小さい表現サブセット(既知の音楽の数十個から選択された)が使用され、異なる内容のシーケンスに組立てられたこれらの音から試験信号が構成される。歪みは測定されているため、試験シーケンスは互いに比較的異なっているもの、或はさらに一般的にはあるものが別のものに続いた時に比較的歪みを発生しがちな音の連続したものを含むことがさらに重要である。
[その他の代替および修正]
本発明の動作の原理を変化せずに上記に記載された実施例に対する多数の変更が可能なことは上記の説明から明らかであろう。例えば、出力ポート5からの信号は、通信装置の入力ポート2にデジタル形態で供給され、ADC81は取除かれてもよい。その代わりに、電気・機械トランスデューサが出力ポート5に設けられ、信号がオージオ信号として供給されることができる。後者の場合、試験信号は、ここにおいて共に参照文献にされている、CCITT P.51(Recommendation on Artificial Ear and Artificial Mouth,Vol.5,Rec P.51,Melbourne 1988)および上記の英国特許出願GB2218300(8730347)号明細書に記載されている人工マウスを介して供給されてもよい。
上記において実際の通信装置に対する接続が説明されているが、通信装置によって導入された歪みをシミュレートするように計算装置をプログラムすることが同様に可能である。これは、多数のこのような歪みを特徴付けることが比較的容易なためである(例えば、VADまたはコーデックによるもの)。したがって、本発明は、信号がこのようなシミュレーション装置に供給される実施例に対して同様に適応し、通信装置のシミュレートされた歪みを有する出力が処理される。このようにして、多数の複雑で非線形通信装置の組合わせの聞手に対する許容度が、現場においてこのような装置を組立てるか、或は接続する前にモデル化されることができる。
解析装置8および試験信号発生器7は分離したハードウェアとして説明されているが、実際には単一の適切に処理されたデジタルプロセッサによって実現可能であり、同様に上記の実施例において示された通信装置シミュレータは同じプロセッサによって構成されることができる。
この記載において、“音素”とはその通常の使用法ではそのスピーチ内容が変形された音を示すが、便宜上“音素”という用語は単一の反復可能な人間のスピーチ音を示すために使用されている。
上記に示された実施例は通信装置の試験に関するものであるが、その他の試験または解析に対する本発明の新しい観点の適用が除外されるものではない。
したがって、ここに記載されたニューマターまたはニューマターの組合わせおよびその変形に対する保護が求められ、それはこのようなマターまたは変形が以下の請求の範囲の技術的範囲内であるか否かにかかわらず、当業者に明らかであろう。
その代わりとして、記憶装置71がフィルタ係数の形態でスピーチデータを記憶して、例えばLPCスピーチシンセサイザを駆動するか、或は高レベルデータ(例えば音素、ピッチおよび識別子データ)の形態でそれを記憶して、再構成手段を含む音素シンセサイザを駆動してもよい。
The present invention relates to a communication apparatus test method and apparatus.
When testing a communication device (eg, a communication device such as a telephone line, telephone network, or codec), a test signal is introduced at the input of the communication device and a test is performed on the resulting output of the device. It is known to obtain “objective” test measurements such as signal-to-noise ratio, which can be calculated by an automatic processor. It is also known that a listener listens to the output of a communication device and performs a “subjective” test that expresses opinions on the quality of the output.
Some elements of the communication system are linear. Thus, simple artificial test signals such as discrete frequency sine waves, swept sine wave signals or chirp signals, random or pseudo-random noise signals, or pulses can be applied. The output signal can be analyzed using, for example, Fast Fourier Transform (FFT) or other spectral analysis techniques. One or more such simple test signals can fully characterize a linear system.
On the other hand, the elements included in modern communication systems are increasing in the number of elements that are non-linear and / or change over time. For example, modern low bit rate digital speech codecs that form part of a mobile telephone system have a non-linear response and automatic gain control (AGC), a voice activity detector (VAD) and an associated voice switch, and burst errors are It causes time changes in the communication system in which they form part. Therefore, simple test methods developed for linear systems to obtain an objective measure of communication device distortion or tolerance become increasingly unusable.
Recently, the literature (“Measuring the Quality of Audio Devices” by John G. Beerends and Jan A. Stemerdink, presented at the 90th AES Convention, 19-22 February 1991, Paris in AES Preprints as Preprint 3070 (L-8) by the Audio Engineering Society), using a database of recorded speech as test signals, and a perceptual analysis method designed to respond in several ways to processes that are likely to occur in human hearing It has been proposed to measure the quality of a speech codec for digital mobile radio by analyzing the corresponding output of a codec that uses.
Artificial speech signals (ie, spectrally similar to human speech but with intelligence) along with conventional distortion analysis measurements such as cepstral distance (CD) measurements to measure the characteristics of communication devices. Are also proposed (eg, “Objective Measurement Method for Estimating Speech Quality of Low Bit Rate Speech Coding”, NTT Review, Vol. 1), for example, by Irii, Kurashima, Kitawaki, and Itoh. .3.No.5, September 1991).
When using a test device such as a codec designed to encode human speech and an analysis method based on human hearing, as suggested in the above-mentioned Beernends and Stemerdink document, It is clear to use speech samples. In practice, however, the characteristics of such a test system are not very good.
One artificial voice test signal is described in CCITT Recommendation P50 (Artificial Voices. Vol, Rec. P50, Melbourne 1988, published by CCITT). In the P50 test signal, there are 16 predetermined spectral patterns with a randomly selected sequencer given by segments of a predetermined length, and the transition between the segments is smooth. The P50 signal has long and short term spectral similarity to speech when averaged over about 10 seconds. However, it has been observed that some differences between the P50 test signal and the actual speech are significant when testing the communication system.
Another type of artificial test signal that has been proposed can be found in the literature ("Description and Generation of Sphericaliy Invarient Speech Model Signals" by Signal Processing, Vol. 12 Pt 2, March 1987 by H. Brehm and W. Stammler). Use a spherical non-changing random process (SIRP) as described in. This provides a signal that has the same long-term spectrum as natural speech. The short-term spectrum is not similar to that of natural speech, and the sound grouping over time sounds subjectively very different from natural speech.
A variant called Markov (m) SIRP attempts to model the spectrum for a short period of time, but has a fast random transition between the speech sound that sounds different from the natural speech.
Accordingly, the present invention provides a test signal that includes a sequence of sounds that occur in natural speech with reduced redundancy compared to natural speech.
When using real speech data, you face several problems. To express, there must be a large number of speakers, the speech material from each speaker must be extensive, and the range of voice levels must be considered for each speaker. Therefore, the amount of natural speech material that must be operated by the system being tested to provide reliable characteristics of the system is very large.
The present invention generally has physiological and linguistic constraints that prevent certain combinations of speech sounds from occurring in natural speech and is significant for many of the sounds produced in human speech for testing. It is based on the recognition that redundancy exists. Thus, according to the present invention, speech sounds (either recorded or synthesized) from actual human speech are constructed and implemented in a structure that provides various speech sounds and levels of representation examples without redundancy. Provide a speech-like test signal of possible length. In this way, it is possible to obtain a speech signal (which differs from the SIRP and P50 test signals described above) of a relatively expressive and realistic period, including the natural speech formant structure and temporal structure. .
An analysis method that can be used to analyze the characteristics of a communication system together with the test signal of the present invention is the applicant's international patent application GB 93/01322 published as WO 94/00922, which is hereby incorporated by reference in its entirety. It is described in the book.
With the modification described in the Applicant's European Patent No. 94300073.7 (filed Jan. 6, 1994), which is hereby referred to, the analysis method allows for a set of spectral bands over successive time intervals. An apparatus can be used that periodically derives a set of spectral component signals from a distorted test signal that is responsive to distortion in each. The device is configured to generate a measure of the subjective impact of distortion by the communication device. This measure of subjective influence is calculated to depend on the spread of distortion over time and / or the spectral band.
Other aspects and preferred embodiments of the invention will be apparent from the following description and claims.
The present invention will now be described by way of example only with reference to the accompanying drawings.
FIG. 1 is a block diagram illustrating the structure of one embodiment of the present invention in use.
FIG. 2 is a block diagram showing in more detail the device of one embodiment of the present invention.
FIG. 3 is a block diagram illustrating in more detail a test signal generator that forms part of the embodiment of FIG.
FIG. 4 schematically shows the structure of the test signal over time.
FIG. 5 is a block diagram illustrating the structure of an apparatus for deriving a test signal sequence according to the present invention.
FIG. 6 is a flow diagram illustrating a process performed by the apparatus of FIG.
FIG. 7 is a flow diagram illustrating in more detail a portion of the process of FIG.
FIG. 8 corresponds to FIG. 3 and shows the structure of a test signal generator that forms part of another embodiment of the present invention.
FIG. 9 is a block diagram illustrating in more detail a speech synthesizer that forms part of FIG.
FIG. 10 is a block diagram showing in more detail an analysis device forming part of the embodiment of FIG.
FIG. 11 is a flowchart showing an outline of a process executed by the analysis apparatus of FIG. 8 in the embodiment of the present invention.
[Outline of device]
Referring to FIG. 1, the communication device 1 includes an input port 2 and an output port 3. The test device 4 includes an output port 5 that couples to the input port 2 of the communication device being tested, and an input port 6 that couples to the output port 3 of the communication device being tested.
Referring to FIG. 2, the test apparatus 4 is connected to an output port 5 to supply a speech signal to the test signal generator 7 and a signal received from the communication apparatus 1 is coupled to the input port 6. And a signal analysis device 8 for analysis. As detailed in Applicant's above-referenced international patent application, the analysis device 8 also uses analysis of the test signal generated by the test signal generator 7, which Is shown by the path 9 from the output port 5 to the input port 6 in this embodiment.
The measurement signal output port 10 is also connected to the analysis device 8, where a signal indicative of a certain measure of the tolerance (e.g. distortion) of the communication device is displayed for further processing or on a visual display unit (VDU) not shown. Is output for.
[First Embodiment]
[Test signal generator 7]
As shown in simplified form in FIG. 3, the artificial speech generator is a digital storage device 71 (eg, hard disk or digital audio tape) that contains stored digital data from which the speech signal can be reconstructed. May be included. The stored data may be individual digitized speech samples, which are continuously fed from the storage device 71 to a signal reconstruction means 72 (eg a digital to analog converter (DAC)) connected to the output port 5. Is done. The sample data stored in the storage device 71 includes one or more speech utterances that last for several seconds (for example, about 10 seconds).
A control circuit 73 (eg, a microprocessor) controls the operation of the storage device 71 to select a specific test signal to be output.
Referring to FIG. 4, the test signal data stored in the storage device 71 includes a plurality of segments t.0, T1, T2, ..., tnIs reconfigured to form a test signal including:
Each segment t0To tnCorresponds to different speech sounds (eg different phonemes) or silences.
[Test sequence design]
In this embodiment, the test sequence is pre-generated by a test signal generator 100 (eg, a digital computer), a speech segment storage device 171 is connected to the generator 100, and the storage device 171 actually speaks each phoneme. Store a database of recorded instances of human speech. The sequence generator 100 is also connected to the storage device 71 for writing a test signal sequence to it.
The first starting point of the test signal is a set of 40-50 phonemes, depending on different definitions, such as the International Phonetic Alphabet (see “Mechanisms of Speech Recognition” by WAAinsworth, Pergamon Press, 1976)).
These phonemes are composed of speech and non-speech sounds, first vowels and consonants, third plosives, friction sounds, transition sounds, etc., depending on the spectral content and important temporal structure. It can be divided into several categories.
For the purposes of the present invention, it is not necessary to test a communication device using every single sound produced in natural speech. Instead, it is sufficient to take one or more examples from each of the above categories and form a test signal. Thus, the set of phonemes is reduced to a subset of 10-20 speech segments representing different spectral content (eg, spoken or non-speech sounds) and temporal structure (eg, ending by opening or closing lips), They are selected in step 301 of FIG.
Next, various parameters are considered, especially the statistical variance of level or energy, pitch, duration and formant transition rate. Formants are well known in the speech field to include resonance peaks in the speech spectrum, and their position varies with articulator movement. Each of these parameters is typically characterized by an average value and rarely occurring upper and lower values. In addition, some phonemes and some combinations of phonemes occur on average more frequently than others. Information on these statistical distributions can be found, for example, in the literature (“Telecommunication by Speech” by Richards DL, Butterworths, 1973, or “Speech and Hearing in Communication” by Fletcher H, D. Van Nostrand, 1953, or “Mechanisms of Speech Recognition” by Ainsworth WA, Permagon Press, 1976, or “Vowel consonant and Syllable-A Phonological Definition” by O'Connor JD and Trim JLM, World, Vol. 9, No. 2, August 1953 )It is described in.
The phoneme superset is then a number of instances of each phoneme in the subset, those of normal level (amplitude), those of the high and low extreme values that are usually accepted (eg, 1 standard deviation, 2 standard deviations, Deviated from the average level by some other predetermined statistical amount), as well as for each extreme value of the pitch (high and low) found in natural speech, and for sounds containing formants Constructed in step 302 by taking, for example, those at each extreme value (high and low) of the formant transition rate observed in the speech. Thus, the superset includes a list of as many as 100 speech segments that include selected phoneme instances. The frequency of occurrence values is stored for each phoneme in the superset.
It is recognized that the diversity of speech levels, as measured using the method described in CCITT recommendation P56, shows a standard deviation of approximately 4 dB in the UK telephone network.
Since many of the elements of a communication device (eg echo canceller or voice switch) have time-varying characteristics, the content that each speech segment generates (ie the signal portion that precedes it) is distorted. Is important when determining the degree to which For example, a speech segment preceded by silence or a low amplitude speech segment may be clipped by a voice switch, while such clipping will not occur if it is preceded by a high amplitude speech segment.
Thus, when constructing a test signal from a superset of speech segments generated in this way, the same speech segment is represented in the test signal in more than one content (ie preceded by different speech segments). Care is taken to ensure or the test signal is observed in another way to ensure that it contains many different types of transitions from one type of speech segment to another. A “silence” segment is also included in the superset because a short silence occurs during the speech.
However, linguistic reasons for limiting the length of a series of consonants, for example, due to physiological limitations that prevent the articulatory organ from moving from one location to another immediately in the human speech system Some transitions from one phoneme to another for any of them (which can vary between languages) do not occur in natural speech. Thus, according to the present invention, several sequences of speech segments are not allowed when constructing the test signal.
FIG. 7 shows an example of the algorithm used in step 303 to generate a test sequence. The sequence lasts about 180 seconds and consists of a series of segments, which are preferably variable but typically each period on the order of a few hundred milliseconds.
In step 201, the first speech segment (t in FIG.0, Index i = 0) is selected from a superset of speech segments on an arbitrary or random (pseudo-random) basis.
In step 202, the speech segment has already been used more than a predetermined number of times in the sequence, or the speech segment is the same as the previous speech segment (ti-1) Is tested to see if it has already occurred in a later sequence. If any of these criteria are met, the selected speech segment is not included in the sequence, and instead the selection step 201 is repeated to find a new speech segment.
In step 203, the selected segment is the previous segment (ti-1) Physiological or linguistic rules are applied to determine whether it is possible to follow. For example, if a segment is a consonant that occurs after two preceding consonants, or a friction sound that occurs after two preceding consonants, it is rejected. Such generation rules are well known, for example, in the synthesis of text and speech. If the selected segment does not meet these generation rules, step 201 is repeated again.
In step 204, the length of the sequence is tested, and if the sequence already consists of a predetermined number of segments (ie i = N, predetermined consonant), the sequence ends and the process proceeds as shown in FIG. Proceed to step 304.
In step 205, the number of speech segments from the last silence segment in the sequence is tested. Silence segments are members of a superset of segments and are therefore selected on a random basis in step 201. However, if a speech segment longer than 2 seconds (for example) has occurred without a silence segment, the silence segment is selected at step 206 in preference to the segment selection at step 201.
Otherwise, if the segment selected in step 201 is added to the sequence in step 207, the index counter i is incremented in step 208.
When a list of speech segments that limit the sequence is selected, in this embodiment, a sample sequence of signal values recorded in the storage device 71 reads the corresponding stored speech segment from the storage device 171 and the two segments do not touch. This is obtained by digitally editing the sequence at the transition between speech segments so that the sequence is removed at step 304.
The joining or concatenation of speech segments in step 304 can be performed using overlap and additive techniques used to join diphones in the synthesized announcement. In literature (Speech Communicaiton by E.Moulines and F.Charpentier, Vol.9, No.5 / 6, 453, or proceedings IEEE, International Conference on Acoustics, Speech and Signal Processing (ICASSP) 1989 by C.Hamon et al.) The described pitch-synchronized overlap and additive technique (PSOLA) is preferred.
In this technique, in the edge region of two speech segments to be joined, if both are speech segments, the different pitches of the two segments are gradually changed towards the intermediate pitch at the joint of both, The waveforms of the two speech segments are added redundantly as described in more detail in the above document.
Any total energy mismatch between adjacent speech segments is corrected by linear rescaling of the waveform over the overlapping region, and spectral mismatch is described in, for example, the literature (IEEE proceedings of International Conference by F. Charpentier and E. Moulines). on Acoustics, Speech and Signal Processing (ICASSP) 1989).
Thus, the sequence generator 100 concatenates selected segments from the segment store 171 to progressively write a continuous test signal sequence of digital signal samples to the signal store 71, followed by digital-to-analog conversion. Used in the test signal generator 7 to reconstruct the speech signal via the generator 72.
[Second Embodiment]
Referring to FIG. 8, in this embodiment, the test signal generator 7 is controlled by a synthesis parameter supplied by a parameter storage 371 to generate a synthesized speech signal via a digital-to-analog converter 72. Includes synthesizer 370.
The speech synthesizer 370 is described in the literature (Journal of the Acoustic Society of America, Vol. 67, No. 3, March 1980 by DH Klatt), and its structure is shown in FIG. Preferably, it is a cascaded / parallel formant synthesizer that can be constituted by a digital signal processing device (DSP). It is essentially a parallel bank and series cascade of resonant filters 371 connected to the output of an impulse generator 373 (generating non-speech speech) and a random number generator 374 (generating non-speech speech) The filter 372 is configured. The repetition rate and filter characteristics of the impulse generator 373 are control parameters supplied from the parameter storage 371.
In this embodiment, the sequence generator 100 operates in the same way as in the previous embodiment, except that the sequence storage device 171 stores a sequence of control parameters that allows speech segment reconstruction. The transition is easily accomplished by tapering the values of each synthesizer parameter in adjacent speech segments to each other for an overlap period.
Instead, the type of speech synthesizer 370 or stored announcement used in a synthesizer that synthesizes text and speech may be used. Such a device operates using several rules that can partially replace step 203 of FIG. 7 to connect adjacent phonemes without further input. In this case, the storage device 71 stores and outputs only phoneme identifier data, level data, pitch and period or speed data.
[Analyzer 8]
Referring to FIG. 10, the analysis device 8 receives a signal from the input port 6 and receives an analog to digital converter (ADC) 81 configured to generate a corresponding digital pulse train and a digital output of the ADC 81. A combined arithmetic processor 82 (eg, a microprocessor such as an Intel 486 processor or a digital signal processor such as a DSP32C from Western Electric or a TMS C30 device from Texas Instruments) and a processor 82 It includes a storage device 83 that stores instruction sequences and provides an operational memory for storing operation results, and an output line 84 from the processor 82 connected to the output 10.
The processes performed by the processor 82 correspond to those described in the applicant's above-referenced international patent application WO 94/00922 and European patent application 94300073.7, both The book is hereby a reference. However, according to the present invention, the data used when obtaining the test signal can also be used to assist the analysis performed by the analysis device 8.
In the applicant's above-referenced patent application, the analysis process calculates one or more measures of distortion of the test signal over some time interval. In the present invention, the time interval corresponds to the time segment in which the analysis is performed, and the distortion measure calculated for all speech segments affects one or more global distortion measures, where each speech segment distortion has a scale. The amount that affects the overall measurement is determined according to the frequency of occurrence of the speech segment. Thus, infrequently occurring phonemes, infrequently occurring levels, infrequently occurring pitches, infrequently occurring periods, and infrequently occurring content may all be present in the test signal. The distortions they receive are given a suitably low weight when determining the characteristics of the communication device.
Referring to FIG. 11, according to one embodiment, the test signal generated by the generator 7 in operation is provided to the analyzer 8 at line 9 at step 101. In step 102, the sequence of weighted data, each segment t of the test sequenceiOne weight value W foriIs supplied from the test signal generator 7 to the analysis device 8. The weighted data is obviously equal to the probability of occurrence of a speech segment involved in natural speech, i.e. its level, its pitch, and the probability of occurrence of a phoneme at that period, and optionally the probability of that phoneme following the previous speech segment. You may consider it. Weight Wi(I = 0 to N) is stored in the storage device 71 together with the test signal.
In step 106, the test signal generator 7 generates a test signal supplied to the analysis device 8 via the communication device 1. In step 109, the analysis device 8 preferably uses a perceptual model, and very preferably uses the method described in the above-referenced patent application specification (any example thereof). A measure of distortion is then calculated between the undegraded test signal supplied on line 9 for each segment and the test signal distorted by the communication device 1. The distortion measure for each segment may be, for example, error loudness or the total amount of errors or distribution of errors described in the patent application. Each segment EiIf a distortion measure (eg, its segment and / or the amount or loudness of distortion in the spectrum and its temporal spread) is specified, then the overall distortion measure D of the communication device 1.iIs the segment distortion measure EiIs calculated in step 210 by taking the weighted sum of. In other words,
D = ΣEiWi
This measure of the characteristic is output in step 111 to, for example, a visual display device (not shown).
In another embodiment, weighted WiRather than the test signal generator 7 supplying the analyzer 8, the analyzer 8 recognizes the clean test signal on line 9 by matching the test signal to stored data representing a complete set of phonemes. A weighting factor W associated with the phoneme data stored in accordance with the derived phoneme identifier, level, etc.iA speech recognizer configured to use
[Results of Invention]
The efficiency of the test signal of the present invention was compared with that of several known prior art test signals.
Compared to the test signal generated by SIRP, the test signal of the present invention provides a signal having a structure over time very close to that of normal human speech. This has been found to be very effective when evaluating an actual communication system in which the effects of time-dependent elements such as voice switches are subjectively very significant.
Furthermore, since the present invention includes a spoken portion (as opposed to a SIRP speech signal), it can better characterize spectral distortions of important formant frequencies that are subjectively significant to the listener.
Compared to the CCITT Recommendation P50 signal, the present invention provides a highly altered speech test signal that includes features such as uttered frictional sound that are not present in the P50 signal. In addition, the present invention provides a test signal with a clear formant structure that is not present in the P50 signal. This is important because the sliding or moving formant frequencies (especially those of the second formant) are important in phoneme recognition and thus important for the clarity of speech signals in communication systems.
Finally, the time structure of the speech signal of the present invention is more variable than that of the P50 test signal, includes fast transitions, onsets and stops, and thus has a detailed amplitude structure over time that is close to natural speech. Due to the time dependence of the elements of the communication network, the relatively slowly changing P50 test signal does not emphasize distortion that clips fast transitions.
Compared to actual human speech, the test signal of the present invention greatly reduces redundancy, and it occurs excessively or infrequently without leaving the device unserviced for a significantly longer period of time. The situation that does not occur can be applied to the communication device 1.
In the present invention, a small representational subset of speech segments (selected from dozens of known music) is used to construct a test signal from these sounds assembled into sequences of different content. Since distortion is measured, the test sequences are relatively different from each other, or more generally, a series of sounds that are prone to distortion when one follows another. It is even more important to include.
[Other alternatives and modifications]
It will be apparent from the foregoing description that numerous modifications can be made to the embodiments described above without altering the operating principles of the invention. For example, the signal from the output port 5 may be supplied in digital form to the input port 2 of the communication device and the ADC 81 may be removed. Instead, an electromechanical transducer is provided at the output port 5 and the signal can be supplied as an audio signal. In the latter case, the test signal is CCITT P.51 (Recommendation on Artificial Ear and Artificial Mouth, Vol. 5, Rec P. 51, Melbourne 1988) and the above mentioned UK patent application GB2218300, both of which are hereby incorporated by reference. (8730347) may be supplied via an artificial mouse described in the specification.
Although the connection to an actual communication device has been described above, it is equally possible to program the computing device to simulate the distortion introduced by the communication device. This is because it is relatively easy to characterize a large number of such distortions (eg, by VAD or codec). Thus, the present invention applies equally to embodiments in which signals are supplied to such a simulation device, and the output of the communication device with simulated distortion is processed. In this way, the tolerance for a listener of a number of complex and non-linear communication device combinations can be modeled before assembling or connecting such devices in the field.
Although the analyzer 8 and the test signal generator 7 are described as separate hardware, they can actually be implemented by a single properly processed digital processor and are also shown in the above example. The communication device simulator can be constituted by the same processor.
In this description, “phoneme” refers to a sound whose speech content has been modified in its normal usage, but for convenience the term “phoneme” is used to denote a single repeatable human speech sound. ing.
While the embodiments shown above relate to communication device testing, application of the new aspects of the present invention to other testing or analysis is not excluded.
Accordingly, protection is sought against the new matter or combination of new matters described herein and variations thereof, whether such matter or variation is within the scope of the following claims. Will be apparent to those skilled in the art.
Instead, the storage device 71 stores the speech data in the form of filter coefficients and drives it, for example, an LPC speech synthesizer, or stores it in the form of high level data (eg phoneme, pitch and identifier data). Thus, the phoneme synthesizer including the reconstruction unit may be driven.

Claims (13)

自然のスピーチにおいて発生する音のシーケンスから構成され試験信号を通信装置に供給することによって通信装置を試験する方法であって
前記試験信号発生の統計、自然のスピーチはほとんど生じない音が高い発生率で含まれるように自然のスピーチにおける発生の統計と異なっている、通信装置試験する方法。
A method of testing a communication device by supplying to the communication device a test signal that consists of a sequence of sounds that occur in natural speech,
Wherein the statistics generation of test signals, to test you are, communication device different from the generation of statistics on natural speech as sound hardly occurs in natural speech is contained at a high incidence.
通信装置を試験するための試験信号であって、
自然のスピーチにおいて発生した音のシーケンスを含み、自然のスピーチと比較して冗長性が減少されている試験信号。
A test signal for testing a communication device,
Nature comprises a sequence of sounds generated in the speech test signal that has been reduced redundancy compared to natural speech.
通信装置を試験するための試験信号であって
自然のスピーチの中に見出されるワードの一部に対応するスピーチ音のシーケンスを含み、
前記スピーチ音のいくつかは、そのシーケンス内のスピーチの特徴異なる値を有して複数の事例の中に存在している試験信号。
A test signal for testing a communication device ,
Comprises a sequence of speech sound corresponding to the part of the word found in natural speech,
Some, test signals that are present in the plurality of cases have characteristics different from the value of the speech in the sequence of the speech sound.
1つの特徴値は平均値であり、少なくとも他の1つはまれにしか発生しない特徴値である請求項3記載の信号。4. The signal according to claim 3, wherein one feature value is an average value, and at least the other one is a feature value that occurs rarely. 特徴は、音量、ピッチ、期間およびフォルマント転移率の1以上のものから構成されている請求項3または4記載の信号。The signal according to claim 3 or 4, wherein the characteristic is composed of one or more of volume, pitch, period, and formant transition rate. 通信装置を試験するための試験信号であって、
前記試験信号は自然のスピーチの中に見出されるワードの一部に対応するスピーチ音のシーケンスを含み、
前記シーケンスは、自然のスピーチで発生したスピーチ音を表現するものであり、少なくとも1つのスピーチ音とそれと隣接するスピーチ音との間の転移を含む、試験信号。
A test signal for testing a communication device,
It said test signal comprises a sequence of speech sound corresponding to the part of the word found in natural speech,
It said sequence is intended to represent a speech sound generated by the natural speech, including the transition between the at least one speech sound and speech sound adjacent to it, test signal.
予め記録された人間のスピーチの連結されたセグメントを含んでいる請求項2乃至6のいずれか1項記載の信号。7. A signal as claimed in any one of claims 2 to 6 including a concatenated segment of pre-recorded human speech. パラメトリックスピーチシンセサイザによって生成された合成された信号を含んでいる請求項2乃至6のいずれか1項記載の信号。7. A signal as claimed in any one of claims 2 to 6 comprising a synthesized signal generated by a parametric speech synthesizer. 前記音のいくつかは複数の異なる先行した音の直ぐ後に続く複数の事例の中に存在している請求項2乃至8のいずれか1項記載の信号。9. A signal according to any one of claims 2 to 8, wherein some of the sounds are present in a plurality of instances that immediately follow a plurality of different preceding sounds. 通信装置を試験する方法であって、
自然のスピーチでは比較的まれにしか発生しない音が高い相対発生頻度を有するスピーチ類似音に対応した複数のセグメントを含む試験信号を通信装置に供給し、
前記各音に関して通信装置からの信号出力を解析し、
それによって、各音の歪みおよび自然のスピーチにおけるその発生頻度に基づいて、通信装置によって発生させられた歪みの全体的な尺度を形成する
通信装置試験する方法。
A method for testing a communication device, comprising:
Supplying a communication device with a test signal including a plurality of segments corresponding to speech-like sounds having a high relative frequency of sounds that occur relatively rarely in natural speech;
Analyzing the signal output from the communication device for each sound,
A method of testing a communication device thereby forming an overall measure of the distortion produced by the communication device based on each sound distortion and its frequency of occurrence in natural speech.
予め記録され試験信号シーケンスを記憶するように構成されたデータ記憶手段と、前記記憶されたシーケンスを再構成する手段とを含んでいる請求項2乃至9のいずれか1項による試験信号を生成する装置。Previously generated and data storage means configured to store the recorded Ru test signal sequence, a test signal according to any one of the stored sequences the reconstructed section with a comprise that claims 2 to 9 Device to do. 前記予め記録されシーケンスは、記録され自然のスピーチのセグメントを含んでいる請求項11記載の装置。The prerecorded Ru sequence device according to claim 11 which contains a segment of natural speech that will be recorded. スピーチシンセサイザと、前記スピーチシンセサイザを制御して前記試験信号シーケンスを生成するためのデータ記憶手段とを含んでいる請求項11記載の装置。12. The apparatus of claim 11 including a speech synthesizer and data storage means for controlling the speech synthesizer to generate the test signal sequence.
JP50254995A 1993-06-21 1994-06-17 Method and apparatus for testing communication devices using test signals with reduced redundancy Expired - Lifetime JP3701671B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB939312758A GB9312758D0 (en) 1993-06-21 1993-06-21 Speech-like test stimulus
EP9312758.7 1994-01-06
EP94300076 1994-01-06
EP94300076.0 1994-01-06
PCT/GB1994/001305 WO1995001011A1 (en) 1993-06-21 1994-06-17 Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal

Publications (2)

Publication Number Publication Date
JPH08511672A JPH08511672A (en) 1996-12-03
JP3701671B2 true JP3701671B2 (en) 2005-10-05

Family

ID=26136878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50254995A Expired - Lifetime JP3701671B2 (en) 1993-06-21 1994-06-17 Method and apparatus for testing communication devices using test signals with reduced redundancy

Country Status (8)

Country Link
US (1) US5999900A (en)
EP (1) EP0705501B1 (en)
JP (1) JP3701671B2 (en)
AU (1) AU677401B2 (en)
CA (1) CA2161257C (en)
DE (1) DE69421704T2 (en)
SG (1) SG47542A1 (en)
WO (1) WO1995001011A1 (en)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
EP0825787A1 (en) * 1996-08-12 1998-02-25 BRITISH TELECOMMUNICATIONS public limited company Negotiation process for connection management
WO1998053590A1 (en) * 1997-05-16 1998-11-26 British Telecommunications Public Limited Company Measurement of signal quality
NL1014075C2 (en) * 2000-01-13 2001-07-16 Koninkl Kpn Nv Method and device for determining the quality of a signal.
IL153419A0 (en) 2000-06-12 2003-07-06 British Telecomm In-service measurement of perceived speech quality by measuring objective error parameters
ATE339676T1 (en) * 2002-03-08 2006-10-15 Koninkl Kpn Nv METHOD AND SYSTEM FOR MEASURING THE TRANSMISSION QUALITY OF A SYSTEM
TW200620239A (en) * 2004-12-13 2006-06-16 Delta Electronic Inc Speech synthesis method capable of adjust prosody, apparatus, and its dialogue system
US20070203694A1 (en) * 2006-02-28 2007-08-30 Nortel Networks Limited Single-sided speech quality measurement
JP5238205B2 (en) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド Speech synthesis system, program and method
US7957731B2 (en) * 2008-02-26 2011-06-07 Metrico Wireless, Inc. System and method for determining mobile telephone voice quality in a live network
DE102013005844B3 (en) * 2013-03-28 2014-08-28 Technische Universität Braunschweig Method for measuring quality of speech signal transmitted through e.g. voice over internet protocol, involves weighing partial deviations of each frames of time lengths of reference, and measuring speech signals by weighting factor
US9591125B1 (en) * 2016-02-23 2017-03-07 Verizon Patent And Licensing Inc. Testing audio quality associated with a user device during a double talk communication
US10382143B1 (en) * 2018-08-21 2019-08-13 AC Global Risk, Inc. Method for increasing tone marker signal detection reliability, and system therefor

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4218587A (en) * 1978-09-18 1980-08-19 Storage Technology Corporation Complex signal generation and transmission
IT1121496B (en) * 1979-12-14 1986-04-02 Cselt Centro Studi Lab Telecom PROCEDURE AND DEVICE FOR CARRYING OUT OBJECTIVE QUALITY MEASUREMENTS ON PHONE SIGNAL TRANSMISSION EQUIPMENT
DE3032699A1 (en) * 1980-08-30 1982-04-29 Karl-Albert Dr.-Ing. 7500 Karlsruhe Turban Reducing signal redundancy and synthesis of natural speech - uses filter and conversion circuits to eliminate redundant effects
US4449231A (en) * 1981-09-25 1984-05-15 Northern Telecom Limited Test signal generator for simulated speech
US4446341A (en) * 1982-07-16 1984-05-01 Bell Telephone Laboratories, Incorporated Mechanized testing of subscriber facilities
IL67379A (en) * 1982-12-01 1985-11-29 Tadiran Israel Elect Ind Ltd Real-time frequency management system for hf communication networks
JPS6281432A (en) * 1985-10-04 1987-04-14 Shiseido Co Ltd Water-soluble high-molecular molding
JPS62167331A (en) * 1986-01-20 1987-07-23 Unitika Ltd Chitosan sponge
DE3639753A1 (en) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh METHOD FOR TRANSMITTING DIGITALIZED SOUND SIGNALS
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
GB2218300B (en) * 1987-12-31 1991-06-19 British Telecomm Artificial ear
GB2218299B (en) * 1987-12-31 1991-08-21 British Telecomm Artificial mouth
JPH05827Y2 (en) * 1989-01-27 1993-01-11
JPH04162863A (en) * 1990-10-26 1992-06-08 Fujitsu Ltd Test system for subscriber system transmitting device
JPH04345327A (en) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> Objective speech quality measurement method
US5369644A (en) * 1991-12-16 1994-11-29 Motorola, Inc. Method for testing a communication system using canned speech
GB9213459D0 (en) * 1992-06-24 1992-08-05 British Telecomm Characterisation of communications systems using a speech-like test stimulus
DE69334139T2 (en) * 1992-06-24 2008-01-10 British Telecommunications P.L.C. Testing of communication device
US5425076A (en) * 1992-06-30 1995-06-13 Minnesota Mining And Manufacturing Company Cellular communications test system
KR960700602A (en) * 1993-01-14 1996-01-20 세이버리 그레도빌레 TELEPHONE NETWORK PERFORMANCE MONITORING METHOD AND SYSTEM
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
TW267279B (en) * 1994-04-05 1996-01-01 Philips Electronics Nv

Also Published As

Publication number Publication date
DE69421704T2 (en) 2000-06-08
SG47542A1 (en) 1998-04-17
AU677401B2 (en) 1997-04-24
CA2161257C (en) 2000-02-22
US5999900A (en) 1999-12-07
JPH08511672A (en) 1996-12-03
EP0705501A1 (en) 1996-04-10
CA2161257A1 (en) 1995-01-05
EP0705501B1 (en) 1999-11-17
AU6974694A (en) 1995-01-17
DE69421704D1 (en) 1999-12-23
WO1995001011A1 (en) 1995-01-05

Similar Documents

Publication Publication Date Title
Boril et al. Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environments
Syrdal et al. Applied speech technology
JP3701671B2 (en) Method and apparatus for testing communication devices using test signals with reduced redundancy
EP0880772A1 (en) Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5890104A (en) Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal
O'Shaughnessy et al. Diphone speech synthesis
Sak et al. A corpus-based concatenative speech synthesis system for Turkish
Burrows Speech processing with linear and neural network models
Hunt et al. Issues in high quality LPC analysis and synthesis.
Pfitzinger Unsupervised speech morphing between utterances of any speakers
Acero Source-filter models for time-scale pitch-scale modification of speech
Nthite et al. End-to-End Text-To-Speech synthesis for under resourced South African languages
Raitio Hidden Markov model based Finnish text-to-speech system utilizing glottal inverse filtering
Sawusch Acoustic analysis and synthesis of speech
US20050171777A1 (en) Generation of synthetic speech
Sharma et al. Improvement of syllable based TTS system in assamese using prosody modification
Lee et al. Hypo and Hyperarticulated Speech Data Augmentation for Spontaneous Speech Recognition
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
Lawlor A novel efficient algorithm for voice gender conversion
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis
Avdeeva et al. Streaming ASR encoder for whisper-to-speech online voice conversion
Salor Voice transformation and development of related speech analysis tools for Turkish
O’Shaughnessy Approaches to improve automatic speech synthesis
Alsteris Short-time phase spectrum in human and automatic speech recognition
Kim et al. On the Implementation of Gentle Phone’s Function Based on PSOLA Algorithm

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040921

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20041221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050714

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090722

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090722

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100722

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110722

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110722

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120722

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120722

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120722

Year of fee payment: 7

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120722

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130722

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term