JP2012511273A - 会話的主観的品質テスト・ツール - Google Patents
会話的主観的品質テスト・ツール Download PDFInfo
- Publication number
- JP2012511273A JP2012511273A JP2011538949A JP2011538949A JP2012511273A JP 2012511273 A JP2012511273 A JP 2012511273A JP 2011538949 A JP2011538949 A JP 2011538949A JP 2011538949 A JP2011538949 A JP 2011538949A JP 2012511273 A JP2012511273 A JP 2012511273A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- conversation
- user
- target system
- virtual target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012360 testing method Methods 0.000 title claims description 40
- 238000004891 communication Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000004044 response Effects 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 description 25
- 230000015556 catabolic process Effects 0.000 description 15
- 238000006731 degradation reaction Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 235000013550 pizza Nutrition 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2254—Arrangements for supervision, monitoring or testing in networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Monitoring And Testing Of Exchanges (AREA)
Abstract
通信ネットワーク(1)のノードの間で会話スピーチの品質を査定する方法であって、−ユーザ端末(2)のユーザと仮想対象システム(4)との間で通信ネットワーク(1)を介するボイス通信セッションを確立するステップであって、仮想対象システム(4)およびユーザ端末(2)は、通信ネットワーク(1)に接続され、ユーザ端末は、ユーザがボイスによって仮想対象システム(4)と通信することを可能にする、ステップと、セッション中に、仮想対象システム(4)とのボイス会話内の会話パートナとして働くステップであって、仮想対象システムは、セッション中に話すことを可能にするためのスピーチ生成モジュール(42)およびセッション中にユーザのスピーチを解釈することを可能にするためのボイス認識モジュール(41)を備える、ステップと、−セッション中のボイス会話に基づいて通信ネットワークを介するスピーチの品質を査定するステップであって、査定するステップは、ユーザによって実行される、ステップとを含む方法。
Description
本発明は、スピーチ品質査定の方法に関し、より具体的には、ボイス通信システムのスピーチ品質査定用の会話テストに関する。
着実な進歩のコンポーネントが無線/有線遠隔通信ネットワークで行われているので、システムのボイスおよびスピーチの品質査定は、最近の数年にわたって重要性が増してきた。この品質査定は、遠隔通信システム全体でのボイスおよびスピーチの聴覚品質を査定することに関係があるプロセスに焦点を合わせたものである。単語「査定(assessment)」は、本明細書では、1つまたは複数の判断基準に関するシステム性能の測定を指す。
実際には、新しい遠隔通信テクノロジの出現に伴って、IP(インターネット・プロトコル)を介するもの、ATM(非同期転送モード)を介するもの、FR(フレーム・リレー)を介するもの、PSTN(公衆交換電話網)を介するもの、ISDN(サービス総合ディジタル網)を介するもの、モバイル網(GSM、WiMAX、UMTSなど)を介するもの、または任意のハイブリッド組合せ(IP、ATM、FR、PSTN、ISDN、モバイル網)を介するものなどのボイス通信システムの多様化は、パケット消失、非定常雑音、スピーチひずみ、ネットワーク・ジッタ、その他などのスピーチ品質の多様な劣化要因を発生させた。したがって、スピーチ品質査定のさまざまな手段が、全体的なスピーチ品質および特に劣化要因を信頼できる形で測定するために開発されてきた。「スピーチ品質」は、本明細書では、期待されるものと比較した知覚されるものに対する知覚および判断プロセスの結果を指すのに使用され、言い換えると、スピーチ品質は、対面してエミュレートされるものとボイス通信システムを使用することによって聞かれるものとの間の差を指す。スピーチ品質は、「優秀」、「良い」、「並」、「不十分」、「悪い」などの記述子によって、または劣化要因ごとの数値もしくは全体的な数値によって定義することができる。
Docman Document no 3EU_29000_0045_UUZZA、「Etude du temps de reponse du CCivr 4625 associe au module de reconnaissance vocale Nuance 8.5」
Docman Document no 3EU_29000_0031_UUZZB、「Rapport d’etude de la relation entre taux de reconnaissance vocale Nuance et note PESQ sur architecture OXE IP Basic Link Gateway−Gateway en reseau IP perturbe」
いくつかの実施形態は、スピーチ品質査定の制御された会話方法に対処する方法および装置を提供する。
いくつかの実施形態は、一人だけの人との会話コンテキストでの主観的スピーチ品質査定の方法および装置を提供する。
いくつかの実施形態は、エンド・ユーザが第2の人間のパートナを伴わない会話コンテキストでボイス通信システムのスピーチ品質を査定することを可能にする方法および装置を提供する。
いくつかの実施形態は、ボイス通信システムのスピーチ品質査定用のスピーチ認識ツールおよびスピーチ生成ツールの利用を提供する。
さまざまな実施形態は、通信ネットワークのノードの間で会話スピーチの品質を査定する方法であって、
−ユーザ端末のユーザと仮想対象システムとの間で通信ネットワークを介するボイス通信セッションを確立するステップであって、仮想対象システムおよびユーザ端末は、通信ネットワークに接続され、ユーザ端末は、ユーザがボイスによって仮想対象システムと通信することを可能にする、ステップと、
−セッション中に、仮想対象システムとのボイス会話内の会話パートナとして働くステップであって、仮想対象システムは、セッション中に話すことを可能にするためのスピーチ生成モジュールおよびセッション中にユーザのスピーチを解釈することを可能にするためのボイス認識モジュールを備える、ステップと、
−セッション中のボイス会話に基づいて通信ネットワークを介するスピーチの品質を査定するステップであって、査定するステップは、ユーザによって実行される、ステップと
を含む方法に関する。
−ユーザ端末のユーザと仮想対象システムとの間で通信ネットワークを介するボイス通信セッションを確立するステップであって、仮想対象システムおよびユーザ端末は、通信ネットワークに接続され、ユーザ端末は、ユーザがボイスによって仮想対象システムと通信することを可能にする、ステップと、
−セッション中に、仮想対象システムとのボイス会話内の会話パートナとして働くステップであって、仮想対象システムは、セッション中に話すことを可能にするためのスピーチ生成モジュールおよびセッション中にユーザのスピーチを解釈することを可能にするためのボイス認識モジュールを備える、ステップと、
−セッション中のボイス会話に基づいて通信ネットワークを介するスピーチの品質を査定するステップであって、査定するステップは、ユーザによって実行される、ステップと
を含む方法に関する。
さまざまな実施形態は、通信ネットワークのノードの間で会話スピーチの品質をテストする装置であって、
−仮想対象システムであって、スピーチ認識モジュールおよびスピーチ生成モジュールを備え、ユーザが通信ネットワークに接続された遠隔ユーザ端末を介して仮想対象システムとの通信セッションを開始することに応答して、ユーザとのボイス会話に聞き手および話し手として参加するように構成された、仮想対象システム
を含み、
−仮想対象システムは、遠隔ユーザが仮想対象システムとのボイス会話に基づいて通信ネットワークを介する会話品質を評価するのを助けるためにスピーチ査定テストを認識するように構成される
装置に関する。
−仮想対象システムであって、スピーチ認識モジュールおよびスピーチ生成モジュールを備え、ユーザが通信ネットワークに接続された遠隔ユーザ端末を介して仮想対象システムとの通信セッションを開始することに応答して、ユーザとのボイス会話に聞き手および話し手として参加するように構成された、仮想対象システム
を含み、
−仮想対象システムは、遠隔ユーザが仮想対象システムとのボイス会話に基づいて通信ネットワークを介する会話品質を評価するのを助けるためにスピーチ査定テストを認識するように構成される
装置に関する。
有利なことに、ユーザは、スピーチ品質または接続の選択された条件に対するスピーチ品質の依存性を査定することができる。
図面および「発明を実施するための形態」は、いくつかの実施形態を説明するが、本発明は、他の形態を有することができ、図面および「発明を実施するための形態」で説明される形態に限定されない。
そのようなスピーチ品質査定の方法を、そのスピーチ品質メトリックスに従って2つの主要なクラスにグループ化することができる。
第1の主観的手法は、異なるタイプおよび/または量の劣化の下で遠隔通信システムをテストし、ある表記スケールで対応するスピーチ品質にスコアを付けるように参加者に求めることに基づく。個々の参加者によって引き起こされる主観的影響を減らすために、参加者のスコアの平均をとることができる。これは、主観的メトリックとして広く使用されている平均オピニオン評点(MOS)につながる。
さらに、スピーチ品質知覚は、参加者が置かれるコンテキストすなわち、リスニング(聞く)コンテキスト、トーキング(話す)コンテキスト、または会話コンテキストに依存する。
リスニング・テストでは、参加者は、異なるタイプのおよび/または量の劣化に基づいて作られた生のまたは記録されたオーディオ信号を聞く。その後、参加者は、彼が知覚するものと彼/彼女が期待するものとの間の関係を確立する。リスニング・テストでのスピーチ品質査定の判断基準として、スピーチひずみ(人間の話し手が発音できないサウンドを作る、自然なスピーチ波形の変形)、アクティブ状態対クワイト状態(quite state)雑音比(話していない時の雑音比の上で話している時のレベルの比)を考慮することができる。注目すべきことに、ラウドネスおよび了解度など、他の品質判断基準を考慮することができる。ここで、了解度は、スピーチのわかりやすさすなわち、聞き手の満足のいくように話し手を聞き、理解することを可能にすることを意味する。国際電気通信連合(ITU)は、勧告P.800で、このテストをどのように行うべきかおよびスピーチ品質をどのように表すべきかの詳細を示している。スピーチ品質表記の例として、ACR(Absolute Category Rating)法およびDCR(Degradation Category Rating)法に言及することができる。
トーキング・テストでは、一方の参加者は、ボイス通信システムの一端で話さなければならず、他方の参加者は、そのボイス通信システムの他端から来るスピーチを聞く。その後、各参加者は、知覚できるエコー(スピーチとして可聴かつ知覚できるものにするのに十分な電力および遅延を伴って起点に戻る話し手のスピーチ信号の反射)があるかどうかおよび離れた話し手が簡単に聞かれ、すぐに理解され、発音のニュアンスを検出できるかどうかを意識する。例示的な例として、参加者は、ITUの勧告P.800で定義された方法のうちの1つを用いて、テストされた条件を査定することができる。
会話テストでは、参加者の各対は、テスト中のボイス通信システムを介する会話にかかわる。リスニング・コンテキストおよびトーキング・コンテキストで出会う条件に加えて、会話テストは、両方向通信中の、会話リズムの崩壊(あるユーザが話すのを止める時とそのユーザが応答を聞く時との間の異常に長いとぎれによって引き起こされる)およびスピーチ劣化を含むことができる。Short Conversation Testシナリオが、この目的のためにITUによって作成された(P.800およびITU−T P.805)。
上で説明した主観的手法とは異なって、第2のクラスは、基準モデルを使用すること(侵入的手法)または劣化したトラフィックを監視すること(非侵入的手法)のいずれかによって、客観的メトリックスを使用し、計算スピーチひずみに頼る。侵入的手法の例として、PAQM、PSQM、PSQM+MNB、PAMS、PEAQ、TOSQA、TOSQA2100、EMBSD、およびPESQに言及することができる。非侵入的手法は、ライブ・ネットワークでのスピーチ品質査定に使用することができる。ITU−T E−modelは、最も広く使用されている非侵入的ボイス品質査定方法である。
これらすべての技法の中で、第2のクラスに属する技法は、時間がかかるものでもコストがかかるものでもない。しかし、正確さに関して、その結果は、通常、主観的方法によって検証されるか確認されることを必要とする。さらに、これらのどれもが、会話コンテキストでのボイス品質を評価しない。さらに、ある条件の下で堅牢な1つの客観的メトリックは、必ずしも他の条件の下で同一の性能を有しない。
逆に、主観的手法は、品質査定が人間の主観によって与えられるので、正確に実行される。より具体的には、会話テストは、すべての劣化要因を考慮に入れ、主観的手法のすべてのコンテキストを合成する。
したがって、スピーチ品質査定の観点からは、会話テストは、次の理由から、上で列挙したすべての手法の中で最も興味深いツールであると思われる。
−テスト状況は、遠隔通信システムの具体的な使用法を反映し(具体的には、ほとんどすべての遠隔通信テクノロジが、会話コンテキストすなわち両方向通信を使用可能にする)、
−会話法は、リスニング法で出会う劣化、トーキング法で出会う劣化、および会話(両方向通信)の対話性に影響する劣化によって影響されるので、より広い範囲の品質判断基準を合同で査定することができ、
−応答がボイス通信システムを使用する人から来るので、このテストは、ユーザの知覚を単純な形で入手することを可能にする。
−テスト状況は、遠隔通信システムの具体的な使用法を反映し(具体的には、ほとんどすべての遠隔通信テクノロジが、会話コンテキストすなわち両方向通信を使用可能にする)、
−会話法は、リスニング法で出会う劣化、トーキング法で出会う劣化、および会話(両方向通信)の対話性に影響する劣化によって影響されるので、より広い範囲の品質判断基準を合同で査定することができ、
−応答がボイス通信システムを使用する人から来るので、このテストは、ユーザの知覚を単純な形で入手することを可能にする。
したがって、会話テストは、スピーチ品質査定の最も信頼できる手段である。しかし、そのような主観的方法の利益は、下記によって相殺される。
−そのようなテストは、会話期間全体の間に会話パートナのそれぞれが求めに応じられることを必要とするので、そのようなテストのために要求される時間、
−それらのテストがライブ・ボイス通信ネットワーク上で動作する時のコスト、
−ボイス通信システムの会話チャネルの端点で会話パートナが求めに応じられること、
−スピーチ品質査定は、経路依存であり、通常、2つのアクセス・ポイントの間の経路が変化する場合にもう一度テストされなければならない。
−そのようなテストは、会話期間全体の間に会話パートナのそれぞれが求めに応じられることを必要とするので、そのようなテストのために要求される時間、
−それらのテストがライブ・ボイス通信ネットワーク上で動作する時のコスト、
−ボイス通信システムの会話チャネルの端点で会話パートナが求めに応じられること、
−スピーチ品質査定は、経路依存であり、通常、2つのアクセス・ポイントの間の経路が変化する場合にもう一度テストされなければならない。
これらの短所は、次の頻繁な例からより明白になる可能性がある。
ボイス通信サービスの品質は、進化するオンライン・ビジネスにおいて重要な問題になってきた。実際に、スピーチ通信品質は、商品の供給者または消費者によって知覚されるので、取引を正しく行うことを可能にするために、ある品質レベルを満足しなければならない。例示的な例として、ボイス入力/出力を使用する固定電話または携帯電話を介する企業取引の増加により、すべての金融取引が行われる前またはすべての機密データが配送される前に、正確な会話テストが必要となる場合がある。
生のテレビジョン番組またはラジオ番組などの生放送イベントにボイス通信システム(VoIP、VoATM、VoFR、PSTN)で参加することを望む遠距離ユーザは、ライブで参加する前に常にスピーチ品質を査定するために、まず会話テストに参加することによって進行する場合がある。
呼び出された人が求めに応じられない場合には、複数のモバイル遠隔通信オペレータは、スピーチ品質にかかわりなく、発呼者にトーン信号の後にボイス・メッセージを残すように求めるサービスを提供する。この手順は、スピーチひずみまたは高い雑音レベルに起因する理解されないボイス・メッセージにつながる可能性がある。
非限定的な例として、会話パートナに関連する経路内の多数の中間ネットワーク・ノードもしくは複雑な中間ボイス呼データ処理(コーディング、インターリービングなど)、または通信ネットワーク・デバイスの障害(電磁雑音、ネットワーク・リソース使用不能、異種ネットワークなど)の場合に、スピーチ品質が劣化する場合がある。したがって、遠隔通信およびデータのオペレータおよび製造業者は、彼らの顧客満足度を維持するために、スピーチ品質を定期的に査定しなければならない。
その結果、会話テストは、通信システムのスピーチ品質査定について信頼できるものである。しかし、上で列挙したその短所が、その適切性に影響する。
本明細書で説明するさまざまな実施形態を、図1に示されたデータ通信システム内で実行することができる。このシステムは、
−ISDN、PSTN、および/またはインターネット・ネットワーク、あるいは少なくともボイス通信サービスをサポートする任意の調整されたネットワークなどの通信ネットワーク1
−少なくとも通信ネットワーク1を介するボイス通信を使用可能にするユーザ端末2。非限定的な例として、ユーザ端末1は、携帯電話または固定電話、PDA(携帯情報端末)、あるいはパケット交換網(VoIP、VoATMなど)を介して通信するように構成されたすべての他の電話を含むことができる
−通信ネットワーク1に接続されたサーバ3。非限定的な例として、サーバ3をユーザ端末2とすることができる
−仮想対象システム4
−ボイス・オーディオ・データのスケジューリングおよび送信のための音響または電子オーディオ・インターフェース5
を含む。
−ISDN、PSTN、および/またはインターネット・ネットワーク、あるいは少なくともボイス通信サービスをサポートする任意の調整されたネットワークなどの通信ネットワーク1
−少なくとも通信ネットワーク1を介するボイス通信を使用可能にするユーザ端末2。非限定的な例として、ユーザ端末1は、携帯電話または固定電話、PDA(携帯情報端末)、あるいはパケット交換網(VoIP、VoATMなど)を介して通信するように構成されたすべての他の電話を含むことができる
−通信ネットワーク1に接続されたサーバ3。非限定的な例として、サーバ3をユーザ端末2とすることができる
−仮想対象システム4
−ボイス・オーディオ・データのスケジューリングおよび送信のための音響または電子オーディオ・インターフェース5
を含む。
音響または電子オーディオ・インターフェース5は、サーバ3と仮想対象システム4との間の制御および通信インターフェースの役割を演じる。
仮想対象システム4は、
−スピーチを解釈できるスピーチ認識モジュール41
−スピーチ・ジェネレータ42
−異なるスピーチ劣化要因をシミュレートでき、かつ/またはユーザ端末2を遠隔制御でき、かつ/または通信ネットワーク1を遠隔制御できる制御モジュール43
を含む。
−スピーチを解釈できるスピーチ認識モジュール41
−スピーチ・ジェネレータ42
−異なるスピーチ劣化要因をシミュレートでき、かつ/またはユーザ端末2を遠隔制御でき、かつ/または通信ネットワーク1を遠隔制御できる制御モジュール43
を含む。
仮想対象システム4は、評価される通信コンテキストの下での応答時間および応答速度に関して、特定の性能を有しなければならない。
応答時間は、仮想対象システム4がその相手に答えるのに要する時間を指す。これは、相手が言ったことのスピーチ認識時間と応答を生成するのに必要な時間との両方を含む。しばしば、スピーチ認識フェーズは、応答時間の過半数を要する。
一般にパーセンテージとして表されるスピーチ認識率は、スピーチ認識モジュール41がインターフェース5から来る受け取られたスピーチを認識する能力を指す。
勧告ITU−T G.114によれば、会話での対話性は、応答時間が300msを超える(または、同等に、150msの最大伝送一方向遅延)場合に、もはや保証されない。スピーチ認識モジュール41によるスピーチ認識の最大時間は、対話会話用のボイス通信システムによって許容される事前に選択された最大一方向遅延より実質的に短くなければならない。
NUANCE社が製作し、商業化したボイス認識モジュールNUANCE 8.5は、ワードスポッティング(Wordspotting)を用いて約20ms、単純文認識(自然言語理解)を用いて50msの認識時間を示す。したがって、これらのタイプのスピーチ認識モジュールを与えられる仮想対象システム4の実施形態は、勧告ITU−T G.114の時間制約を満足できるはずである。
150msと比較してわずかな応答時間を有するスピーチ認識モジュール41は、会話での対話性を滑らかに維持する。さらに、応答時間は、その影響がスピーチ品質査定によってテストされる劣化要因に依存しない。
スピーチ認識モジュール41の応答時間とボイス通信ネットワーク1を介してユーザ端末2およびサーバ3をリンクする通信経路を介する伝送の時間との間の比は、スピーチ品質査定に影響する。この比が小さければ小さいほど、査定に対するスピーチ認識の影響が小さくなる。約1ms以下の応答時間を有するスピーチ認識モジュール41は、ユーザ端末2およびサーバ3をリンクする通信経路を介する伝送の時間にかかわりなく、本明細書で説明される多くの実施形態に適切でなければならない。
スピーチ品質査定中に、スピーチ認識率は、劣化要因が何であれ、仮想対象システム4とユーザ端末2を使用する人との間の制御された会話の中断を避けるために、好ましくは高く、たとえば少なくとも90%の認識率、好ましくは約100%の認識率である。スピーチ認識モジュールは、短い応答時間をも有しなければならない。具体的に言うと、このモジュールの応答時間は、仮想対象システム4が人間とのボイス会話の対話性を知覚可能には低下させない形で人間の会話パートナとのボイス会話を制御できるようにするのに十分に短いものでなければならない。
有利なことに、ボイス認識モジュールNUANCE 8.5に対してAlcatel−Lucent社によって実行された高度な調査(Docman Document no 3EU_29000_0045_UUZZA、「Etude du temps de reponse du CCivr 4625 associe au module de reconnaissance vocale Nuance 8.5」、Docman Document no 3EU_29000_0031_UUZZB、「Rapport d’etude de la relation entre taux de reconnaissance vocale Nuance et note PESQ sur architecture OXE IP Basic Link Gateway−Gateway en reseau IP perturbe」)は、ボイス認識モジュールNUANCE 8.5が、約100%の文に関する認識率を伴って、異なるIP障害(12%までのランダム消失およびバースト消失、200msまでのジッタ、ならびに結合された消失およびジッタ)に影響されにくいと結論した。
スピーチ認識モジュール41が、ボイス認識モジュールNUANCE 8.5または時間遅れおよび認識率に関して類似する性能を有するかより良い任意の他の同等の製品である実施形態では、仮想対象システム4は、仮想対象システム4およびユーザ端末2をリンクする通信経路を介する伝送時間にかかわりなく、単純に従来のテストの人間を置換することができる。
スピーチ・ジェネレータ42は、
−すべてのテキストを話された単語に変換できるテキスト−スピーチ(TTS)ジェネレータ、および/または
−ボイス・オーディオ・ファイル・ジェネレータ
を含む。
−すべてのテキストを話された単語に変換できるテキスト−スピーチ(TTS)ジェネレータ、および/または
−ボイス・オーディオ・ファイル・ジェネレータ
を含む。
通信ネットワーク1の2つのノードの間の接続の異なる条件の下でのスピーチ品質査定の場合には、制御モジュール43は、第1ノード(ユーザ端末2)と第2ノード(サーバ3)との間の通信接続の1つまたは複数の条件を変更することを可能にし、その結果、ユーザ端末2のユーザは、接続の異なる条件について会話スピーチの品質を評価できるようになる。
制御モジュール43は、確立されたボイス会話に対する異なる劣化要因の影響を同時にまたは個別にシミュレートすることができる。たとえば、制御モジュール43は、異なるレベルを有する雑音を追加すること、スピーチひずみを適用すること、エコーをシミュレートすることなどを可能にする。制御モジュール43は、たとえばボイス・コーディングを変更することによって、ユーザ端末2および/または通信ネットワーク1を遠隔制御することができる。
ネットワーク1を介するユーザ端末2と仮想対象システム4との間の査定会話を、適切な制御されたダイアログとすることができ、言い換えると、事前定義のShort Conversation Test(SCT)シナリオから選択することができる。そのような会話は、ユーザの間の自由なまたは自然発生的な会話ではないので、制御された会話と称する。
異なるタイプのShort Conversation Test(SCT)シナリオが、文献に記載されており(ITU−T勧告P.805、Wiegelmann(1997年)、Moeller(2000年))、ここで、会話パターンは、それぞれの役割を有する。対応するテスト・シナリオは、航空機搭乗券の予約、ピザの注文、その他などの現実の電話シナリオを表す。Short Conversation Testシナリオは、短い持続時間の自然でバランスのとれた会話につながる。
Short Conversation Testシナリオは、古典的な会話に含まれるすべてのフェーズすなわち、会話の参加者による中断を含む、リスニング・フェーズ、トーキング・フェーズ、および両方向通信フェーズの再作成を可能にする。
文献では、できる限り速くランダムな数を読むことに対して、電話を介してゲームをプレイすることなどのどちらかといえば非現実的な会話テスト・シナリオを識別することもできる(KitawakiおよびItoh、1991年)。プレイの使用は、認識モジュール41のより簡単なセット・アップという利益を有するが、相互中断の予想される実施態様を必要とする。
勧告ITU−T P.805で定義された対話型の短い会話シナリオの使用は、洗練された文法を伴い、好ましくは自然に発生する中断の実施を伴う、ボイス認識モジュールの実装を必要とする。
仮想対象システム4は、対象4が従来の会話テストにおける第2の人間の役割を演じる機械なので、「仮想」と呼ばれる。
有利なことに、人間と仮想対象システム4との間の中断は、添付図面には表されていないボイス・アクティビティ検出(Voice Activity Detection、VAD)モジュールを実施することによって、仮想対象システム4側で管理され得る。
ボイス・アクティビティ検出は、現在のフレーム(入力/出力)が、スピーチが受け取られつつあるインターバルまたはスピーチが送られなければならず、それに従って仮想対象4を制御する(転送、消音など)インターバルのどちらであるのかを検出するために、インターフェース5上で簡単に実施され得る。
スピーチ品質査定を、ユーザ端末2を使用して、人間によって主観的に行うことができる。確かに、この査定を、「優秀」、「良い」、「並」、「不十分」、「悪い」などの分類された主観的記述子の関数で、または主観的記述子のそれぞれに数値を割り当てることによって、または使用されるシステムに関する包括的な印象および満足を表すことによって、表すことができる。
さらに、この会話テストは、全体的なスピーチ品質または劣化要因ごとのスピーチ品質を査定することができる。
ここで図2を参照すると、スピーチ品質査定を、次のように達成することができる。
−ユーザ端末2とサーバ3との間でボイス通信セッションを確立する(10)。このセッションは、ユーザ端末2またはサーバ3によって、直接にまたは介在して開始され得る。
−仮想対象システム4とユーザ端末2のユーザとの間でボイス会話を開始する(20)。このボイス会話が開始するとプレイのリストまたはShort Conversation Testシナリオのリストからボイス会話シナリオを選択することを可能になる。このボイス会話が開始すると、会話スピーチがその下で査定される接続の条件を定義することをも可能になる。
−選択された会話シナリオおよび接続条件に従って、ユーザ端末2のユーザと仮想対象システム4との間でボイス会話を行う(30)。
−ユーザ端末2のユーザによってボイス会話内のスピーチ品質を査定する(40)。スピーチ品質の査定は、ボイス会話と一緒に、ボイス会話の終りに、またはその両方で行うことができる。
−さらなるステップ(50)を、先行するステップに追加することができ、さらなるステップ(50)は、通信セッションの転送、通信セッションのクローズ、その他など、スピーチ品質査定結果に基づく任意のアクションからなるものとすることができる。
−ユーザ端末2とサーバ3との間でボイス通信セッションを確立する(10)。このセッションは、ユーザ端末2またはサーバ3によって、直接にまたは介在して開始され得る。
−仮想対象システム4とユーザ端末2のユーザとの間でボイス会話を開始する(20)。このボイス会話が開始するとプレイのリストまたはShort Conversation Testシナリオのリストからボイス会話シナリオを選択することを可能になる。このボイス会話が開始すると、会話スピーチがその下で査定される接続の条件を定義することをも可能になる。
−選択された会話シナリオおよび接続条件に従って、ユーザ端末2のユーザと仮想対象システム4との間でボイス会話を行う(30)。
−ユーザ端末2のユーザによってボイス会話内のスピーチ品質を査定する(40)。スピーチ品質の査定は、ボイス会話と一緒に、ボイス会話の終りに、またはその両方で行うことができる。
−さらなるステップ(50)を、先行するステップに追加することができ、さらなるステップ(50)は、通信セッションの転送、通信セッションのクローズ、その他など、スピーチ品質査定結果に基づく任意のアクションからなるものとすることができる。
ボイス会話を開始するステップ(20)を、デフォルト会話シナリオおよび/またはデフォルト接続条件を定義することによってスキップすることができる。
ボイス会話開始(20)中に、仮想対象は、会話シナリオの事前定義のリストから会話シナリオを選択し、接続条件の事前定義のリストから1つまたは複数の接続条件を選択するようにユーザ端末2のユーザに求めることができる。
会話シナリオの事前定義のリストは、Short Conversation Test(SCT)シナリオ、プレイ・シナリオ、または属性を含むことができる。属性は、ユーザがボイス会話中に属性の値を査定するために、ユーザに送信されなければならない。
ボイス通信セッションが開始されるや否や、スピーチ認識モジュール41は、選択された接続条件に従って制御モジュール43を構成する。別の実施形態では、接続条件を適用する必要はない。この場合には、制御モジュール43は受動的である。
ユーザ端末2のユーザが、ボイス会話内で話す時に、そのユーザのスピーチは、解釈のためにボイス認識モジュール41に向けられる。
スピーチ認識モジュール41によりユーザ端末2のユーザのスピーチが認識されると、制御モジュール43によるシミュレートされた接続条件の下で、認識されるユーザ・スピーチにリンクされるスピーチを生成するために、スピーチ・ジェネレータ42(ボイス・オーディオ・ファイル・ジェネレータまたはテキスト−スピーチ・ジェネレータ)が起動する。
Claims (13)
- 通信ネットワーク(1)のノードの間で会話スピーチの品質を査定する方法であって、
ユーザ端末(2)のユーザと仮想対象システム(4)との間で前記通信ネットワーク(1)を介するボイス通信セッションを確立するステップを含み、前記仮想対象システム(4)およびユーザ端末(2)は、前記通信ネットワーク(1)に接続され、前記ユーザ端末は、前記ユーザがボイスによって前記仮想対象システム(4)と通信することを可能にし、さらに、
前記セッション中に、前記仮想対象システム(4)とのボイス会話内の会話パートナとして働くステップを含み、前記仮想対象システムは、前記セッション中に話すことを可能にするためのスピーチ生成モジュール(42)および前記セッション中に前記ユーザのスピーチを解釈することを可能にするためのボイス認識モジュール(41)を備え、さらに、
前記セッション中の前記ボイス会話に基づいて前記通信ネットワークを介するスピーチの前記品質を査定するステップを含み、前記査定するステップは前記ユーザによって実行される、方法。 - スピーチの前記品質の前記査定は記述子および/または数値によって表される、請求項1に記載の方法。
- 前記ボイス会話は事前定義の会話テスト・シナリオである、請求項1に記載の方法。
- 前記ボイス会話はShort Conversation Test(SCT)シナリオまたはプレイ・シナリオである、請求項1または3に記載の方法。
- 通信ネットワーク(1)のノードの間でスピーチの品質をテストする方法であって、
遠隔端末(2)のユーザとの前記通信ネットワークを介するボイス通信セッションを確立するステップを含み、前記通信セッションは、仮想対象システム(4)と前記遠隔端末(2)の前記ユーザとの間にあり、前記仮想対象システム(4)およびユーザ端末(2)は、前記通信ネットワーク(1)に接続され、さらに、
前記セッション中に、前記ユーザとのボイス会話に参加するステップを含み、参加する行為は、前記仮想対象システム(4)によって実行され、前記仮想対象システムは、前記仮想対象システム(4)が会話参加者として動作できるように、スピーチ生成モジュール(42)およびボイス認識モジュール(41)を備え、
前記仮想対象システムは、前記ユーザが前記通信ネットワークを介する会話スピーチの前記品質の査定を行うのを助けるように構成される、方法。 - 前記仮想対象システムは前記会話中にスピーチの前記品質を査定しない、請求項5に記載の方法。
- 前記仮想対象システムは、前記ユーザが前記ボイス会話中に属性の値を査定できるように、前記ユーザに前記属性のリストを送信する、請求項5に記載の方法。
- 前記仮想対象システムは、前記ユーザが前記接続の異なる条件について前記会話スピーチの前記品質を評価できるようにするために、前記セッション中の前記通信接続の1つまたは複数の条件を変更するように構成される、請求項5に記載の方法。
- 通信ネットワーク(1)のノードの間で会話スピーチの品質をテストする装置であって、
スピーチ認識モジュール(41)およびスピーチ生成モジュール(42)を有する仮想対象システム(4)を含み、前記スピーチ認識モジュール(41)は、ユーザが前記通信ネットワークに接続された遠隔ユーザ端末を介して前記仮想対象システム(4)との通信セッションを開始することに応答して、前記ユーザとのボイス会話に聞き手および話し手として参加するように構成され、
前記仮想対象システムは、前記遠隔ユーザが前記仮想対象システム(4)との前記ボイス会話に基づいて前記通信ネットワークを介するスピーチ品質を評価するのを助けるためにスピーチ査定テストを認識するように構成される、装置。 - 前記仮想対象システムは前記会話中にスピーチの前記品質を査定することができない、請求項9に記載の装置。
- 前記仮想対象システムは、前記ユーザが前記ボイス会話中に属性の値を査定できるように、前記ユーザに前記属性のリストを送信するように構成される、請求項9に記載の装置。
- 前記仮想対象システムは、前記ユーザが前記接続の異なる条件について会話スピーチの前記品質を評価できるようにするために、前記セッション中の前記通信接続の1つまたは複数の条件を変更するように構成される、請求項9に記載の装置。
- 前記スピーチ認識モジュール(41)は、少なくとも90%のスピーチ認識率および前記ボイス会話で知覚される対話性を実質的に下げないのに十分に短い応答時間を有する、請求項9に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP08291149A EP2194525A1 (en) | 2008-12-05 | 2008-12-05 | Conversational subjective quality test tool |
EP08291149.6 | 2008-12-05 | ||
PCT/EP2009/065686 WO2010063608A1 (en) | 2008-12-05 | 2009-11-24 | Conversational subjective quality test tool |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012511273A true JP2012511273A (ja) | 2012-05-17 |
Family
ID=40370946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011538949A Withdrawn JP2012511273A (ja) | 2008-12-05 | 2009-11-24 | 会話的主観的品質テスト・ツール |
Country Status (6)
Country | Link |
---|---|
US (1) | US20110313765A1 (ja) |
EP (1) | EP2194525A1 (ja) |
JP (1) | JP2012511273A (ja) |
KR (1) | KR20110106844A (ja) |
CN (1) | CN102239519A (ja) |
WO (1) | WO2010063608A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496369B (zh) * | 2011-12-23 | 2016-02-24 | 中国传媒大学 | 一种基于失真校正的压缩域音频质量客观评价方法 |
CN102708856B (zh) * | 2012-05-25 | 2015-01-28 | 浙江工业大学 | 一种无线局域网的语音质量测定方法 |
US20150056952A1 (en) * | 2013-08-22 | 2015-02-26 | Vonage Network Llc | Method and apparatus for determining intent of an end-user in a communication session |
JP5996603B2 (ja) * | 2013-10-31 | 2016-09-21 | シャープ株式会社 | サーバ、発話制御方法、発話装置、発話システムおよびプログラム |
CN104767652B (zh) * | 2014-01-08 | 2020-01-17 | 杜比实验室特许公司 | 监视数字传输环境性能的方法 |
US9924404B1 (en) | 2016-03-17 | 2018-03-20 | 8X8, Inc. | Privacy protection for evaluating call quality |
CN114613350A (zh) * | 2022-03-12 | 2022-06-10 | 云知声智能科技股份有限公司 | 测试方法、装置、电子设备和存储介质 |
CN117690458B (zh) * | 2024-01-15 | 2024-07-19 | 国能宁夏供热有限公司 | 一种基于电话通信的智能语音质检系统及其质检方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE469007B (sv) * | 1992-04-21 | 1993-04-26 | Televerket | Anordning vid mobila telesystem foer att moejliggoera jaemfoerelser av subjektiv samtalskvalite |
AU7342698A (en) * | 1997-05-16 | 1998-12-11 | British Telecommunications Public Limited Company | Testing telecommunications equipment |
US5983185A (en) * | 1997-10-10 | 1999-11-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and device for simultaneously recording and presenting radio quality parameters and associated speech |
DE19861108C5 (de) * | 1998-05-05 | 2011-02-03 | Vodafone Ag | Ermittlung der Dienstgüte von Telekommunikationsdiensten |
JP3178426B2 (ja) * | 1998-07-29 | 2001-06-18 | 日本電気株式会社 | 自然言語対話システム及び自然言語対話プログラム記録媒体 |
US6609092B1 (en) * | 1999-12-16 | 2003-08-19 | Lucent Technologies Inc. | Method and apparatus for estimating subjective audio signal quality from objective distortion measures |
FR2818852B1 (fr) * | 2000-12-26 | 2003-02-07 | France Telecom | Procede et plateforme pour evaluation de qualite vocale de communications telephoniques |
US7167832B2 (en) * | 2001-10-15 | 2007-01-23 | At&T Corp. | Method for dialog management |
US7295982B1 (en) * | 2001-11-19 | 2007-11-13 | At&T Corp. | System and method for automatic verification of the understandability of speech |
US20030227870A1 (en) * | 2002-06-03 | 2003-12-11 | Wagner Clinton Allen | Method and system for automated voice quality statistics gathering |
US7499856B2 (en) * | 2002-12-25 | 2009-03-03 | Nippon Telegraph And Telephone Corporation | Estimation method and apparatus of overall conversational quality taking into account the interaction between quality factors |
US20070067172A1 (en) * | 2005-09-22 | 2007-03-22 | Minkyu Lee | Method and apparatus for performing conversational opinion tests using an automated agent |
US7831025B1 (en) * | 2006-05-15 | 2010-11-09 | At&T Intellectual Property Ii, L.P. | Method and system for administering subjective listening test to remote users |
-
2008
- 2008-12-05 EP EP08291149A patent/EP2194525A1/en not_active Withdrawn
-
2009
- 2009-11-24 KR KR1020117012948A patent/KR20110106844A/ko not_active Application Discontinuation
- 2009-11-24 WO PCT/EP2009/065686 patent/WO2010063608A1/en active Application Filing
- 2009-11-24 JP JP2011538949A patent/JP2012511273A/ja not_active Withdrawn
- 2009-11-24 US US13/126,836 patent/US20110313765A1/en not_active Abandoned
- 2009-11-24 CN CN2009801484042A patent/CN102239519A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP2194525A1 (en) | 2010-06-09 |
CN102239519A (zh) | 2011-11-09 |
US20110313765A1 (en) | 2011-12-22 |
KR20110106844A (ko) | 2011-09-29 |
WO2010063608A1 (en) | 2010-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6304634B1 (en) | Testing telecommunications equipment | |
JP2012511273A (ja) | 会話的主観的品質テスト・ツール | |
US8284922B2 (en) | Methods and systems for changing a communication quality of a communication session based on a meaning of speech data | |
Jelassi et al. | Quality of experience of VoIP service: A survey of assessment approaches and open issues | |
Möller et al. | Speech quality estimation: Models and trends | |
Takahashi et al. | Perceptual QoS assessment technologies for VoIP | |
US20060093094A1 (en) | Automatic measurement and announcement voice quality testing system | |
US20040042617A1 (en) | Measuring a talking quality of a telephone link in a telecommunications nework | |
MXPA03007019A (es) | Metodo y sistema para evaluar la calidad de senales de voz conmutadas en paquetes. | |
Schoenenberg et al. | On interaction behaviour in telephone conversations under transmission delay | |
US9491293B2 (en) | Speech analytics: conversation timing and adjustment | |
US11343301B2 (en) | Managing jitter buffer length for improved audio quality | |
Daengsi et al. | QoE modeling for voice over IP: simplified E-model enhancement utilizing the subjective MOS prediction model: a case of G. 729 and Thai users | |
CN112151068B (zh) | 用于确定经由电信网络传输的语音的质量的方法 | |
Das et al. | Evaluation of perceived speech quality for VoIP codecs under different loudness and background noise condition | |
Ren et al. | Assessment of effects of different language in VOIP | |
Soloducha et al. | Towards VoIP quality testing with real-life devices and degradations | |
Han et al. | Accuracy analysis on call quality assessments in voice over IP | |
Estepa et al. | On the suitability of the E-model to VoIP networks | |
JP2018160798A (ja) | 通信装置、通信方法、および、通信プログラム | |
Slavata | Impact of IP Chanel Parameters on the Final Quality of the Transferred Voice | |
Grah et al. | Dynamic QoS and network control for commercial VoIP systems in future heterogeneous networks | |
Möller et al. | Towards a universal value scale for quantifying the quality of speech communication across services | |
Slavata et al. | Using long samples in subjective testing of voice transmission quality in IP network | |
Möller | Quality of Voice and Audio Transmission Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120713 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121003 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20130912 |