JP2012511273A

JP2012511273A - 会話的主観的品質テスト・ツール

Info

Publication number: JP2012511273A
Application number: JP2011538949A
Authority: JP
Inventors: トランカール，ニコラ
Original assignee: アルカテル−ルーセント
Priority date: 2008-12-05
Filing date: 2009-11-24
Publication date: 2012-05-17
Also published as: EP2194525A1; CN102239519A; US20110313765A1; KR20110106844A; WO2010063608A1

Abstract

通信ネットワーク（１）のノードの間で会話スピーチの品質を査定する方法であって、−ユーザ端末（２）のユーザと仮想対象システム（４）との間で通信ネットワーク（１）を介するボイス通信セッションを確立するステップであって、仮想対象システム（４）およびユーザ端末（２）は、通信ネットワーク（１）に接続され、ユーザ端末は、ユーザがボイスによって仮想対象システム（４）と通信することを可能にする、ステップと、セッション中に、仮想対象システム（４）とのボイス会話内の会話パートナとして働くステップであって、仮想対象システムは、セッション中に話すことを可能にするためのスピーチ生成モジュール（４２）およびセッション中にユーザのスピーチを解釈することを可能にするためのボイス認識モジュール（４１）を備える、ステップと、−セッション中のボイス会話に基づいて通信ネットワークを介するスピーチの品質を査定するステップであって、査定するステップは、ユーザによって実行される、ステップとを含む方法。

Description

本発明は、スピーチ品質査定の方法に関し、より具体的には、ボイス通信システムのスピーチ品質査定用の会話テストに関する。

着実な進歩のコンポーネントが無線／有線遠隔通信ネットワークで行われているので、システムのボイスおよびスピーチの品質査定は、最近の数年にわたって重要性が増してきた。この品質査定は、遠隔通信システム全体でのボイスおよびスピーチの聴覚品質を査定することに関係があるプロセスに焦点を合わせたものである。単語「査定（ａｓｓｅｓｓｍｅｎｔ）」は、本明細書では、１つまたは複数の判断基準に関するシステム性能の測定を指す。

実際には、新しい遠隔通信テクノロジの出現に伴って、ＩＰ（インターネット・プロトコル）を介するもの、ＡＴＭ（非同期転送モード）を介するもの、ＦＲ（フレーム・リレー）を介するもの、ＰＳＴＮ（公衆交換電話網）を介するもの、ＩＳＤＮ（サービス総合ディジタル網）を介するもの、モバイル網（ＧＳＭ、ＷｉＭＡＸ、ＵＭＴＳなど）を介するもの、または任意のハイブリッド組合せ（ＩＰ、ＡＴＭ、ＦＲ、ＰＳＴＮ、ＩＳＤＮ、モバイル網）を介するものなどのボイス通信システムの多様化は、パケット消失、非定常雑音、スピーチひずみ、ネットワーク・ジッタ、その他などのスピーチ品質の多様な劣化要因を発生させた。したがって、スピーチ品質査定のさまざまな手段が、全体的なスピーチ品質および特に劣化要因を信頼できる形で測定するために開発されてきた。「スピーチ品質」は、本明細書では、期待されるものと比較した知覚されるものに対する知覚および判断プロセスの結果を指すのに使用され、言い換えると、スピーチ品質は、対面してエミュレートされるものとボイス通信システムを使用することによって聞かれるものとの間の差を指す。スピーチ品質は、「優秀」、「良い」、「並」、「不十分」、「悪い」などの記述子によって、または劣化要因ごとの数値もしくは全体的な数値によって定義することができる。

ＤｏｃｍａｎＤｏｃｕｍｅｎｔｎｏ３ＥＵ＿２９０００＿００４５＿ＵＵＺＺＡ、「ＥｔｕｄｅｄｕｔｅｍｐｓｄｅｒｅｐｏｎｓｅｄｕＣＣｉｖｒ４６２５ａｓｓｏｃｉｅａｕｍｏｄｕｌｅｄｅｒｅｃｏｎｎａｉｓｓａｎｃｅｖｏｃａｌｅＮｕａｎｃｅ８．５」ＤｏｃｍａｎＤｏｃｕｍｅｎｔｎｏ３ＥＵ＿２９０００＿００３１＿ＵＵＺＺＢ、「Ｒａｐｐｏｒｔｄ’ｅｔｕｄｅｄｅｌａｒｅｌａｔｉｏｎｅｎｔｒｅｔａｕｘｄｅｒｅｃｏｎｎａｉｓｓａｎｃｅｖｏｃａｌｅＮｕａｎｃｅｅｔｎｏｔｅＰＥＳＱｓｕｒａｒｃｈｉｔｅｃｔｕｒｅＯＸＥＩＰＢａｓｉｃＬｉｎｋＧａｔｅｗａｙ−ＧａｔｅｗａｙｅｎｒｅｓｅａｕＩＰｐｅｒｔｕｒｂｅ」

いくつかの実施形態は、スピーチ品質査定の制御された会話方法に対処する方法および装置を提供する。

いくつかの実施形態は、一人だけの人との会話コンテキストでの主観的スピーチ品質査定の方法および装置を提供する。

いくつかの実施形態は、エンド・ユーザが第２の人間のパートナを伴わない会話コンテキストでボイス通信システムのスピーチ品質を査定することを可能にする方法および装置を提供する。

いくつかの実施形態は、ボイス通信システムのスピーチ品質査定用のスピーチ認識ツールおよびスピーチ生成ツールの利用を提供する。

さまざまな実施形態は、通信ネットワークのノードの間で会話スピーチの品質を査定する方法であって、
−ユーザ端末のユーザと仮想対象システムとの間で通信ネットワークを介するボイス通信セッションを確立するステップであって、仮想対象システムおよびユーザ端末は、通信ネットワークに接続され、ユーザ端末は、ユーザがボイスによって仮想対象システムと通信することを可能にする、ステップと、
−セッション中に、仮想対象システムとのボイス会話内の会話パートナとして働くステップであって、仮想対象システムは、セッション中に話すことを可能にするためのスピーチ生成モジュールおよびセッション中にユーザのスピーチを解釈することを可能にするためのボイス認識モジュールを備える、ステップと、
−セッション中のボイス会話に基づいて通信ネットワークを介するスピーチの品質を査定するステップであって、査定するステップは、ユーザによって実行される、ステップと
を含む方法に関する。

さまざまな実施形態は、通信ネットワークのノードの間で会話スピーチの品質をテストする装置であって、
−仮想対象システムであって、スピーチ認識モジュールおよびスピーチ生成モジュールを備え、ユーザが通信ネットワークに接続された遠隔ユーザ端末を介して仮想対象システムとの通信セッションを開始することに応答して、ユーザとのボイス会話に聞き手および話し手として参加するように構成された、仮想対象システム
を含み、
−仮想対象システムは、遠隔ユーザが仮想対象システムとのボイス会話に基づいて通信ネットワークを介する会話品質を評価するのを助けるためにスピーチ査定テストを認識するように構成される
装置に関する。

有利なことに、ユーザは、スピーチ品質または接続の選択された条件に対するスピーチ品質の依存性を査定することができる。

会話テスト方法のさまざまな実施形態を実行できるボイス通信システムを示すブロック図である。本発明による会話コンテキストでのスピーチ品質査定の手順を示す流れ図である。

図面および「発明を実施するための形態」は、いくつかの実施形態を説明するが、本発明は、他の形態を有することができ、図面および「発明を実施するための形態」で説明される形態に限定されない。

そのようなスピーチ品質査定の方法を、そのスピーチ品質メトリックスに従って２つの主要なクラスにグループ化することができる。

第１の主観的手法は、異なるタイプおよび／または量の劣化の下で遠隔通信システムをテストし、ある表記スケールで対応するスピーチ品質にスコアを付けるように参加者に求めることに基づく。個々の参加者によって引き起こされる主観的影響を減らすために、参加者のスコアの平均をとることができる。これは、主観的メトリックとして広く使用されている平均オピニオン評点（ＭＯＳ）につながる。

さらに、スピーチ品質知覚は、参加者が置かれるコンテキストすなわち、リスニング（聞く）コンテキスト、トーキング（話す）コンテキスト、または会話コンテキストに依存する。

リスニング・テストでは、参加者は、異なるタイプのおよび／または量の劣化に基づいて作られた生のまたは記録されたオーディオ信号を聞く。その後、参加者は、彼が知覚するものと彼／彼女が期待するものとの間の関係を確立する。リスニング・テストでのスピーチ品質査定の判断基準として、スピーチひずみ（人間の話し手が発音できないサウンドを作る、自然なスピーチ波形の変形）、アクティブ状態対クワイト状態（ｑｕｉｔｅｓｔａｔｅ）雑音比（話していない時の雑音比の上で話している時のレベルの比）を考慮することができる。注目すべきことに、ラウドネスおよび了解度など、他の品質判断基準を考慮することができる。ここで、了解度は、スピーチのわかりやすさすなわち、聞き手の満足のいくように話し手を聞き、理解することを可能にすることを意味する。国際電気通信連合（ＩＴＵ）は、勧告Ｐ．８００で、このテストをどのように行うべきかおよびスピーチ品質をどのように表すべきかの詳細を示している。スピーチ品質表記の例として、ＡＣＲ（ＡｂｓｏｌｕｔｅＣａｔｅｇｏｒｙＲａｔｉｎｇ）法およびＤＣＲ（ＤｅｇｒａｄａｔｉｏｎＣａｔｅｇｏｒｙＲａｔｉｎｇ）法に言及することができる。

トーキング・テストでは、一方の参加者は、ボイス通信システムの一端で話さなければならず、他方の参加者は、そのボイス通信システムの他端から来るスピーチを聞く。その後、各参加者は、知覚できるエコー（スピーチとして可聴かつ知覚できるものにするのに十分な電力および遅延を伴って起点に戻る話し手のスピーチ信号の反射）があるかどうかおよび離れた話し手が簡単に聞かれ、すぐに理解され、発音のニュアンスを検出できるかどうかを意識する。例示的な例として、参加者は、ＩＴＵの勧告Ｐ．８００で定義された方法のうちの１つを用いて、テストされた条件を査定することができる。

会話テストでは、参加者の各対は、テスト中のボイス通信システムを介する会話にかかわる。リスニング・コンテキストおよびトーキング・コンテキストで出会う条件に加えて、会話テストは、両方向通信中の、会話リズムの崩壊（あるユーザが話すのを止める時とそのユーザが応答を聞く時との間の異常に長いとぎれによって引き起こされる）およびスピーチ劣化を含むことができる。ＳｈｏｒｔＣｏｎｖｅｒｓａｔｉｏｎＴｅｓｔシナリオが、この目的のためにＩＴＵによって作成された（Ｐ．８００およびＩＴＵ−ＴＰ．８０５）。

上で説明した主観的手法とは異なって、第２のクラスは、基準モデルを使用すること（侵入的手法）または劣化したトラフィックを監視すること（非侵入的手法）のいずれかによって、客観的メトリックスを使用し、計算スピーチひずみに頼る。侵入的手法の例として、ＰＡＱＭ、ＰＳＱＭ、ＰＳＱＭ＋ＭＮＢ、ＰＡＭＳ、ＰＥＡＱ、ＴＯＳＱＡ、ＴＯＳＱＡ２１００、ＥＭＢＳＤ、およびＰＥＳＱに言及することができる。非侵入的手法は、ライブ・ネットワークでのスピーチ品質査定に使用することができる。ＩＴＵ−ＴＥ−ｍｏｄｅｌは、最も広く使用されている非侵入的ボイス品質査定方法である。

これらすべての技法の中で、第２のクラスに属する技法は、時間がかかるものでもコストがかかるものでもない。しかし、正確さに関して、その結果は、通常、主観的方法によって検証されるか確認されることを必要とする。さらに、これらのどれもが、会話コンテキストでのボイス品質を評価しない。さらに、ある条件の下で堅牢な１つの客観的メトリックは、必ずしも他の条件の下で同一の性能を有しない。

逆に、主観的手法は、品質査定が人間の主観によって与えられるので、正確に実行される。より具体的には、会話テストは、すべての劣化要因を考慮に入れ、主観的手法のすべてのコンテキストを合成する。

したがって、スピーチ品質査定の観点からは、会話テストは、次の理由から、上で列挙したすべての手法の中で最も興味深いツールであると思われる。
−テスト状況は、遠隔通信システムの具体的な使用法を反映し（具体的には、ほとんどすべての遠隔通信テクノロジが、会話コンテキストすなわち両方向通信を使用可能にする）、
−会話法は、リスニング法で出会う劣化、トーキング法で出会う劣化、および会話（両方向通信）の対話性に影響する劣化によって影響されるので、より広い範囲の品質判断基準を合同で査定することができ、
−応答がボイス通信システムを使用する人から来るので、このテストは、ユーザの知覚を単純な形で入手することを可能にする。

したがって、会話テストは、スピーチ品質査定の最も信頼できる手段である。しかし、そのような主観的方法の利益は、下記によって相殺される。
−そのようなテストは、会話期間全体の間に会話パートナのそれぞれが求めに応じられることを必要とするので、そのようなテストのために要求される時間、
−それらのテストがライブ・ボイス通信ネットワーク上で動作する時のコスト、
−ボイス通信システムの会話チャネルの端点で会話パートナが求めに応じられること、
−スピーチ品質査定は、経路依存であり、通常、２つのアクセス・ポイントの間の経路が変化する場合にもう一度テストされなければならない。

これらの短所は、次の頻繁な例からより明白になる可能性がある。

ボイス通信サービスの品質は、進化するオンライン・ビジネスにおいて重要な問題になってきた。実際に、スピーチ通信品質は、商品の供給者または消費者によって知覚されるので、取引を正しく行うことを可能にするために、ある品質レベルを満足しなければならない。例示的な例として、ボイス入力／出力を使用する固定電話または携帯電話を介する企業取引の増加により、すべての金融取引が行われる前またはすべての機密データが配送される前に、正確な会話テストが必要となる場合がある。

生のテレビジョン番組またはラジオ番組などの生放送イベントにボイス通信システム（ＶｏＩＰ、ＶｏＡＴＭ、ＶｏＦＲ、ＰＳＴＮ）で参加することを望む遠距離ユーザは、ライブで参加する前に常にスピーチ品質を査定するために、まず会話テストに参加することによって進行する場合がある。

呼び出された人が求めに応じられない場合には、複数のモバイル遠隔通信オペレータは、スピーチ品質にかかわりなく、発呼者にトーン信号の後にボイス・メッセージを残すように求めるサービスを提供する。この手順は、スピーチひずみまたは高い雑音レベルに起因する理解されないボイス・メッセージにつながる可能性がある。

非限定的な例として、会話パートナに関連する経路内の多数の中間ネットワーク・ノードもしくは複雑な中間ボイス呼データ処理（コーディング、インターリービングなど）、または通信ネットワーク・デバイスの障害（電磁雑音、ネットワーク・リソース使用不能、異種ネットワークなど）の場合に、スピーチ品質が劣化する場合がある。したがって、遠隔通信およびデータのオペレータおよび製造業者は、彼らの顧客満足度を維持するために、スピーチ品質を定期的に査定しなければならない。

その結果、会話テストは、通信システムのスピーチ品質査定について信頼できるものである。しかし、上で列挙したその短所が、その適切性に影響する。

本明細書で説明するさまざまな実施形態を、図１に示されたデータ通信システム内で実行することができる。このシステムは、
−ＩＳＤＮ、ＰＳＴＮ、および／またはインターネット・ネットワーク、あるいは少なくともボイス通信サービスをサポートする任意の調整されたネットワークなどの通信ネットワーク１
−少なくとも通信ネットワーク１を介するボイス通信を使用可能にするユーザ端末２。非限定的な例として、ユーザ端末１は、携帯電話または固定電話、ＰＤＡ（携帯情報端末）、あるいはパケット交換網（ＶｏＩＰ、ＶｏＡＴＭなど）を介して通信するように構成されたすべての他の電話を含むことができる
−通信ネットワーク１に接続されたサーバ３。非限定的な例として、サーバ３をユーザ端末２とすることができる
−仮想対象システム４
−ボイス・オーディオ・データのスケジューリングおよび送信のための音響または電子オーディオ・インターフェース５
を含む。

音響または電子オーディオ・インターフェース５は、サーバ３と仮想対象システム４との間の制御および通信インターフェースの役割を演じる。

仮想対象システム４は、
−スピーチを解釈できるスピーチ認識モジュール４１
−スピーチ・ジェネレータ４２
−異なるスピーチ劣化要因をシミュレートでき、かつ／またはユーザ端末２を遠隔制御でき、かつ／または通信ネットワーク１を遠隔制御できる制御モジュール４３
を含む。

仮想対象システム４は、評価される通信コンテキストの下での応答時間および応答速度に関して、特定の性能を有しなければならない。

応答時間は、仮想対象システム４がその相手に答えるのに要する時間を指す。これは、相手が言ったことのスピーチ認識時間と応答を生成するのに必要な時間との両方を含む。しばしば、スピーチ認識フェーズは、応答時間の過半数を要する。

一般にパーセンテージとして表されるスピーチ認識率は、スピーチ認識モジュール４１がインターフェース５から来る受け取られたスピーチを認識する能力を指す。

勧告ＩＴＵ−ＴＧ．１１４によれば、会話での対話性は、応答時間が３００ｍｓを超える（または、同等に、１５０ｍｓの最大伝送一方向遅延）場合に、もはや保証されない。スピーチ認識モジュール４１によるスピーチ認識の最大時間は、対話会話用のボイス通信システムによって許容される事前に選択された最大一方向遅延より実質的に短くなければならない。

ＮＵＡＮＣＥ社が製作し、商業化したボイス認識モジュールＮＵＡＮＣＥ８．５は、ワードスポッティング（Ｗｏｒｄｓｐｏｔｔｉｎｇ）を用いて約２０ｍｓ、単純文認識（自然言語理解）を用いて５０ｍｓの認識時間を示す。したがって、これらのタイプのスピーチ認識モジュールを与えられる仮想対象システム４の実施形態は、勧告ＩＴＵ−ＴＧ．１１４の時間制約を満足できるはずである。

１５０ｍｓと比較してわずかな応答時間を有するスピーチ認識モジュール４１は、会話での対話性を滑らかに維持する。さらに、応答時間は、その影響がスピーチ品質査定によってテストされる劣化要因に依存しない。

スピーチ認識モジュール４１の応答時間とボイス通信ネットワーク１を介してユーザ端末２およびサーバ３をリンクする通信経路を介する伝送の時間との間の比は、スピーチ品質査定に影響する。この比が小さければ小さいほど、査定に対するスピーチ認識の影響が小さくなる。約１ｍｓ以下の応答時間を有するスピーチ認識モジュール４１は、ユーザ端末２およびサーバ３をリンクする通信経路を介する伝送の時間にかかわりなく、本明細書で説明される多くの実施形態に適切でなければならない。

スピーチ品質査定中に、スピーチ認識率は、劣化要因が何であれ、仮想対象システム４とユーザ端末２を使用する人との間の制御された会話の中断を避けるために、好ましくは高く、たとえば少なくとも９０％の認識率、好ましくは約１００％の認識率である。スピーチ認識モジュールは、短い応答時間をも有しなければならない。具体的に言うと、このモジュールの応答時間は、仮想対象システム４が人間とのボイス会話の対話性を知覚可能には低下させない形で人間の会話パートナとのボイス会話を制御できるようにするのに十分に短いものでなければならない。

有利なことに、ボイス認識モジュールＮＵＡＮＣＥ８．５に対してＡｌｃａｔｅｌ−Ｌｕｃｅｎｔ社によって実行された高度な調査（ＤｏｃｍａｎＤｏｃｕｍｅｎｔｎ^ｏ３ＥＵ＿２９０００＿００４５＿ＵＵＺＺＡ、「ＥｔｕｄｅｄｕｔｅｍｐｓｄｅｒｅｐｏｎｓｅｄｕＣＣｉｖｒ４６２５ａｓｓｏｃｉｅａｕｍｏｄｕｌｅｄｅｒｅｃｏｎｎａｉｓｓａｎｃｅｖｏｃａｌｅＮｕａｎｃｅ８．５」、ＤｏｃｍａｎＤｏｃｕｍｅｎｔｎ^ｏ３ＥＵ＿２９０００＿００３１＿ＵＵＺＺＢ、「Ｒａｐｐｏｒｔｄ’ｅｔｕｄｅｄｅｌａｒｅｌａｔｉｏｎｅｎｔｒｅｔａｕｘｄｅｒｅｃｏｎｎａｉｓｓａｎｃｅｖｏｃａｌｅＮｕａｎｃｅｅｔｎｏｔｅＰＥＳＱｓｕｒａｒｃｈｉｔｅｃｔｕｒｅＯＸＥＩＰＢａｓｉｃＬｉｎｋＧａｔｅｗａｙ−ＧａｔｅｗａｙｅｎｒｅｓｅａｕＩＰｐｅｒｔｕｒｂｅ」）は、ボイス認識モジュールＮＵＡＮＣＥ８．５が、約１００％の文に関する認識率を伴って、異なるＩＰ障害（１２％までのランダム消失およびバースト消失、２００ｍｓまでのジッタ、ならびに結合された消失およびジッタ）に影響されにくいと結論した。

スピーチ認識モジュール４１が、ボイス認識モジュールＮＵＡＮＣＥ８．５または時間遅れおよび認識率に関して類似する性能を有するかより良い任意の他の同等の製品である実施形態では、仮想対象システム４は、仮想対象システム４およびユーザ端末２をリンクする通信経路を介する伝送時間にかかわりなく、単純に従来のテストの人間を置換することができる。

スピーチ・ジェネレータ４２は、
−すべてのテキストを話された単語に変換できるテキスト−スピーチ（ＴＴＳ）ジェネレータ、および／または
−ボイス・オーディオ・ファイル・ジェネレータ
を含む。

通信ネットワーク１の２つのノードの間の接続の異なる条件の下でのスピーチ品質査定の場合には、制御モジュール４３は、第１ノード（ユーザ端末２）と第２ノード（サーバ３）との間の通信接続の１つまたは複数の条件を変更することを可能にし、その結果、ユーザ端末２のユーザは、接続の異なる条件について会話スピーチの品質を評価できるようになる。

制御モジュール４３は、確立されたボイス会話に対する異なる劣化要因の影響を同時にまたは個別にシミュレートすることができる。たとえば、制御モジュール４３は、異なるレベルを有する雑音を追加すること、スピーチひずみを適用すること、エコーをシミュレートすることなどを可能にする。制御モジュール４３は、たとえばボイス・コーディングを変更することによって、ユーザ端末２および／または通信ネットワーク１を遠隔制御することができる。

ネットワーク１を介するユーザ端末２と仮想対象システム４との間の査定会話を、適切な制御されたダイアログとすることができ、言い換えると、事前定義のＳｈｏｒｔＣｏｎｖｅｒｓａｔｉｏｎＴｅｓｔ（ＳＣＴ）シナリオから選択することができる。そのような会話は、ユーザの間の自由なまたは自然発生的な会話ではないので、制御された会話と称する。

異なるタイプのＳｈｏｒｔＣｏｎｖｅｒｓａｔｉｏｎＴｅｓｔ（ＳＣＴ）シナリオが、文献に記載されており（ＩＴＵ−Ｔ勧告Ｐ．８０５、Ｗｉｅｇｅｌｍａｎｎ（１９９７年）、Ｍｏｅｌｌｅｒ（２０００年））、ここで、会話パターンは、それぞれの役割を有する。対応するテスト・シナリオは、航空機搭乗券の予約、ピザの注文、その他などの現実の電話シナリオを表す。ＳｈｏｒｔＣｏｎｖｅｒｓａｔｉｏｎＴｅｓｔシナリオは、短い持続時間の自然でバランスのとれた会話につながる。

ＳｈｏｒｔＣｏｎｖｅｒｓａｔｉｏｎＴｅｓｔシナリオは、古典的な会話に含まれるすべてのフェーズすなわち、会話の参加者による中断を含む、リスニング・フェーズ、トーキング・フェーズ、および両方向通信フェーズの再作成を可能にする。

文献では、できる限り速くランダムな数を読むことに対して、電話を介してゲームをプレイすることなどのどちらかといえば非現実的な会話テスト・シナリオを識別することもできる（ＫｉｔａｗａｋｉおよびＩｔｏｈ、１９９１年）。プレイの使用は、認識モジュール４１のより簡単なセット・アップという利益を有するが、相互中断の予想される実施態様を必要とする。

勧告ＩＴＵ−ＴＰ．８０５で定義された対話型の短い会話シナリオの使用は、洗練された文法を伴い、好ましくは自然に発生する中断の実施を伴う、ボイス認識モジュールの実装を必要とする。

仮想対象システム４は、対象４が従来の会話テストにおける第２の人間の役割を演じる機械なので、「仮想」と呼ばれる。

有利なことに、人間と仮想対象システム４との間の中断は、添付図面には表されていないボイス・アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤ）モジュールを実施することによって、仮想対象システム４側で管理され得る。

ボイス・アクティビティ検出は、現在のフレーム（入力／出力）が、スピーチが受け取られつつあるインターバルまたはスピーチが送られなければならず、それに従って仮想対象４を制御する（転送、消音など）インターバルのどちらであるのかを検出するために、インターフェース５上で簡単に実施され得る。

スピーチ品質査定を、ユーザ端末２を使用して、人間によって主観的に行うことができる。確かに、この査定を、「優秀」、「良い」、「並」、「不十分」、「悪い」などの分類された主観的記述子の関数で、または主観的記述子のそれぞれに数値を割り当てることによって、または使用されるシステムに関する包括的な印象および満足を表すことによって、表すことができる。

さらに、この会話テストは、全体的なスピーチ品質または劣化要因ごとのスピーチ品質を査定することができる。

ここで図２を参照すると、スピーチ品質査定を、次のように達成することができる。
−ユーザ端末２とサーバ３との間でボイス通信セッションを確立する（１０）。このセッションは、ユーザ端末２またはサーバ３によって、直接にまたは介在して開始され得る。
−仮想対象システム４とユーザ端末２のユーザとの間でボイス会話を開始する（２０）。このボイス会話が開始するとプレイのリストまたはＳｈｏｒｔＣｏｎｖｅｒｓａｔｉｏｎＴｅｓｔシナリオのリストからボイス会話シナリオを選択することを可能になる。このボイス会話が開始すると、会話スピーチがその下で査定される接続の条件を定義することをも可能になる。
−選択された会話シナリオおよび接続条件に従って、ユーザ端末２のユーザと仮想対象システム４との間でボイス会話を行う（３０）。
−ユーザ端末２のユーザによってボイス会話内のスピーチ品質を査定する（４０）。スピーチ品質の査定は、ボイス会話と一緒に、ボイス会話の終りに、またはその両方で行うことができる。
−さらなるステップ（５０）を、先行するステップに追加することができ、さらなるステップ（５０）は、通信セッションの転送、通信セッションのクローズ、その他など、スピーチ品質査定結果に基づく任意のアクションからなるものとすることができる。

ボイス会話を開始するステップ（２０）を、デフォルト会話シナリオおよび／またはデフォルト接続条件を定義することによってスキップすることができる。

ボイス会話開始（２０）中に、仮想対象は、会話シナリオの事前定義のリストから会話シナリオを選択し、接続条件の事前定義のリストから１つまたは複数の接続条件を選択するようにユーザ端末２のユーザに求めることができる。

会話シナリオの事前定義のリストは、ＳｈｏｒｔＣｏｎｖｅｒｓａｔｉｏｎＴｅｓｔ（ＳＣＴ）シナリオ、プレイ・シナリオ、または属性を含むことができる。属性は、ユーザがボイス会話中に属性の値を査定するために、ユーザに送信されなければならない。

ボイス通信セッションが開始されるや否や、スピーチ認識モジュール４１は、選択された接続条件に従って制御モジュール４３を構成する。別の実施形態では、接続条件を適用する必要はない。この場合には、制御モジュール４３は受動的である。

ユーザ端末２のユーザが、ボイス会話内で話す時に、そのユーザのスピーチは、解釈のためにボイス認識モジュール４１に向けられる。

スピーチ認識モジュール４１によりユーザ端末２のユーザのスピーチが認識されると、制御モジュール４３によるシミュレートされた接続条件の下で、認識されるユーザ・スピーチにリンクされるスピーチを生成するために、スピーチ・ジェネレータ４２（ボイス・オーディオ・ファイル・ジェネレータまたはテキスト−スピーチ・ジェネレータ）が起動する。

Claims

通信ネットワーク（１）のノードの間で会話スピーチの品質を査定する方法であって、
ユーザ端末（２）のユーザと仮想対象システム（４）との間で前記通信ネットワーク（１）を介するボイス通信セッションを確立するステップを含み、前記仮想対象システム（４）およびユーザ端末（２）は、前記通信ネットワーク（１）に接続され、前記ユーザ端末は、前記ユーザがボイスによって前記仮想対象システム（４）と通信することを可能にし、さらに、
前記セッション中に、前記仮想対象システム（４）とのボイス会話内の会話パートナとして働くステップを含み、前記仮想対象システムは、前記セッション中に話すことを可能にするためのスピーチ生成モジュール（４２）および前記セッション中に前記ユーザのスピーチを解釈することを可能にするためのボイス認識モジュール（４１）を備え、さらに、
前記セッション中の前記ボイス会話に基づいて前記通信ネットワークを介するスピーチの前記品質を査定するステップを含み、前記査定するステップは前記ユーザによって実行される、方法。
スピーチの前記品質の前記査定は記述子および／または数値によって表される、請求項１に記載の方法。
前記ボイス会話は事前定義の会話テスト・シナリオである、請求項１に記載の方法。
前記ボイス会話はＳｈｏｒｔＣｏｎｖｅｒｓａｔｉｏｎＴｅｓｔ（ＳＣＴ）シナリオまたはプレイ・シナリオである、請求項１または３に記載の方法。
通信ネットワーク（１）のノードの間でスピーチの品質をテストする方法であって、
遠隔端末（２）のユーザとの前記通信ネットワークを介するボイス通信セッションを確立するステップを含み、前記通信セッションは、仮想対象システム（４）と前記遠隔端末（２）の前記ユーザとの間にあり、前記仮想対象システム（４）およびユーザ端末（２）は、前記通信ネットワーク（１）に接続され、さらに、
前記セッション中に、前記ユーザとのボイス会話に参加するステップを含み、参加する行為は、前記仮想対象システム（４）によって実行され、前記仮想対象システムは、前記仮想対象システム（４）が会話参加者として動作できるように、スピーチ生成モジュール（４２）およびボイス認識モジュール（４１）を備え、
前記仮想対象システムは、前記ユーザが前記通信ネットワークを介する会話スピーチの前記品質の査定を行うのを助けるように構成される、方法。
前記仮想対象システムは前記会話中にスピーチの前記品質を査定しない、請求項５に記載の方法。
前記仮想対象システムは、前記ユーザが前記ボイス会話中に属性の値を査定できるように、前記ユーザに前記属性のリストを送信する、請求項５に記載の方法。
前記仮想対象システムは、前記ユーザが前記接続の異なる条件について前記会話スピーチの前記品質を評価できるようにするために、前記セッション中の前記通信接続の１つまたは複数の条件を変更するように構成される、請求項５に記載の方法。
通信ネットワーク（１）のノードの間で会話スピーチの品質をテストする装置であって、
スピーチ認識モジュール（４１）およびスピーチ生成モジュール（４２）を有する仮想対象システム（４）を含み、前記スピーチ認識モジュール（４１）は、ユーザが前記通信ネットワークに接続された遠隔ユーザ端末を介して前記仮想対象システム（４）との通信セッションを開始することに応答して、前記ユーザとのボイス会話に聞き手および話し手として参加するように構成され、
前記仮想対象システムは、前記遠隔ユーザが前記仮想対象システム（４）との前記ボイス会話に基づいて前記通信ネットワークを介するスピーチ品質を評価するのを助けるためにスピーチ査定テストを認識するように構成される、装置。
前記仮想対象システムは前記会話中にスピーチの前記品質を査定することができない、請求項９に記載の装置。
前記仮想対象システムは、前記ユーザが前記ボイス会話中に属性の値を査定できるように、前記ユーザに前記属性のリストを送信するように構成される、請求項９に記載の装置。
前記仮想対象システムは、前記ユーザが前記接続の異なる条件について会話スピーチの前記品質を評価できるようにするために、前記セッション中の前記通信接続の１つまたは複数の条件を変更するように構成される、請求項９に記載の装置。
前記スピーチ認識モジュール（４１）は、少なくとも９０％のスピーチ認識率および前記ボイス会話で知覚される対話性を実質的に下げないのに十分に短い応答時間を有する、請求項９に記載の装置。