JP6571623B2

JP6571623B2 - 音響品質評価装置、音響品質評価方法、およびプログラム

Info

Publication number: JP6571623B2
Application number: JP2016200562A
Authority: JP
Inventors: 祥子栗原; 島内　末廣; 末廣島内; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-10-12
Filing date: 2016-10-12
Publication date: 2019-09-04
Anticipated expiration: 2036-10-12
Also published as: JP2018064162A

Description

本発明は、通話品質を評価するための技術に関し、特に拡声系通信システムの品質評価試験技術に関する。

特許文献１〜３には、拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験を少ない稼働で行うための試験用のデータおよび音響品質評価方法が開示されている。また特許文献３には、基準音と評価音との違いについての５段階評価に基づくＭＯＳ値を採用することで、ＰＥＳＱ値とＭＯＳ値とを線形な関係に近似し、少ない演算量でＰＥＳＱ値からＭＯＳ値を推定する方法が開示されている。

特開２０１６−４５３８９号公報特開２０１６−４６６９４号公報特開２０１６−４６６９５号公報

しかし、試験用のデータの音質が低い場合、得られたＰＥＳＱ値とＭＯＳ値とを線形な関係に近似できない場合があり、そのような場合には、ＰＥＳＱ値からＭＯＳ値を正確に推定することができない。

本発明の課題は、音質が低いデータが含まれる場合であっても、ＰＥＳＱ値からＭＯＳ値を正確に推定することである。

第１の基準音響信号と第１の基準音響信号を含む信号に基づく第１の評価対象音響信号との間の時間ずれを補正してから、第１の基準音響信号と第１の評価対象音響信号とに対する第１のＰＥＳＱ値を得、所定の傾きの直線で表される第２のＰＥＳＱ値と第２のＭＯＳ値との間の線形関係に基づいて、時間ずれの大きさが所定値以下であった第１の基準音響信号と第１の評価対象音響信号とに対する第１のＰＥＳＱ値を線形変換して第１のＭＯＳ値を得る。

本発明では、第１のＰＥＳＱ値を得る際に補正された時間ずれの大きさが所定値以下であった場合に、当該第１のＰＥＳＱ値を線形変換して第１のＭＯＳ値を得るため、音質が低いデータが含まれる場合であっても、ＰＥＳＱ値からＭＯＳ値を正確に推定することができる。

図１は、空間での劣化を反映したデータを生成する第１実施形態のデータ生成装置の機能構成を例示したブロック図である。図２Ａは、空間での劣化を反映しないデータを生成する第１実施形態のデータ生成装置の機能構成を例示したブロック図である。図２Ｂは、図２Ａの信号処理部を例示したブロック図である。図３は、第１実施形態のデータ生成装置によって生成されるデータ構造を説明するための概念図である。図４は、第１実施形態のデータ生成装置によって生成されるデータ構造を例示するための図である。図５は、第２実施形態のデータ生成装置の機能構成を例示したブロック図である。図６は、図５の通信環境模擬処理部を例示したブロック図である。図７は、第３実施形態の音響品質評価装置の機能構成を例示したブロック図である。図８は、第３実施形態の音響品質評価試験での表示内容を例示した図である。図９は、音響品質評価方法を例示するための図である。図１０は、音響品質評価方法を例示するための図である。図１１は、音響品質評価方法を例示するための図である。図１２は、音響品質評価方法を例示するための図である。図１３は、音響品質評価方法を例示するための図である。図１４は、第４実施形態の音響品質評価装置の機能構成を例示したブロック図である。図１５は、ＤＭＯＳ値とＰＥＳＱ値との関係を例示した図である。図１６は、ＤＭＯＳ値とＰＥＳＱ値との関係を例示した図である。図１７は、第４実施形態の変形例の音響品質評価装置の機能構成を例示したブロック図である。

以下、図面を参照して本発明の実施形態を説明する。
［第１実施形態］
＜拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験＞
まず、拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験を概念的に説明する。この評価試験では、近端話者と遠端話者とが拡声系通信システムを通じて会話を行い、近端話者側に位置する評価者が当該拡声系通信システムの品質評価を行う。なお、拡声系通信システムとは、マイクロホンとスピーカーとを備えた端末装置間で音響信号を送受信する通信システムであって、端末装置のスピーカーから出力された音の少なくとも一部がその端末装置のマイクロホンで受音されるもの（音の回り込みが生じるもの）をいう。拡声系通信システムの一例は、音声会議システムやテレビ会議システムである。

図３に例示する拡声系通信システムでは、近端話者の音声が近端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で遠端話者側に伝送され、当該音響信号が表す音が遠端話者側のスピーカーから出力される。また、遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で近端話者側に伝送され、当該音響信号が表す音が近端話者側のスピーカーから出力される。ただし、遠端話者側のスピーカーから出力された音の少なくとも一部は遠端話者側のマイクロホンでも受音される。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、遠端話者の音声に近端話者の音声の回り込み（音響エコー）が重畳されたものである。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、近端話者の音声に基づく信号と遠端話者の音声に基づく信号とが遠端話者側の空間で劣化して重畳した信号に基づく。また、近端話者側に伝送される音響信号は、遠端話者側のマイクロホンで受音された音を表す信号に所定の「信号処理」を行って得られた処理信号に由来するものであってもよいし、このような信号処理を行うことなく得られたものであってもよい。「信号処理」は、どのような処理であってもよい。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。

評価者は、ヘッドフォンやイヤホン等の両耳装着型音響再生装置を用い、近端話者からの直接音を一方の耳（例えば利き耳ではない方の耳−例えば右耳）で聴き、近端話者側のスピーカーから出力される音を他方の耳（例えば利き耳−例えば左耳）で聴き、通話品質を主観評価（オピニオン評価）する。本実施形態では、近端話者からの直接音側のチャネルを「Ｒｃｈ」と表記し、近端話者側のスピーカーから出力される音側のチャネルを「Ｌｃｈ」と表記する。上述のように、近端話者側のスピーカーから出力される音は、遠端話者の音声に近端話者の音声の音響エコーが重畳された遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号が近端話者側に伝送され、近端話者側のスピーカーから出力されたものである。そのため、近端話者側のスピーカーから出力される音に含まれる近端話者の音声の音響エコー成分は、この近端話者の音声の直接音よりも遅延している（音響信号が近端話者側と遠端話者側との間を一往復する時間の遅延）。また、近端話者側のスピーカーから出力される音に含まれる遠端話者の音声の成分は、この遠端話者の音声が発せられた時点よりも遅延している（音響信号が遠端話者側から近端話者側へ伝送される時間の遅延）。ここで、近端話者からの直接音を表す音響信号と、遠端話者側の空間での音の回り込みがある場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「劣化信号」と呼ぶ。この遠端話者側の空間での音の回り込みの際に当該空間での音質劣化が生じる。特に上述の「信号処理」が行われていない「劣化信号」を「劣化信号Ｄ_１」と表記し、「信号処理」が行われた「劣化信号」を「劣化信号Ｄ_２」と表記する。また、近端話者からの直接音を表す音響信号と、遠端話者側の空間での音の回り込みがあるものの当該空間での劣化がない場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「特殊信号」と表記する。特に上述の「信号処理」が行われていない「特殊信号」を「特殊信号Ｄ_３」と表記し、「信号処理」が行われた「特殊信号」を「特殊信号Ｄ_４」と表記する。さらに参照用として、近端話者からの直接音を表す音響信号と、遠端話者側での音の回り込みがないと仮定した場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「参照信号」と呼ぶ。評価者は、例えば「劣化信号Ｄ_１」「劣化信号Ｄ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」「参照信号」の何れかの組を比較することで通話品質を主観評価する。

＜データ生成装置＞
次に、拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験を行うためのデータ構造を生成するデータ生成装置を例示する。図１および図２Ａに例示するように、本実施形態のデータ生成装置１は、近端話者音響信号記憶部１０１、遠端話者音響信号記憶部１０２、再生部１０３，１０４、スピーカー１０５，１０６、マイクロホン１０７、時間調整処理部１０８，２０８，２８０、収録処理部１０９、信号処理部２７０、近端端末部１１０、遠端端末部１２０、出力部１３１，１３２，１４１，１４２，１５１，１５２，２３１，２３２，２４１，２４２，２５１，２５２、およびデータ記憶部１８０を有する。遠端端末部１２０は信号処理部１２１を含み、近端端末部１１０と遠端端末部１２０とはネットワーク（ＮＷ）を通じて通信可能に構成されている。少なくとも、スピーカー１０５，１０６およびマイクロホン１０７は、同じ室内に配置されている。図２Ｂに例示するように、信号処理部２７０は、例えば、入力部２７１，２７２、出力部２７３、加算部２７４、適応フィルタ２７５、および時間調整処理部２７６を含む。信号処理部２７０がさらに雑音除去部２７８および乗算部２７７を含んでもよい。また、図２Ｂでは適応フィルタ２７５を用いてエコーキャンセラが構成されているが、音声スイッチやエコーリダクションその他の技術またはそれと適応フィルタ２７５との組み合わせでエコーキャンセラが構成されてもよい。データ生成装置１は、例えば、スピーカーやマイクロホンが接続され、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備えた汎用または専用の１個以上のコンピュータが所定のプログラムを実行することで構成される装置である。各コンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

＜データ生成処理＞
次に、本実施形態のデータ生成処理を説明する。
事前処理として、評価者が受聴する近端話者の直接音（近端話者の音声）に相当する音を表す近端話者音響信号（システムの第１端側の第１音響信号）のデータを近端話者音響信号記憶部１０１に格納し、遠端話者の直接音（遠端話者の音声）に相当する音を表す遠端話者音響信号（システムの第２端側の第２音響信号）のデータを遠端話者音響信号記憶部１０２に格納する。本実施形態の近端話者音響信号および遠端話者音響信号は何れも時系列の音響信号であり、例えば、防音室で収録した音声に基づいて得られたものである。ただし、これは本発明を限定するものではなく、近端話者音響信号および遠端話者音響信号の少なくとも一方が通常の室内環境で収録されたものであってもよい。また、本形態では、近端話者音響信号が表す近端話者音声と遠端話者音響信号が表す遠端話者音声との間の発話タイミング（すなわち、近端話者音声の発話時に対する遠端話者音声の発話時の相対時間、例えば、近端話者音声と遠端話者音声とのかぶり）に制約は設けない。ただし、これは本発明を限定するものではなく、近端話者音声と遠端話者音声との間の発話タイミングに何らかの制約を設けてもよい。また、近端話者および遠端話者に制約はなく、これらが評価者以外の人であってもよいし、これらの少なくとも一方が評価者と同一人物であってもよい。以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。

≪参照信号および劣化信号の生成≫
まず、図１を用い、参照信号Ｅ_１および劣化信号Ｄ_１，Ｄ_２の生成方法について説明する。再生部１０３は、近端話者音響信号記憶部１０１から近端話者音響信号のデータを抽出して近端話者音響信号を出力する。再生部１０３から出力された近端話者音響信号は、出力部１３１，１４１，１５１および近端端末部１１０に送られる。出力部１３１，１４１，１５１は、送られた近端話者音響信号（システムの第１端側の第１音響信号）を、それぞれ「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号Ｅ_１」のＲｃｈのデータ（システムの第１端側の第１音響信号を含む第１チャネルの第１データ）として出力する。また、近端端末部１１０は、送られた近端話者音響信号をネットワーク経由で遠端端末部１２０に伝送する。遠端端末部１２０は伝送された近端話者音響信号（第１音響信号に由来する信号）をスピーカー１０５に送り、スピーカー１０５は近端話者音響信号が表す音を出力する。

再生部１０４は、遠端話者音響信号記憶部１０２から遠端話者音響信号のデータを抽出して遠端話者音響信号を出力する。再生部１０４から出力された遠端話者音響信号は時間調整処理部１０８およびスピーカー１０６に送られる。時間調整処理部１０８は送られた遠端話者音響信号を遅延させて出力部１５２に送る。時間調整処理部１０８での遅延量τは、遠端端末部１２０から近端端末部１１０までの伝送遅延量Ｂを模擬するものであり、例えば、この伝送遅延量Ｂに基づいて定められる。例えば、遠端端末部１２０から近端端末部１１０までの伝送遅延量Ｂ、当該伝送遅延量Ｂの予測値、当該伝送遅延量Ｂの平均値、またはこれらの何れかの近似値または補正値（関数値）を時間調整処理部１０８での遅延量τとする。なお、「αの近似値」とは、α−β_１以上α＋β_２以下の範囲に属する値を意味する。β_１およびβ_２は正の値（例えば定数）であり、β_１＝β_２であってもよいし、β_１≠β_２であってもよい。また、伝送遅延量Ｂは、往復の遅延量Ｃ（近端話者音響信号が近端端末部１１０から遠端端末部１２０に伝送され、スピーカー１０５からそれを表す音が出力され、マイクロホン１０７で受音されて得られた信号が、さらに遠端端末部１２０から近端端末部１１０に伝送されるまでの時間）の約半分である。そのため、遅延量Ｃに基づいて遅延量τが定められてもよい。例えば、遅延量Ｃの１／２値、当該遅延量Ｃの予測値の１／２値、当該遅延量Ｃの平均値の１／２値、またはこれらの何れかの関数値を遅延量τとしてもよい。遅延量τは固定値であってもよいし、実際に測定された伝送遅延量Ｂに基づいて決定されてもよい。ただし、ネットワーク環境によっては往路と復路との遅延量が異なる場合もある。また、近端端末部１１０や遠端端末部１２０や信号処理部１２１やネットワーク環境が変化すれば伝送遅延量Ｂや遅延量Ｃが変化するため、そのような変化に応じて遅延量τを定めることが望ましい。出力部１５２は、時間調整処理部１０８で遅延させた遠端話者音響信号（基準音響信号、第２音響信号を含む信号に基づく比較用信号）を「参照信号Ｅ_１」のＬｃｈのデータ（第２音響信号を含む信号に基づく比較用信号を含む第２チャネルの第４データ）として出力する。

スピーカー１０６は、送られた遠端話者音響信号（システムの第２端側の第２音響信号）が表す音（第２端側の第２音響信号に由来する再生信号）を出力する。スピーカー１０５から出力された音およびスピーカー１０６から出力された音は室内空間で重畳し、マイクロホン１０７で受音される。ここで、スピーカー１０５および１０６から出力された音は、遠端端末部１２０側（第２端側）の室内空間での残響、反響、雑音などの空間影響に基づいて劣化する。すなわち、マイクロホン１０７で受音される音は、スピーカー１０５および１０６から出力された音が空間影響に基づいて劣化しつつ重畳したものである。マイクロホン１０７で受音して得られた受音信号は、遠端端末部１２０の信号処理部１２１に送られる。信号処理部１２１は、送られた受音信号に対する信号処理の実行の有無を制御可能である。信号処理が実行される場合、信号処理部１２１は、送られた受音信号に信号処理を行って処理信号を得、遠端端末部１２０は処理信号をネットワーク経由で近端端末部１１０（第１端側）に伝送する。この信号処理には、さらに近端端末部１１０からネットワーク経由で遠端端末部１２０に伝送された近端話者音響信号（スピーカー１０５に入力される近端話者音響信号）が用いられてもよい。一方、信号処理が実行されない場合、遠端端末部１２０は、信号処理部１２１に送られた受音信号をネットワーク経由で近端端末部１１０（第１端側）に伝送する。また信号処理部１２１は、例えば、信号処理の有無を表す情報を収録処理部１０９に送る。信号処理部１２１は、送られた受音信号に対して信号処理を実行して処理信号を得、遠端端末部１２０はこの処理信号をネットワーク経由で近端端末部１１０に伝送し、さらに、この信号処理の対象となった受音信号またはそれと同一の条件のもとで得られた同一とみなせる受音信号をネットワーク経由で近端端末部１１０に伝送してもよい。すなわち、同一または同一とみなせる２つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われてもよい。「同一の条件」とは、少なくとも、データ生成装置１、近端話者音響信号、遠端話者音響信号、および発話タイミングが同一であることを意味する。「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。なお、エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理を意味する。広義のエコーキャンセラによる処理とは、エコーを低減させるための処理全般を意味する。広義のエコーキャンセラによる処理は、例えば、適応フィルタを用いた狭義のエコーキャンセラのみによって実現されてもよいし、音声スイッチによって実現されてもよいし、エコーリダクションによって実現されてもよいし、これらの少なくとも一部の技術の組み合わせによって実現されてもよいし、さらにその他の技術との組み合わせによって実現されてもよい（例えば、参考文献１「知識ベース知識の森、２群−６編−５章、“音響エコーキャンセラ”、電子情報通信学会」参照）。またノイズキャンセル処理とは、遠端端末のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音に起因する雑音成分を抑圧または除去する処理を意味する。環境雑音とは、例えば、オフィスの空調音、走行中の車内音、交差点での車の通行音、虫の音、キーボードのタッチ音、複数の人の声（ガヤガヤ音）などを指し、音の大／小、屋内／屋外は問わない。

遠端端末部１２０からネットワーク経由で伝送された信号（第１音響信号に由来する信号とシステムの第２端側の第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づいて劣化した第２重畳信号）は、近端端末部１１０に入力され、収録処理部１０９に送られる。ここで、信号処理部１２１で信号処理が実行されている場合（信号処理ＯＮ時）、収録処理部１０９は、送られた信号（第２重畳信号）を出力部１４２に送る。出力部１４２は、送られた信号（評価対象音響信号Ｔ_２）を「劣化信号Ｄ_２」のＬｃｈのデータ（第２重畳信号を含む第２チャネルの第２データ）として出力する。一方、信号処理部１２１で信号処理が実行されていない場合（信号処理ＯＦＦ時）、収録処理部１０９は、送られた信号（第２重畳信号）を出力部１３２に送る。出力部１３２は、送られた信号（評価対象音響信号Ｔ_１）を「劣化信号Ｄ_１」のＬｃｈのデータ（第２重畳信号を含む第２チャネルの第２データ）として出力する。

出力部１３１から出力されたＲｃｈの近端話者音響信号のデータと、出力部１３２から出力されたＬｃｈの評価対象音響信号Ｔ_１のデータとの組は、「劣化信号Ｄ_１」としてデータ記憶部１８０に格納される。出力部１４１から出力されたＲｃｈの近端話者音響信号のデータと、出力部１４２から出力されたＬｃｈの評価対象音響信号Ｔ_２のデータとの組は、「劣化信号Ｄ_２」としてデータ記憶部１８０に格納される。出力部１５１から出力されたＲｃｈの近端話者音響信号のデータと、出力部１５２から出力されたＬｃｈの基準音響信号のデータとの組は、「参照信号Ｅ_１」としてデータ記憶部１８０に格納される。なお、同じ時間区間に対応する「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号Ｅ_１」のＲｃｈの近端話者音響信号は互いに同一である。そのため、必ずしも「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号Ｅ_１」のそれぞれについて、互いに同一なＲｃｈの近端話者音響信号のデータをデータ記憶部１８０に格納する必要はない。もちろん、「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号Ｅ_１」のそれぞれについて、互いに同一なＲｃｈの近端話者音響信号のデータをデータ記憶部１８０に格納してもかまわない。

図４を用い、上述のように得られた「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」を例示する。図４の例では、前述した同一または同一とみなせる２つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われ、信号処理を実行した場合の「劣化信号Ｄ_２」と、信号処理を実行していない場合の「劣化信号Ｄ_１」との両方が得られている。また図４の例では、「信号処理」としてエコーキャンセル処理を含む処理を用いている。

本実施形態の「参照信号Ｅ_１」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（システムの第１端側の第１音響信号を含む第１チャネルの第１データ）と、前述の遠端話者音響信号に基づく基準音響信号を含むＬｃｈのデータ（第２音響信号を含む信号に基づく比較用信号を含む第２チャネルの第４データ）とを含む。これらのＲｃｈの第１データとＬｃｈの第４データとは互いに対応付けられている。本実施形態の「劣化信号Ｄ_１」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（第１音響信号を含む第１チャネルの第１データ）と、前述の評価対象音響信号Ｔ_１を含むＬｃｈのデータ（第２重畳信号を含む第２チャネルの第２データ）とを含む。これらのＲｃｈの第１データとＬｃｈの第２データとは互いに対応付けられている。評価対象音響信号Ｔ_１は信号処理を行うことなく得られた比較用の信号である。本実施形態の「劣化信号Ｄ_２」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（システムの第１端側の第１音響信号を含む第１チャネルの第１データ）と、前述の評価対象音響信号Ｔ_２を含むＬｃｈのデータ（第１音響信号に由来する信号と第２音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する第２重畳信号（第２端側の空間環境に基づいて劣化した信号）を含む第２チャネルの第２データ）とを含む。これらのＲｃｈの第１データとＬｃｈの第２データも互いに対応付けられている。

図４に例示するように、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＲｃｈのデータの時間区間ａ−ｂには、互いに同一な近端話者音響信号（第１音響信号）が含まれる。「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＬｃｈのデータの時間区間ｅ−ｄ’には、近端話者音響信号の音響エコー成分が含まれる。音響エコー成分は上記の近端話者音響信号に由来する信号（第１音響信号に由来する信号）であるが、近端話者音響信号に比べて時間区間ａ−ｅ（遅延量Ｃ）だけ遅延している。この遅延量Ｃは、近端話者音響信号が近端端末部１１０から遠端端末部１２０に伝送され、スピーカー１０５からそれを表す音が出力され、マイクロホン１０７で受音されて得られた信号が、さらに遠端端末部１２０から近端端末部１１０に伝送されるまでの時間に相当する。

「参照信号Ｅ_１」のＬｃｈのデータの時間区間ｃ−ｄには、遠端話者音響信号に基づく遠端話者音響信号成分（第２音響信号に基づく成分）が含まれ、「劣化信号Ｄ_１」のＬｃｈのデータの時間区間ｃ’−ｄ’には、遠端話者音響信号に基づく遠端話者音響信号成分（第２音響信号に基づく成分）が重畳され、「劣化信号Ｄ_２」のＬｃｈのデータの時間区間ｃ’−ｄ’には、遠端話者音響信号に基づく遠端話者音響信号成分（第２音響信号に基づく成分）が重畳されている。「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＲｃｈの近端話者音響信号の開始時点ａからＬｃｈの遠端話者音響信号成分の開始時点ｃ’までには時間差ａ−ｃ’が存在する。また、「参照信号Ｅ_１」のＲｃｈの近端話者音響信号の開始時点ａからＬｃｈの遠端話者音響信号成分の開始時点ｃまでには時間差ａ−ｃが存在する。ここで「劣化信号Ｄ_１」「劣化信号Ｄ_２」での時間差ａ−ｃ’は、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Ａと、信号が遠端端末部１２０から近端端末部１１０に伝送されるまでの伝送遅延量Ｂとの合計Ａ＋Ｂに相当する。一方、「参照信号Ｅ_１」での時間差ａ−ｃは、時間差Ａと時間調整処理部１０８での遅延量τとの合計Ａ＋τに相当する。前述のように遅延量τは伝送遅延量Ｂに基づいて定められているため、遅延量τと伝送遅延量Ｂとが一致または近似し、時間差ａ−ｃを時間差ａ−ｃ’に一致または近似させることができる。このようなデータ構造を用いた評価試験では、「劣化信号Ｄ_２」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「参照信号Ｅ_１」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。同様に、「劣化信号Ｄ_１」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「参照信号Ｅ_１」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。さらに、「劣化信号Ｄ_１」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「劣化信号Ｄ_２」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを一致または近似させることができる。すなわち、第２重畳信号は、第２音響信号に基づく第１成分を含み、比較用信号は、第２音響信号に基づく第２成分を含み、第１チャネルで第１音響信号を出力してから第２チャネルで第１成分を出力するまでの時間と、第１チャネルで第１音響信号を出力してから第２チャネルで第２成分を出力するまでの時間とを、一致または近似させることができる。なお、図４では、近端話者が遠端話者に先行して発話する状況を例示したが、遠端話者が近端話者に先行して発話したり、時間差がａ−ｃ’≒０となったりする場合もある。例えば、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Ａと、信号が遠端端末部１２０から近端端末部１１０に伝送されるまでの伝送遅延量Ｂとが等しい場合は、時間差ａ−ｃ’＝差分Ａ−Ｂ≒０となる場合がある。さらに遠端話者が近端話者に対して伝送遅延量Ｂよりも早く話し始めた場合には波形の位置関係が逆転し、Ｌｃｈの遠端話者音響信号成分の開始時点ｃ’が「劣化信号Ｄ_１」「劣化信号Ｄ_２」のＲｃｈの近端話者音響信号の開始時点ａよりも前になる場合もある。このような場合であっても同様に時間調整を行うことができる。

≪参照信号および特殊信号の生成≫
次に、図２Ａを用い、参照信号Ｅ_２および特殊信号Ｄ_３，Ｄ_４の生成方法について説明する。本形態では前述したコンピュータを用いた計算機シミュレートによって、参照信号Ｅ_２および特殊信号Ｄ_３，Ｄ_４を作成する。近端話者音響信号記憶部１０１から近端話者音響信号が抽出され、出力部２３１，２４１，２５１、時間調整処理部２８０の入力部２８２、および信号処理部２７０の入力部２７２に送られる。遠端話者音響信号記憶部１０２から遠端話者音響信号が抽出され、時間調整処理部２０８および時間調整処理部２８０の入力部２８１に入力される。

出力部２３１，２４１，２５１は、送られた近端話者音響信号（第１音響信号）を、それぞれ「特殊信号Ｄ_３」「特殊信号Ｄ_４」「参照信号Ｅ_２」のＲｃｈのデータ（第１音響信号を含む第１チャネルの第１データ）として出力する。

時間調整処理部２８０は、入力部２８１および２８２に入力された遠端話者音響信号（第２音響信号）および近端話者音響信号（第１音響信号）に「時間調整処理」および「加算処理（重畳処理）」を行い、それによって得られた重畳信号（模擬信号）を出力部２８３から出力する。例えば、時間調整処理部２８０は、当該遠端話者音響信号に遅延量Ｂ’の遅延を与え、当該近端話者音響信号に遅延量Ｃ’の遅延を与え、遅延させたこれらの信号を加算（重畳）して得られる重畳信号を出力部２８３から出力する。上述の遅延量Ｂ’は、例えば、前述の伝送遅延量Ｂ（遠端端末部１２０から近端端末部１１０までの伝送遅延量）を模擬するものである。一方、遅延量Ｃ’は、例えば、前述の遅延量Ｃ（信号が近端端末部１１０から遠端端末部１２０に伝送され、スピーカー１０５からそれを表す音が出力され、マイクロホン１０７で受音されて得られた信号が、さらに遠端端末部１２０から近端端末部１１０に伝送されるまでの時間）を模擬するものである。そのため、Ｂ’＜Ｃ’であることが望ましい（例えば、Ｃ’＝２×Ｂ’）。しかしながら、これは本発明を限定するものではなく、Ｂ’＝Ｃ’やＢ’＞Ｃ’または、Ｂ’＝Ｃ’＝０であってもよい。

出力部２８３から出力された重畳信号は、出力部２３２および信号処理部２７０の入力部２７１に入力される。出力部２３２は、送られた重畳信号（評価対象音響信号Ｔ_３：第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号。例えば、第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号）を「特殊信号Ｄ_３」のＬｃｈのデータとして出力する。

信号処理部２７０は、入力部２７１に入力された重畳信号と入力部２７２に入力された近端話者音響信号を用い、当該重畳信号に信号処理を行って処理信号（第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号に信号処理を行って得られた処理信号に由来する第３重畳信号。例えば、第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号に信号処理を行って得られた処理信号に由来する第３重畳信号）を得る。信号処理部１２１と同様、「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む。図２Ｂの例の場合、信号処理部２７０は、入力部２７２に入力された近端話者音響信号を時間調整処理部２７６で遅延させた信号に適応フィルタ２７５を適用して得られた信号と、入力部２７１に入力された重畳信号（模擬信号）と、を加算部２７４で重畳することでエコーキャンセル処理を行い、それによって処理信号（第３重畳信号）を得る。信号処理部２７０が、上述のエコーキャンセル処理の後、さらにノイズキャンセル処理を行って処理信号を得てもよい。あるいは、信号処理部２７０がエコーキャンセル処理を行うことなくノイズキャンセル処理を行って処理信号を得てもよい。なお、ノイズキャンセル処理の方法は、例えば、加算部２７４からの出力信号に対して、推定した定常雑音レベルの分だけ振幅が抑圧されるように、乗算部２７７でゲイン値を乗じるものである（例えば、参考文献２「阪内澄宇，羽田陽一，田中雅史，佐々木潤子，片岡章俊，“雑音抑圧及びエコー抑圧機能を備えた音響エコーキャンセラ”，電子情報通信学会論文誌Vol.J87-A, No.4, pp.448-457 (2004年4月)」等参照）。得られた処理信号は出力部２７３から出力される。出力部２７３は処理信号を出力部２４２に送る。出力部２４２は、送られた処理信号を「特殊信号Ｄ_４」のＬｃｈのデータ（評価対象音響信号Ｔ_４：第３重畳信号を含む第２チャネルの第３データ）として出力する。

また、時間調整処理部２０８は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部２５２に送る。遅延量τ’は、例えば、上述の遅延量Ｂ’に対応する。例えば、遅延量Ｂ’または当該遅延量Ｂ’の近似値もしくは補正値（関数値）を遅延量τ’とする。あるいは、遅延量τ’が遅延量Ｃ’に対応してもよい。例えば、τ’がＣ’／２またはＣ’／２の関数値であってもよい。あるいは、遅延量τ’が遅延量Ｂ’および遅延量Ｃ’に対応してもよい。出力部２５２は、時間調整処理部２０８で遅延させた遠端話者音響信号を「参照信号Ｅ_２」のＬｃｈのデータ（第２音響信号を含む信号に基づく比較用信号を含む第２チャネルの第４データ）として出力する。以上のように得られたデータ構造はデータ記憶部１８０に格納される。

本実施形態の「参照信号Ｅ_２」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（第１音響信号を含む第１チャネルの第１データ）と、前述の遠端話者音響信号に基づく基準音響信号を含むＬｃｈのデータ（第２音響信号を含む信号に基づく比較用信号を含む第２チャネルの第４データ）とを含む。これらのＲｃｈの第１データとＬｃｈの第４データとは互いに対応付けられている。本実施形態の「特殊信号Ｄ_３」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（第１音響信号を含む第１チャネルの第１データ）と、前述の評価対象音響信号Ｔ_３を含むＬｃｈのデータ（第１音響信号に由来する信号とシステムの第２端側の第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号を含む第２チャネルのデータ。例えば、第１音響信号に由来する信号とシステムの第２端側の第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号を含む第２チャネルのデータ）とを含む。これらのＲｃｈの第１データとＬｃｈのデータとは互いに対応付けられている。評価対象音響信号Ｔ_３は信号処理を行うことなく得られた比較用の信号である。本実施形態の「特殊信号Ｄ_４」のデータ構造は、前述の近端話者音響信号を含むＲｃｈのデータ（第１音響信号を含む第１チャネルの第１データ）と、前述の評価対象音響信号Ｔ_４を含むＬｃｈのデータ（第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号に信号処理を行って得られた処理信号に由来する第３重畳信号を含む第２チャネルの第３データ。例えば、第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号に信号処理を行って得られた処理信号に由来する第３重畳信号を含む第２チャネルの第３データ）とを含む。これらのＲｃｈの第１データとＬｃｈの第３データとは互いに対応付けられている。なお、同じ時間区間に対応する「特殊信号Ｄ_３」「特殊信号Ｄ_４」「参照信号Ｅ_２」のＲｃｈの近端話者音響信号は互いに同一である。そのため、必ずしも「特殊信号Ｄ_３」「特殊信号Ｄ_４」「参照信号Ｅ_２」のそれぞれについて、互いに同一なＲｃｈの近端話者音響信号のデータをデータ記憶部１８０に格納する必要はない。もちろん、「特殊信号Ｄ_３」「特殊信号Ｄ_４」「参照信号Ｅ_２」のそれぞれについて、互いに同一なＲｃｈの近端話者音響信号のデータをデータ記憶部１８０に格納してもかまわない。

このようなデータ構造を用いた評価試験では、「特殊信号Ｄ_３」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。同様に、「特殊信号Ｄ_４」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。さらに、「特殊信号Ｄ_３」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間と、「特殊信号Ｄ_４」のＲｃｈで近端話者音響信号を出力してからＬｃｈで遠端話者音響信号成分を出力するまでの時間とを一致または近似させることができる。すなわち、第３重畳信号は、第２音響信号に基づく第３成分を含み、比較用信号は、第２音響信号に基づく第４成分を含み、第１チャネルで第１音響信号を出力してから第２チャネルで第３成分を出力するまでの時間と、第１チャネルで第１音響信号を出力してから第２チャネルで第４成分を出力するまでの時間とを、一致または近似させることができる。

≪参照信号、劣化信号、および特殊信号を含むデータ構造≫
上述のように、本実施形態の評価試験を行うためのデータ構造は、（１）「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の三つ組み、および（２）「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の三つ組みを含む。（１）「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の三つ組み、および、（２）「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の三つ組みのそれぞれは、単数であってもよいし、複数であってもよい。１つの（１）「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の三つ組みは、１つの近端話者音響信号および遠端話者音響信号の組から生成される。同様に、１つの（２）「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の三つ組みは、１つの近端話者音響信号および遠端話者音響信号の組から生成される。（１）「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の三つ組み、および（２）「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の三つ組みは、１つの近端話者音響信号および遠端話者音響信号の組から生成されてもよいし、互いに異なる２つの近端話者音響信号および遠端話者音響信号の組から生成されてもよい。複数の（１）「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の三つ組みは、例えば、互いに異なる複数の近端話者音響信号および遠端話者音響信号の組からそれぞれ生成される。複数の（２）「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の三つ組みは、例えば、互いに異なる複数の近端話者音響信号および遠端話者音響信号の組からそれぞれ生成される。

このようなデータ構造を用いた評価試験を行う音響品質評価装置は、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで基準音響信号を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_１を出力する制御とを行うことができる。同様に、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで基準音響信号を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_２を出力する制御とを行うこともできる。さらに、音響品質評価装置は、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_１を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_２を出力する制御とを行うこともできる。さらに、音響品質評価装置は、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで基準音響信号を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_３を出力する制御とを行うことができる。同様に、音響品質評価装置は、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで基準音響信号を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_４を出力する制御とを行うこともできる。さらに、音響品質評価装置は、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_３を出力する制御と、Ｒｃｈで近端話者音響信号を出力しつつ、Ｌｃｈで評価対象音響信号Ｔ_４を出力する制御とを行うこともできる。すなわち、音響品質評価装置は、少なくとも第１チャネルで第１音響信号を出力しつつ、第２チャネルで比較用信号を出力する制御と、第１チャネルで第１音響信号を出力しつつ、第２チャネルで第２重畳信号を出力する制御と、第１チャネルで第１音響信号を出力しつつ、第２チャネルで第３重畳信号を出力する制御と、が可能である。

評価試験の際、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」が何らかの順序で再生されるか、または、「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」が何らかの順序で再生される。これらのＲｃｈの信号の再生音は、例えば、両耳装着型音響再生装置の右のスピーカーから出力され、Ｌｃｈの信号の再生音は、例えば、この両耳装着型音響再生装置の左のスピーカーから出力される（ステレオ再生）。評価者は、この両耳装着型音響再生装置を両耳に装着し、ステレオ再生されたこれらの音を聴いて通話品質を主観評価する。この際、評価者はＬｃｈの信号の再生音を利き耳（例えば左耳）で聴き、Ｒｃｈの信号の再生音を利き耳ではない耳（例えば右耳）で聴くことが望ましい。

すなわち、第１データおよび第２データまたは第３データが音響品質評価装置で読み出されたとき、第１データが表す音が両耳装着型音響再生装置の一方のチャネルから再生され、第２データまたは第３データが表す音が両耳装着型音響再生装置の他方のチャネルから再生され、評価結果を表す情報が音響品質評価装置に入力される。評価試験の詳細は第３実施形態で説明する。

［第１実施形態の変形例１］
第１実施形態では、遠端話者音響信号を遅延量τだけ遅延させたものを「参照信号Ｅ_１」のＬｃｈの基準音響信号とした。これは「参照信号Ｅ_１」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似（例えば、図４の時間区間ａ−ｃと時間区間ａ−ｃ’との一致または近似）させるためである。しかしながら、このような目的は他の手段によっても実現できる。例えば、再生部１０４から出力された遠端話者音響信号を遅延させることなく「参照信号Ｅ_１」のＬｃｈの基準音響信号として出力部１５２から出力し、再生部１０３から出力された近端話者音響信号を時間τだけ時間的に繰り上げたもの（遅延の逆の時間シフトをしたもの）を「参照信号Ｅ_１」のＲｃｈの近端話者音響信号としてもよい。あるいは、再生部１０４から出力された遠端話者音響信号を時間τ−Ｔだけ遅延させたものを「参照信号Ｅ_１」のＬｃｈの基準音響信号として出力部１５２から出力し、再生部１０３から出力された近端話者音響信号を時間Ｔだけ時間的に繰り上げたものを「参照信号Ｅ_１」のＲｃｈの近端話者音響信号としてもよい。ただし、Ｔの値は、例えば、０≦Ｔ≦τである。あるいは、評価試験時の処理により、「参照信号Ｅ_１」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。例えば、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」のファイル名やそれらを構成する信号の時間情報を持つデータ構造であればよい。データ構造がさらに遅延量τを特定するための情報を持っていてもよい。このような場合、データ記憶部１８０に格納されている「参照信号Ｅ_１」と「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間が一致または近似されていなくてもよい。要は、何らかの方法で、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。また、「劣化信号Ｄ_１」「劣化信号Ｄ_２」との間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間が一致していないデータ構造であってもよい。

［第１実施形態の変形例２］
第１実施形態では、時間調整処理部２０８，２８０それぞれの遅延処理により、「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させた。しかしながら、このような目的は他の手段によっても実現できる。例えば、遠端話者音響信号記憶部１０２から読み出された遠端話者音響信号を遅延させることなく「参照信号Ｅ_２」のＬｃｈの基準音響信号として出力部２５２から出力し、近端話者音響信号記憶部１０１から読み出された近端話者音響信号を時間τ’だけ時間的に繰り上げたものを「参照信号Ｅ_２」のＲｃｈの近端話者音響信号としてもよい。要は、
（１）「特殊信号Ｄ_４」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの評価対象音響信号Ｔ_４に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号Ｅ_２」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、および、
（２）「特殊信号Ｄ_３」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの評価対象音響信号Ｔ_３に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号Ｅ_２」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、
の少なくとも一方を行う１個以上の時間調整処理部を備えていればよい。その他、評価試験の時の処理により、「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。要は、何らかの方法で、「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。

［第２実施形態］
第２実施形態は第１実施形態の変形例であり、通信環境および室内環境を電気的に模擬したデータ生成装置で、評価試験を行うためのすべてのデータ構造を生成するものである。以下では、これまで説明した事項との相違点を中心に説明する。既に説明した事項については、それらに用いた参照番号を流用して説明を簡略化する。

＜データ生成装置＞
図５に例示するように、本実施形態のデータ生成装置２は、近端話者音響信号記憶部１０１、遠端話者音響信号記憶部１０２、時間調整処理部２０８、通信環境模擬処理部２６０、信号処理部２７０、出力部２３１，２３２，２４１，２４２，２５１，２５２、およびデータ記憶部１８０を有する。データ生成装置２は、例えば、音声信号の処理が可能な汎用または専用の１個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。

通信環境模擬処理部２６０は、通信環境を電気的に模擬した通信環境模擬処理を行う。さらに通信環境模擬処理部２６０は、前述した遠端端末部１２０側（第２端側）の空間環境（空間伝達系）を電気的に模擬するか、模擬しないかを切り替えることもできる。すなわち、通信環境模擬処理部２６０は、遠端端末部１２０側（第２端側）の空間環境を模擬した条件に基づいて信号を劣化させるか、当該空間環境を模擬した条件に基づいた劣化をさせないかを切り替えることができる。この通信環境模擬処理は、少なくとも、近端話者音響信号（第１音響信号）に第１時間調整処理を含む処理を行って得られる信号と、遠端話者音響信号（第２音響信号）に第２時間調整処理を含む処理を行って得られる信号と、を重畳する処理を含む。また空間環境を電気的に模擬する処理（空間環境を模擬した条件に基づいて信号を劣化させる処理）は、擬似エコーおよび擬似雑音の少なくとも一方を信号に重畳する処理を含む。例えば、図６に例示するように、通信環境模擬処理部２６０は、時間調整処理部２６４，２６６、擬似エコー生成部２６５、加算部２６７、入力部２６１，２６２、出力部２６３、および切り替え部２６９ａを含む。さらに、通信環境模擬処理部２６０が擬似雑音源２６８および切り替え部２６９ｂを含んでもよい。なお、擬似エコー生成部２６５は、遠端端末部１２０側の空間での反響や残響を模擬するためのものである。擬似雑音源２６８は、遠端端末部１２０のマイクロホン１０７の周囲で発生する、遠端話者の音声以外のあらゆる環境雑音を模擬するためのものである。

＜データ生成処理＞
次に、本実施形態のデータ生成処理を説明する。
第１実施形態と同じく、まず事前処理として、近端話者音響信号（第１音響信号）のデータを近端話者音響信号記憶部１０１に格納し、遠端話者音響信号（第２音響信号）のデータを遠端話者音響信号記憶部１０２に格納する。以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。

≪参照信号および劣化信号の生成≫
参照信号Ｅ_１および劣化信号Ｄ_１，Ｄ_２の生成を行う場合、切り替え部２６９ａ（図６）は時間調整処理部２６４を擬似エコー生成部２６５に接続し、擬似エコー生成部２６５を駆動させる。通信環境模擬処理部２６０が擬似雑音源２６８および切り替え部２６９ｂを含む場合には、切り替え部２６９ｂが擬似雑音源２６８を加算部２６７に接続し、擬似雑音源２６８を駆動させる。

近端話者音響信号記憶部１０１（図５）から近端話者音響信号が抽出され、出力部２３１，２４１，２５１、通信環境模擬処理部２６０の入力部２６２、および信号処理部２７０の入力部２７２に送られる。遠端話者音響信号記憶部１０２から遠端話者音響信号が抽出され、時間調整処理部２０８および通信環境模擬処理部２６０の入力部２６１に入力される。

出力部２３１，２４１，２５１は、送られた近端話者音響信号（第１音響信号）を、それぞれ、「劣化信号Ｄ_１」，「劣化信号Ｄ_２」，「参照信号Ｅ_１」のＲｃｈのデータ（第１音響信号を含む第１チャネルの第１データ）として出力する。

通信環境模擬処理部２６０は、入力部２６１および２６２に入力された遠端話者音響信号（第２音響信号）および近端話者音響信号（第１音響信号）に対し、前述した「空間環境を電気的に模擬する処理」を含む「通信環境模擬処理」を行い、それによって得られた重畳信号を出力部２６３から出力する。図６の例の場合、入力部２６１に入力された遠端話者音響信号は時間調整処理部２６６に入力され、入力部２６２に入力された近端話者音響信号は時間調整処理部２６４に入力される。時間調整処理部２６６は、当該遠端話者音響信号に遅延量Ｂ’の遅延を与え、それによって得られた信号を加算部２６７に送る（第１時間調整処理）。時間調整処理部２６４は、当該近端話者音響信号に遅延量Ｃ’の遅延を与え、遅延された近端話者音響信号を、切り替え部２６９ａ経由で擬似エコー生成部２６５に送る（第２時間調整処理）。擬似エコー生成部２６５は、第２時間調整処理で遅延させた近端話者音響信号を用いて擬似エコー信号を作成（例えば、近端話者音響信号を遠端話者側のスピーカーで再生して遠端話者側のマイクロホンで収音するときの空間伝達系および収音時の波形歪みを模擬した信号を擬似エコー信号として生成）し、当該擬似エコー信号を加算部２６７に送る。加算部２６７は、第１時間調整処理によって得られた信号と、擬似エコー信号と、を重畳して重畳信号を得る。擬似雑音源２６８が存在する場合には、加算部２６７は、第１時間調整処理によって得られた信号と、擬似エコー信号と、擬似雑音源２６８から出力された擬似雑音信号と、を重畳して重畳信号を得てもよい。加算部２６７で得られた重畳信号（模擬信号）は出力部２６３に送られ、出力部２６３はそれを出力する。前述のように、遅延量Ｂ’は、例えば、第１実施形態の伝送遅延量Ｂを模擬するものである。一方、遅延量Ｃ’は、例えば、第１実施形態の遅延量Ｃを模擬するものである。そのため、Ｂ’＜Ｃ’であることが望ましい（例えば、Ｃ’＝２×Ｂ’）。しかしながら、これは本発明を限定するものではなく、Ｂ’＝Ｃ’やＢ’＞Ｃ’または、Ｂ’＝Ｃ’＝０であってもよい。

出力部２６３から出力された重畳信号は、出力部２３２および信号処理部２７０の入力部２７１に入力される。出力部２３２は、送られた重畳信号（評価対象音響信号Ｔ_１）を「劣化信号Ｄ_１」のＬｃｈのデータ（第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境を模擬した条件に基づいて劣化した第２重畳信号を含む第２チャネルの第２データ）として出力する。

信号処理部２７０は、入力部２７１に入力された重畳信号と入力部２７２に入力された近端話者音響信号を用い、当該重畳信号に信号処理を行って処理信号（第２重畳信号）を得る。図２Ｂの例の場合、近端話者音響信号を時間調整処理部２７６で遅延させた信号に適応フィルタ２７５を適用して得られた信号と当該重畳信号とを加算部２７４で重畳することでエコーキャンセル処理を行い、雑音除去部２７８および乗算部２７７を有する場合には、さらにノイズキャンセル処理を行って、それによって処理信号を得る。ノイズキャンセル処理の方法は、例えば、近端話者および遠端話者のどちらの音響信号も存在しない状態で、図６の擬似雑音源２６８が送出する擬似雑音の定常雑音レベルを雑音推定部２７８で推定し、加算部２７４からの出力信号に対して、推定した定常雑音レベルの分だけ振幅が抑圧されるように、乗算部２７７でゲイン値を乗じるものである（例えば、参考文献２等参照）。得られた処理信号は出力部２７３から出力される。出力部２７３は処理信号を出力部２４２に送る。出力部２４２は、送られた処理信号（評価対象音響信号Ｔ_２）を「劣化信号Ｄ_２」のＬｃｈのデータ（第２重畳信号を含む第２チャネルの第２データ）として出力する。

時間調整処理部２０８は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部２５２に送る。前述のように、遅延量τ’は、例えば、上述の遅延量Ｂ’に対応する。例えば、遅延量Ｂ’または当該遅延量Ｂ’の近似値もしくは補正値（関数値）を遅延量τ’とする。あるいは、遅延量τ’が遅延量Ｃ’に対応してもよい。例えば、τ’がＣ’／２またはＣ’／２の関数値であってもよい。あるいは、遅延量τ’が遅延量Ｂ’および遅延量Ｃ’に対応してもよい。出力部２５２は、時間調整処理部２０８で遅延させた遠端話者音響信号（基準音響信号）を「参照信号Ｅ_１」のＬｃｈのデータ（第２音響信号を含む信号に基づく比較用信号を含む第２チャネルの第４データ）として出力する。以上の処理によっても図４に例示するようなデータ構造を得ることができる。得られたデータ構造はデータ記憶部１８０に格納される。

≪参照信号および特殊信号の生成≫
参照信号Ｅ_２および特殊信号Ｄ_３，Ｄ_４の生成を行う場合、切り替え部２６９ａは時間調整処理部２６４を擬似エコー生成部２６５から切断し、加算部２６７に接続するとともに、擬似エコー生成部２６５を停止させる。通信環境模擬処理部２６０が擬似雑音源２６８および切り替え部２６９ｂを含む場合には、切り替え部２６９ｂは擬似雑音源２６８を加算部２６７から切断し、擬似雑音源２６８を停止させる。

近端話者音響信号記憶部１０１から近端話者音響信号が抽出され、出力部２３１，２４１，２５１、通信環境模擬処理部２６０の入力部２６２、および信号処理部２７０の入力部２７２に送られる。遠端話者音響信号記憶部１０２から遠端話者音響信号が抽出され、時間調整処理部２０８および通信環境模擬処理部２６０の入力部２６１に入力される。

出力部２３１，２４１，２５１は、送られた近端話者音響信号（第１音響信号）を、それぞれ、「特殊信号Ｄ_３」，「特殊信号Ｄ_４」，「参照信号Ｅ_２」のＲｃｈのデータ（第１音響信号を含む第１チャネルの第１データ）として出力する。

通信環境模擬処理部２６０は、入力部２６１および２６２に入力された遠端話者音響信号（第２音響信号）および近端話者音響信号（第１音響信号）に対し、「空間環境を電気的に模擬」しない「通信環境模擬処理」を行い、それによって得られた重畳信号を出力部２６３から出力する。図６の例の場合、入力部２６１に入力された遠端話者音響信号は時間調整処理部２６６に入力され、入力部２６２に入力された近端話者音響信号は時間調整処理部２６４に入力される。時間調整処理部２６６は、当該遠端話者音響信号に遅延量Ｂ’の遅延を与え、それによって得られた信号を加算部２６７に送る（第１時間調整処理）。時間調整処理部２６４は、当該近端話者音響信号に遅延量Ｃ’の遅延を与え、遅延された近端話者音響信号を、加算部２６７に送る（第２時間調整処理）。加算部２６７は第１時間調整処理によって得られた信号と第２時間調整処理によって得られた信号を重畳する。加算部２６７で得られた重畳信号は出力部２６３に送られ、出力部２６３はそれを出力する。前述のように、遅延量Ｂ’は、例えば伝送遅延量Ｂを模擬するものである。一方、遅延量Ｃ’は、例えば遅延量Ｃを模擬するものである。そのため、Ｂ’＜Ｃ’であることが望ましい（例えば、Ｃ’＝２×Ｂ’）。しかしながら、これは本発明を限定するものではなく、Ｂ’＝Ｃ’やＢ’＞Ｃ’または、Ｂ’＝Ｃ’＝０であってもよい。

出力部２６３から出力された重畳信号は、出力部２３２および信号処理部２７０の入力部２７１に入力される。出力部２３２は、送られた重畳信号（評価対象音響信号Ｔ_３）を「特殊信号Ｄ_３」のＬｃｈのデータとして出力する。

信号処理部２７０は、入力部２７１に入力された重畳信号と入力部２７２に入力された近端話者音響信号を用い、前述のように当該重畳信号に信号処理を行って処理信号（第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号に信号処理を行って得られた処理信号に由来する第３重畳信号。例えば、第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号に信号処理を行って得られた処理信号に由来する第３重畳信号）を得る。得られた処理信号（第３重畳信号）は出力部２７３から出力される。出力部２７３は処理信号を出力部２４２に送る。出力部２４２は、送られた重畳信号（評価対象音響信号Ｔ_４：第３重畳信号）を「特殊信号Ｄ_４」のＬｃｈのデータ（第３重畳信号を含む第２チャネルの第３データ）として出力する。

時間調整処理部２０８は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部２５２に送る。出力部２５２は、時間調整処理部２０８で遅延させた遠端話者音響信号を「参照信号Ｅ_２」のＬｃｈのデータ（第２音響信号を含む信号に基づく比較用信号を含む第２チャネルの第４データ）として出力する。得られたデータ構造はデータ記憶部１８０に格納される。

［第２実施形態の変形例］
第２実施形態では、時間調整処理部２０８，２６４，２６６，２７６それぞれの遅延処理により、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間および「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させた。しかしながら、第１実施形態の変形例１，２と同様、このような目的は他の手段によっても実現できる。例えば、遠端話者音響信号記憶部１０２から読み出された遠端話者音響信号を遅延させることなく「参照信号Ｅ_１」「参照信号Ｅ_２」のＬｃｈの基準音響信号として出力部２５２から出力し、近端話者音響信号記憶部１０１から読み出された近端話者音響信号を時間τ’だけ時間的に繰り上げたものを「参照信号Ｅ_１」「参照信号Ｅ_２」のＲｃｈの近端話者音響信号としてもよい。要は、
（１）「劣化信号Ｄ_２」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの評価対象音響信号Ｔ_２に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号Ｅ_１」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、
（２）「特殊信号Ｄ_４」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの評価対象音響信号Ｔ_４に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号Ｅ_２」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、
（３）「劣化信号Ｄ_１」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの評価対象音響信号Ｔ_１に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号Ｅ_１」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、および、
（４）「特殊信号Ｄ_３」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの評価対象音響信号Ｔ_３に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号Ｅ_２」のＲｃｈの近端話者音響信号が出力されてから、そのＬｃｈの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、
の少なくともいずれかを行う１個以上の時間調整処理部を備えていればよい。その他、評価試験の時の処理により、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間および「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。要は、何らかの方法で、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間および「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」および「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ_２」の間で、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。

［第３実施形態］
第３実施形態では、前述のように生成されたデータ構造を用いた品質評価方法を説明する。
＜音響品質評価装置＞
図７に例示するように、本実施形態の音響品質評価装置３は、データ記憶部１８０、集計結果記憶部３０５、再生制御部３０１、表示制御部３０２、集計部３０３、制御部３０４、音響出力処理部３１０−ｎ、表示部３２０−ｎ、および入力部３３０−ｎを有する。ただし、ｎ＝１，・・・，Ｎであり、Ｎは１以上の整数（例えば、Ｎは１以上４以下）である。音響品質評価装置３は、例えば、表示装置（ディスプレイ等）および入力装置（キーボードやマウス等）を備えた前述のような１個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。

＜音響品質評価処理＞
音響品質評価装置３は、前述したデータ構造を用い、制御部３０４の制御のもと、前述した拡声系通信システムでの会話ＭＯＳ試験を模擬した評価試験を行う。

ｎ＝１，・・・，Ｎについて、音響出力処理部３１０−ｎの出力部３１１−ｎに両耳装着型音響再生装置３４０−ｎの一方のチャネルであるＲｃｈ（第１チャネル：例えば右チャネル）が接続され、出力部３１２−ｎに両耳装着型音響再生装置３４０−ｎの他方のチャネルであるＬｃｈ（第２チャネル：例えば左チャネル）が接続される。なお、両耳装着型音響再生装置３４０−ｎとは、一方のチャネルＲｃｈの音を出力する一方の耳専用のスピーカーと、他方のチャネルＬｃｈの音を出力する他方の耳専用のスピーカーと、を備えたステレオ再生可能な音響再生装置である。両耳装着型音響再生装置３４０−ｎの具体例は、ヘッドフォンやイヤホン等である。評価者３５０−ｎは、両耳装着型音響再生装置３４０−ｎを装着し、表示部３２０−ｎから出力される表示内容に従って、両耳装着型音響再生装置３４０−ｎから出力される音の主観評価を行い、評価結果を入力部３３０−ｎに入力する。なお、評価者３５０−ｎは、その利き耳（例えば、左耳）にチャネルＬｃｈの音を出力する側のスピーカーを装着し、利き耳ではない側の耳（例えば、右耳）にチャネルＲｃｈの音を出力する側のスピーカーを装着することが望ましい。以下、これらの処理を詳細に説明する。

再生制御部３０１は、制御部３０４の制御に従い（制御内容は後述）、データ記憶部１８０から前述したデータ構造から「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」「参照信号Ｅ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」の何れかを抽出し、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）に送る。この際に、近端話者音響信号（Ｒｃｈ）の開始時と遠端話者音響信号成分（Ｌｃｈ）の開始時との間の時間区間を一致または近似させるための処理がなされてもよい。音響出力処理部３１０−ｎは、送られた信号に応じて以下の処理を行う。なお、「参照信号Ｅ_１」および「参照信号Ｅ_２」の基準音響信号が表す音を「基準音」とよび、「劣化信号Ｄ_１」および「特殊信号Ｄ_３」の評価対象音響信号Ｔ_１およびＴ_３が表す音、および「劣化信号Ｄ_２」および「特殊信号Ｄ_４」の評価対象音響信号Ｔ_２およびＴ_４が表す音を「評価音」とよぶことにする。

≪「参照信号Ｅ_１」または「参照信号Ｅ_２」が送られた場合≫
「参照信号Ｅ_１」または「参照信号Ｅ_２」が送られた場合、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）は、送られた「参照信号Ｅ_１」または「参照信号Ｅ_２」の近端話者音響信号（第１音響信号）を出力部３１１−ｎから両耳装着型音響再生装置３４０−ｎの一方のチャネルであるＲｃｈ（第１チャネル）に出力しつつ、送られた「参照信号Ｅ_１」または「参照信号Ｅ_２」の基準音響信号を出力部３１２−ｎから両耳装着型音響再生装置３４０−ｎの他方のチャネルであるＬｃｈ（第２チャネル）に出力する（第１処理）。

≪「劣化信号Ｄ_１」が送られた場合≫
「劣化信号Ｄ_１」が送られた場合、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）は、送られた「劣化信号Ｄ_１」の近端話者音響信号（第１音響信号）を出力部３１１−ｎから両耳装着型音響再生装置３４０−ｎのＲｃｈ（第１チャネル）に出力しつつ、送られた「劣化信号Ｄ_１」の評価対象音響信号Ｔ_１（第２重畳信号）を出力部３１２−ｎから両耳装着型音響再生装置３４０−ｎのＬｃｈ（第２チャネル）に出力する（第２処理）。

≪「劣化信号Ｄ_２」が送られた場合≫
「劣化信号Ｄ_２」が送られた場合、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）は、「劣化信号Ｄ_２」の近端話者音響信号（第１音響信号）を出力部３１１−ｎから両耳装着型音響再生装置３４０−ｎのＲｃｈ（第１チャネル）に出力しつつ、「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２（第２重畳信号）を出力部３１２−ｎから両耳装着型音響再生装置３４０−ｎのＬｃｈ（第２チャネル）に出力する（第２処理）。

≪「特殊信号Ｄ_３」が送られた場合≫
「特殊信号Ｄ_３」が送られた場合、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）は、送られた「特殊信号Ｄ_３」の近端話者音響信号（第１音響信号）を出力部３１１−ｎから両耳装着型音響再生装置３４０−ｎのＲｃｈ（第１チャネル）に出力しつつ、送られた「特殊信号Ｄ_３」の評価対象音響信号Ｔ_３を出力部３１２−ｎから両耳装着型音響再生装置３４０−ｎのＬｃｈ（第２チャネル）に出力する。
≪「特殊信号Ｄ_４」が送られた場合≫
「特殊信号Ｄ_４」が送られた場合、音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）は、送られた「特殊信号Ｄ_４」の近端話者音響信号（第１音響信号）を出力部３１１−ｎから両耳装着型音響再生装置３４０−ｎのＲｃｈ（第１チャネル）に出力しつつ、送られた「特殊信号Ｄ_４」の評価対象音響信号Ｔ_４（第３重畳信号）を出力部３１２−ｎから両耳装着型音響再生装置３４０−ｎのＬｃｈ（第２チャネル）に出力する（第３処理）。

表示制御部３０２は、制御部３０４の制御に従い（制御内容は後述）、表示部３２０−ｎ（ただし、ｎ＝１，・・・，Ｎ）に表示情報を送る。表示部３２０−ｎは、送られた表示情報に従い、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての２段階以上の度合いと、の組み合わせからなる３段階以上のカテゴリーを含む評価カテゴリーを表示する。評価者３５０−ｎは、この表示に従って両耳装着型音響再生装置３４０−ｎから出力された音を主観評価する。ここで「基準音」は、遠端話者から理想的な状態で受信した音響信号に相当する。近端話者からの直接音に相当する「近端話者音」と合わせて提示することで、拡声系通信システムの理想的な状態を模擬することができる。「近端話者音」を「基準音響信号」と同時に提示することで、近端話者の音声の回り込み（音響エコー）と、遠端話者の音声を区別しやすくなる。「評価音」を常に「基準音」と比較することで、評価対象とする通信システムがどれだけ理想的な状態に近いか、または異なる状態であるか、を客観的に、かつ主観的に評価することができる。「評価音」のみを提示して評価すると、遠端話者の言いよどみや、遠端話者の周囲騒音などが劣化要因として判断され、低く評価される可能性が高い。常に「基準音」と比較することで、通信システム以外の劣化要因が評価対象から排除され、ばらつきの少ない、的確な評価値を得ることができる。また、この評価カテゴリーは、基準音に対する評価音の劣化のみならず、評価音の聞き取りにくさ（聞き取り易さ）に対する評価基準を定めたものである。このように、評価音の基準音からの劣化度と聞き取りやすさの度合いを組み合わせた評価カテゴリーを表示することで、従来のＤＣＲ（劣化カテゴリ評価）のように劣化のみに着目した評価カテゴリーを表示する場合に比べ、どのような基準で評価を行えばよいかが明確になり、複数の要因が複雑に絡み合うような環境でも評価ばらつきを小さくすることができる。また、評価音の聞き取り「にくさ」についての評価基準（否定的な評価基準）を表示することで、評価音の聞き取り「易さ」についての評価基準（肯定的な評価基準）を表示する場合に比べて評価者３５０−ｎの選択が厳密になり、評価精度が向上する。これは生理学上の自然法則に基づく。

好ましくは、評価カテゴリーは、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての３段階以上の度合いと、の組み合わせからなる４段階以上のカテゴリーを含む。評価音の聞き取りにくさについての３段階以上の度合いについての評価基準を定めることで、評価精度をより向上させることができる。特に、評価カテゴリーは、基準音と評価音との違いが分からないことを表す１段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての４段階の度合いとの組み合わせからなる４段階のカテゴリーとを含むことが望ましい。以下に評価カテゴリーの具体例を示す。
なお、「基準音と違いが分からない」「違いはあるが」「違いがあり」は「基準音と評価音との違いが分かるか否か」を表し、「聞き取りには問題がない」「少し聞き取りにくい」「聞き取りにくい」「非常に聞き取りにくい」は「評価音の聞き取りにくさについての度合い」を表す。この例の各評価カテゴリーには１から５の評価を表す値が対応付けられており、この値が大きいほど品質が高いことを表す。ここでは、「基準音」が理想的な状態であるとしてカテゴリーを設定したが、評価対象とする通信システムのノイズキャンセラ等の効果によって、「評価音」が「基準音」よりも評価が高くなる状態も考えられる。この場合は、さらに上位のカテゴリーとして「違いはあるが、聞き取りやすい」を含めてもよい。

以下に従来のＤＣＲ（劣化カテゴリ評価）で用いられていた劣化のみに着目した評価カテゴリーを示す。表１の評価カテゴリーと比べて主観的・内面的な表現が多いことが分かる。

さらに、表示制御部３０２が出力する表示情報が、評価音の聞き取り易さの評価を指示するための情報を含み、表示部３２０−ｎが、さらに評価音の聞き取り易さの評価を指示するための表示（「何を評価するか」を表す表示）を行ってもよい。例えば、表示部３２０−ｎは「評価音の『女声（左側）』の聞き取り易さ、を評価してください」と表示してもよい。この例において左側とは「参照信号」「劣化信号Ｄ_１」「劣化信号Ｄ₂」におけるＬｃｈ（第２チャネル）側のスピーカーの出力を指している。上述のように、評価カテゴリーは、基準音と評価音との違いが分かるか否かと評価音の聞き取りにくさについての度合いとの組み合わせからなる。生理学上、人間は違いの有無には敏感であり、特に注意をしていなくても基準音と評価音との違いの有無を評価することができる。一方、聞き取り易さについては注意をしていないと適切な評価を行うことができない。このような自然法則に基づき、表示部３２０−ｎが、さらに評価音の聞き取り易さの評価を指示するための表示を行うことで、評価精度を向上できたり、評価ばらつきを低減できたりする。なお、何を評価するかを表す表示として「評価音の聞き取り『にくさ』の評価を指示するための表示」を行った場合、生理学上、評価者３５０−ｎは詳細な点に注目しすぎてしまい、「聞き取り易さ」への影響が小さな劣化をも評価してしまう傾向がある。何を評価するかを表す表示として「評価音の聞き取り『易さ』の評価を指示するための表示」することで、評価者３５０−ｎの評価が適切になり、評価精度を向上できたり、評価ばらつきを低減できたりする。

さらに、表示制御部３０２が出力する表示情報が、何に着目するかを表示するための情報を含み、表示部３２０−ｎが「何に着目するか」を表示してもよい。例えば、表示部３２０−ｎは、上述の「第１処理」の際に基準音に着目する旨の指示を表す表示を行い、「第２処理」や「第３処理」の際に評価音に着目する旨の指示を表す表示を行ってもよい。例えば、表示部３２０−ｎは、「第１処理」の際に「基準音（１）：『女声（左側）』に着目してください」との表示を行い、「劣化信号Ｄ_１」を出力する「第２処理」の際に「評価音（１）：『女声（左側）』に着目してください」との表示を行い、「劣化信号Ｄ_２」を出力する「第２処理」の際に「評価音（２）：『女声（左側）』に着目してください」との表示を行ってもよい。同様に、表示部３２０−ｎは、「特殊信号Ｄ_３」を出力する際に「評価音（１）：『女声（左側）』に着目してください」との表示を行い、「特殊信号Ｄ_４」を出力する「第３処理」の際に「評価音（２）：『女声（左側）』に着目してください」との表示を行ってもよい。これにより、評価対象を明らかにし、評価者３５０−ｎを評価対象音響信号（遠端話者音響信号側）に着目させるとともに、評価者３５０−ｎを近端話者音響信号側に着目させないようにすることができる。また、音響出力処理部３１０−ｎから出力される信号に応じて、表示部３２０−ｎから表示される「何に着目するか」「何を評価するか」の表示が変わることで、評価対象音響信号の発生タイミングを視覚的に認識させることができる。

主観評価を行った評価者３５０−ｎは、評価カテゴリーから選択したカテゴリーを表す情報（第２重畳信号および第３重畳信号に対する評価結果を表す情報）である評価値Ｉ−ｎを入力部３３０−ｎに入力する。図８に表示部３２０−ｎが表示する表示画面３２１を例示する。この表示画面３２１は、「何に着目するか」を表示する着目内容提示部３２１１、「何を評価するか」を表示する評価指示提示部３２１２、評価カテゴリーを表示する評価カテゴリー提示部３２１３、評価を表す値「１」〜「５」（評価値Ｉ−ｎ）の入力のためにタッチまたはクリックされるアイコン３２１４〜３２１８、入力確定のためにタッチまたはクリックされるアイコン３２１９を含む。なお、図８のように、アイコン３２１４〜３２１９の並びは一列であることが望ましい。評価者３５０−ｎは、着目内容提示部３２１１、評価指示提示部３２１２、評価カテゴリー提示部３２１３の表示に従い、両耳装着型音響再生装置３４０−ｎから出力された音を主観評価し、評価に対応するアイコン３２１４〜３２１８の何れかをタッチまたはクリックし、確定のためのアイコン３２１９をタッチまたはクリックする。アイコン３２１４〜３２１９がアクティブでアイコン３２１９がタッチまたはクリックされるまでは、評価者３５０−ｎはアイコン３２１４〜３２１８を何度も選び直すタッチまたはクリック操作が可能である。これにより、評価カテゴリーから選択されたカテゴリーを表す評価値Ｉ−ｎが入力部３３０−ｎに入力される。なお、評価条件を同一とするため、上述の評価試験は、すべての評価者３５０−ｎ（ただし、ｎ＝１，・・・，Ｎ）によって同時に実行されることが望ましい。一定時間以上評価が確定しない評価者がいる場合は、その評価者に対して確定を促す画面表示と、他の評価者に対しては待たせる画面表示を行ってもよい。

入力部３３０−ｎに入力された評価値Ｉ−ｎは集計部３０３に送られる。集計部３０３は、評価値Ｉ−ｎを集計し、それによって得られた集計結果を集計結果記憶部３０５に格納する。例えば、集計結果は、評価者３５０−ｎを表すＩＤ、評価試験に用いられた「劣化信号Ｄ_２」や「特殊信号Ｄ_４」等の音響信号やその条件とともに格納される。評価値Ｉ−ｎの集計結果は、評価値Ｉ−ｎの集合であってもよいし、評価試験に用いられた音響信号ごとでの最大値、最小値、平均値、分散値等であってもよい。評価内容に疑いがある評価者３５０−ｎに対応する評価値Ｉ−ｎを除外してから求めた最大値、最小値、平均値、分散値等を集計結果としてもよい。その他、他の処理装置でさらに詳しい分析が行われてもよい。

≪制御部３０４の制御内容≫
次に、図９から図１３を用い、制御部３０４の制御内容を例示する。これらの図の横軸は時間軸を表し、紙面の右に向かうほど後の時間を表す。これらの図の「Ｌｃｈ」の行は、両耳装着型音響再生装置３４０−ｎのＬｃｈ側のスピーカーから出力させる音を表し、「Ｒｃｈ」の行は、両耳装着型音響再生装置３４０−ｎのＲｃｈ側のスピーカーから出力させる音を表す。これらの図の「３２１１」の列は、着目内容提示部３２１１の提示内容（何に着目するか）を表し、「３２１２」の列は、評価指示提示部３２１２の提示内容（何を評価するか）を表し、「３２１３」の列は、評価カテゴリー提示部３２１３の提示内容（評価カテゴリー）を表す。

≪図９の例≫
図９の例では、まず、再生制御部３０１がデータ記憶部１８０から「参照信号Ｅ_１」を読み込み、それを音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）に送る。音響出力処理部３１０−ｎは、出力部３１２−ｎから「参照信号Ｅ_１」の基準音響信号を出力し、出力部３１１−ｎから「参照信号Ｅ_１」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置３４０−ｎのＬｃｈからは基準音響信号が表す「基準音」が出力され、Ｒｃｈからは近端話者からの直接音に相当する「近端話者音」が出力される。この際、表示制御部３０２は、着目内容Ｆ_１および評価カテゴリーを表す表示情報を表示部３２０−ｎに送る。なお、着目内容Ｆ_１は、基準音（Ｌｃｈ）に着目する旨の指示を表す内容（例えば「基準音（１）：「女声（左側）」に着目してください」）を意味する。また、評価カテゴリーは、前述の「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての２段階以上の度合いと、の組み合わせからなる３段階以上のカテゴリーを含む評価カテゴリー」である。表示部３２０−ｎは、着目内容Ｆ_１を着目内容提示部３２１１に提示し、評価カテゴリーを評価カテゴリー提示部３２１３に提示する（ステップＳ１）。

次に、再生制御部３０１がデータ記憶部１８０から「劣化信号Ｄ_２」を読み込み、それを音響出力処理部３１０−ｎ（ただし、ｎ＝１，・・・，Ｎ）に送る。音響出力処理部３１０−ｎは、出力部３１２−ｎから「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２を出力し、出力部３１１−ｎから「劣化信号Ｄ_２」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置３４０−ｎのＬｃｈからは「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２が表す「評価音」が出力され、Ｒｃｈからは近端話者音響信号が表す「近端話者音」が出力される。この際、表示制御部３０２は、着目内容Ｆ_２、評価指示Ｓ_１、および、評価カテゴリーを表す表示情報を表示部３２０−ｎに送る。なお、着目内容Ｆ_２は、評価音（Ｌｃｈ）に着目する旨の指示を表す内容（例えば「評価音（１）：『女声（左側）』に着目してください」）を意味する。評価指示Ｓ_１は、評価音（Ｌｃｈ）の聞き取り易さの評価の指示（例えば「評価音の『女声（左側）』の聞き取り易さ、を評価してください」）を意味する。表示部３２０−ｎは、着目内容Ｆ_２を着目内容提示部３２１１に提示し、評価指示Ｓ_１を評価指示提示部３２１２に提示し、評価カテゴリーを評価カテゴリー提示部３２１３に提示する（ステップＳ２）。

さらに、ステップＳ１をもう一度実行し（ステップＳ３）、さらにステップＳ２をもう一度実行してもよい（ステップＳ４）。また、ステップＳ１、ステップＳ２の繰り返しを３回以上としてもよい。

その後、アイコン３２１４〜３２１９をアクティブにして、入力部３３０−ｎからの評価値Ｉ−ｎおよび確定の旨の入力を受け付ける（ステップＳ５）。

さらに、ステップＳ１〜Ｓ４の少なくとも何れかの「劣化信号Ｄ_２」を「劣化信号Ｄ_１」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_１」に置換した処理が実行されてもよい。ステップＳ１〜Ｓ４の少なくとも何れかの「劣化信号Ｄ_２」を「特殊信号Ｄ_３」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_３」に置換した処理が実行されてもよい。ステップＳ１〜Ｓ４の少なくとも何れかの「劣化信号Ｄ_２」を「特殊信号Ｄ_４」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_４」に置換した処理が実行されてもよい。ステップＳ１〜Ｓ４の少なくとも何れかの「参照信号Ｅ_１」を「参照信号Ｅ_２」に置換した処理が実行されてもよい。ただし、ステップＳ１〜Ｓ４で出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号（参照信号、および劣化信号または特殊信号）に対応する。例えば、ステップＳ１で出力される「基準音」が「参照信号Ｅ_１」に対応する場合、ステップＳ２で出力される「評価音」は「劣化信号Ｄ_１」または「劣化信号Ｄ_２」に対応し、ステップＳ３で出力される「基準音」が「参照信号Ｅ_１」に対応する場合、ステップＳ４で出力される「評価音」は「劣化信号Ｄ_１」または「劣化信号Ｄ_２」に対応する。例えば、ステップＳ１で出力される「基準音」が「参照信号Ｅ_２」に対応する場合、ステップＳ２で出力される「評価音」は「特殊信号Ｄ_３」または「特殊信号Ｄ_４」に対応し、ステップＳ３で出力される「基準音」が「参照信号Ｅ_２」に対応する場合、ステップＳ４で出力される「評価音」は「特殊信号Ｄ_３」または「特殊信号Ｄ_４」に対応する。また、評価カテゴリー提示部３２１３の評価カテゴリーの提示はステップＳ１〜Ｓ５を通して継続的に行われてもよいし、各ステップが終了するたびに評価カテゴリーの提示が消えてもよい。

≪図１０の例≫
図１０の例では、「基準音」、評価対象音響信号Ｔ_１が表す「評価音」、および評価対象音響信号Ｔ_２が表す「評価音」のうち、対比を行う一組の音をランダムに選択し、選択した音を順番に出力する。

以下に処理の具体例を示す。
まず再生制御部３０１は、「参照信号Ｅ_１」「劣化信号Ｄ_１」「劣化信号Ｄ_２」から、対比する組をランダムに選択する。対比する組の例は、「参照信号Ｅ_１」と「劣化信号Ｄ_１」とからなる組、「参照信号Ｅ_１」と「劣化信号Ｄ_２」とからなる組、「劣化信号Ｄ_１」と「劣化信号Ｄ_２」とからなる組である。対比する組を構成する信号のうち、先に出力する信号を「第１出力信号」とよび、後に出力する信号を「第２出力信号」とよぶ。対比する組を構成する信号のうち何れを先に出力してもかまわない。例えば、「参照信号Ｅ_１」と「劣化信号Ｄ_１」とからなる組を対比する場合、「参照信号Ｅ_１」を「第１出力信号」とし、「劣化信号Ｄ_１」を「第２出力信号」としてもよいし、「参照信号Ｅ_１」を「第２出力信号」とし、「劣化信号Ｄ_１」を「第１出力信号」としてもよい。

次に、Ｌｃｈから「第１出力信号」に対応する「基準音または評価音」が出力され、Ｒｃｈから「第１出力信号」に対応する「近端話者音」が出力される（ステップＳ２１）。「第１出力信号」が「参照信号Ｅ_１」である場合のステップＳ２１の処理は、前述のステップＳ１と同じである。「第１出力信号」が「劣化信号Ｄ_２」である場合のステップＳ２１の処理は、評価指示Ｓ_１を評価指示提示部３２１２に提示しない以外、前述のステップＳ２と同じである。「第１出力信号」が「劣化信号Ｄ_１」である場合のステップＳ２１の処理は、前述のステップＳ２の処理において「劣化信号Ｄ_２」を「劣化信号Ｄ_１」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_１」に置換し、評価指示Ｓ_１を評価指示提示部３２１２に提示しないこととした処理である。

次にＬｃｈから「第２出力信号」に対応する「基準音または評価音」が出力され、Ｒｃｈから「第２出力信号」に対応する「近端話者音」が出力される（ステップＳ２２）。「第２出力信号」が「参照信号Ｅ_１」である場合のステップＳ２２の処理は、前述のステップＳ１に加え、評価指示Ｓ_１を評価指示提示部３２１２に提示する処理を行うものである。「第２出力信号」が「劣化信号Ｄ_２」である場合のステップＳ２１の処理は、前述のステップＳ２と同じである。「第２出力信号」が「劣化信号Ｄ_１」である場合のステップＳ２１の処理は、前述のステップＳ２の処理において「劣化信号Ｄ_２」を「劣化信号Ｄ_１」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_１」に置換した処理である。最後に、評価値の入力とその確定が行われる（ステップＳ５）。

また、ステップＳ２１，２２において、「参照信号Ｅ_１」を「参照信号Ｅ_２」に置換し、「劣化信号Ｄ_１」を「特殊信号Ｄ_３」に置換し、「劣化信号Ｄ_２」を「特殊信号Ｄ_４」に置換してもよい。ただし、ステップＳ２１，２２で出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号（参照信号、および劣化信号または特殊信号）に対応する。その他、ステップＳ２１，２２の変形例として、Ｌｃｈから出力されている音が「基準音」であるか「評価音」であるかを提示しないこととしてもよい。すなわち、着目内容Ｆ_１および着目内容Ｆ_２に代えて、Ｌｃｈに着目する旨の指示を表す内容（例えば「『女声（左側）』に着目してください」）を提示してもよい。この場合、評価者３５０−ｎは提示されている音が「基準音」であるか「評価音」であるかを知らされることなく、主観評価を行うことになる。

≪図１１の例≫
図１１の例では、１回目に「基準音」が出力され、２回目および３回目にそれぞれ「隠された基準音」または評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力される。ここで、２回目に「隠された基準音」が出力された場合、３回目には評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力される（パターン１）。一方、２回目に評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力された場合、３回目に「隠された基準音」が出力される（パターン２）。なお、「隠された基準音」とは、「基準音」であることを示さずに出力する「基準音」を意味する。また、パターン１とするかパターン２とするかはランダムに定められる。以下に処理の具体例を示す。

まず、Ｌｃｈから「参照信号Ｅ_１」に対応する「基準音」が出力され、Ｒｃｈから「参照信号Ｅ_１」に対応する「近端話者音」が出力される（ステップＳ３１）。ステップＳ３１の処理は、前述のステップＳ２１と同じである。

次に、再生制御部３０１は、パターン１とするかパターン２とするかをランダムに選択する。
パターン１が選択された場合、まず、Ｌｃｈから「参照信号Ｅ_１」に対応する「隠された基準音」が出力され、Ｒｃｈから「参照信号Ｅ_１」に対応する「近端話者音」が出力され（ステップＳ３２）、次に、Ｌｃｈから「劣化信号Ｄ_１」の評価対象音響信号Ｔ_１が表す「評価音」もしくは「劣化信号Ｄ_２」の評価対象音響信号Ｔ_２が表す「評価音」が出力され、Ｒｃｈから「劣化信号Ｄ_１」もしくは「劣化信号Ｄ_２」に対応する「近端話者音」が出力される（ステップＳ３３）。
一方、パターン２が選択された場合、Ｌｃｈから評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力され、Ｒｃｈから「劣化信号Ｄ_１」もしくは「劣化信号Ｄ_２」に対応する「近端話者音」が出力され（ステップＳ３２）、次に、Ｌｃｈから「参照信号Ｅ_１」に対応する「隠された基準音」が出力され、Ｒｃｈから「参照信号Ｅ_１」に対応する「近端話者音」が出力される（ステップＳ３３）。

Ｌｃｈから「参照信号Ｅ_１」に対応する「隠された基準音」を出力し、Ｒｃｈから「参照信号Ｅ_１」に対応する「近端話者音」を出力する処理は、着目内容Ｆ_２に代えて着目内容Ｆ_１を着目内容提示部３２１１に提示し、評価指示Ｓ_１を評価指示提示部３２１２に提示する以外は、前述のステップＳ１と同じである。また、Ｌｃｈから評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」を出力し、Ｒｃｈから「劣化信号Ｄ_１」もしくは「劣化信号Ｄ_２」に対応する「近端話者音」を出力する処理は、前述のステップＳ２の処理、またはステップＳ２の処理において「劣化信号Ｄ_２」を「劣化信号Ｄ_１」に置換し、「評価対象音響信号Ｔ_２」を「評価対象音響信号Ｔ_１」に置換した処理と同じである。

最後に、評価値の入力とその確定が行われる（ステップＳ５）。ただし、評価者３５０−ｎは、ステップＳ３２，Ｓ３３で出力された音のうち、どちらが評価音かを判断し、評価音と判断した音に対してのみ評価値を入力する。評価音と判断されなかった音については自働的に「隠された基準音」と判断したとみなされ、隠された基準音に対する評価値「５」が付与される。また、評価者３５０−ｎが入力部３３０−ｎに指示入力を行うことにより、ステップＳ５の前に、ステップＳ３１〜Ｓ３３を所望の順序で何度でも実行できる構成であってもよい。また、ステップＳ３１〜３１において、「参照信号Ｅ_１」を「参照信号Ｅ_２」に置換し、「劣化信号Ｄ_１」を「特殊信号Ｄ_３」に置換し、「劣化信号Ｄ_２」を「特殊信号Ｄ_４」に置換してもよい。ただし、ステップＳ３１〜３１で出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号（参照信号、および劣化信号または特殊信号）に対応する。

≪図１２の例≫
図１２の例でも、１回目に「基準音」が出力され、２回目および３回目にそれぞれ、ランダムに選択されたパターン１またはパターン２に従い、「隠された基準音」または評価対象音響信号Ｔ_１が表す「評価音」もしくは評価対象音響信号Ｔ_２が表す「評価音」が出力される。ただし、２回目および３回目の出力時にそれぞれに対する評価値が入力され（ステップＳ１３２，Ｓ１３３）、最後に評価値の確定入力のみがなされる（ステップＳ１０５）。なお、評価者３５０−ｎは、ステップＳ１３２，Ｓ１３３で出力された音のうち、「隠された基準音」と判断したほうに評価値「５」を入力し、「評価音」と判断したほうに自らの評価値を入力する。その他の詳細は、図１１の例と同じである。また、ステップＳ３１，Ｓ１３２，Ｓ１３３において、「参照信号Ｅ_１」を「参照信号Ｅ_２」に置換し、「劣化信号Ｄ_１」を「特殊信号Ｄ_３」に置換し、「劣化信号Ｄ_２」を「特殊信号Ｄ_４」に置換してもよい。ただし、ステップＳ３１，Ｓ１３２，Ｓ１３３で出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号（参照信号、および劣化信号または特殊信号）に対応する。

≪図１３の例≫
図１３では、１回目に「基準音」が出力され（ステップＳ４１）、２回目からｘ＋１回目（ｘは３以上の整数（例えばｘは１４以下））に「評価音１」から「評価音ｘ」が出力され（ステップＳ４２−１〜Ｓ４２−ｘ）、評価値の入力とその確定が行われる（ステップＳ５）。なお、「評価音１」から「評価音ｘ」は、評価対象音響信号Ｔ_１が表す「評価音」および評価対象音響信号Ｔ_２が表す「評価音」の少なくとも一方、１個の「隠された基準音」、１個以上の「アンカー音」を含む。なお、「アンカー音」とは悪い音響品質の基準となる音を表す。複数のアンカー音を含む場合は、段階的に悪くなる音響品質の基準を用いてよい。また、ステップＳ５では、ステップＳ４２−１〜Ｓ４２−ｘで出力された音それぞれの評価値が入力される。また、「評価音１」から「評価音ｘ」の出力順序はランダムに定められる。ただし、評価者３５０−ｎが入力部３３０−ｎに指示入力を行うことにより、ステップＳ５の前に、ステップＳ４２−１〜Ｓ４２−ｘを所望の順序で何度でも実行できる構成であってもよい。その他は、図１１の例と同様である。また、ステップＳ４１，Ｓ４２−１〜Ｓ４２−ｘにおいて、「参照信号Ｅ_１」を「参照信号Ｅ_２」に置換し、「劣化信号Ｄ_１」を「特殊信号Ｄ_３」に置換し、「劣化信号Ｄ_２」を「特殊信号Ｄ_４」に置換してもよい。ただし、ステップＳ４１，Ｓ４２−１〜Ｓ４２−ｘで出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号（参照信号、および劣化信号または特殊信号）に対応する。

［第３実施形態の変形例１］
図７に例示するように、各入力部３３０−ｎと集計部３０３との間に評点記録部３３０−ｎが配置されていてもよい。各評点記録部３３０−ｎは、各入力部３３０−ｎから入力された評価値Ｉ−ｎを格納し、集計部３０３は、各評点記録部３３０−ｎから評価値Ｉ−ｎを抽出し、それによって得られた集計結果を集計結果記憶部３０５に格納する。各評価者３５０−ｎによって入力された評価値Ｉ−ｎを評点記録部３３０−ｎに記録しておくことにより、試験終了後または評価試験中に、異常な評価値Ｉ−ｎ（例えば、評価試験中に評価者３５０−ｎが眠っていたときの評価値Ｉ−ｎ、評価者３５０−ｎが間違えて入力した評価値Ｉ−ｎなど）を評点記録部３３０−ｎから除外し、正常な評価値Ｉ−ｎのみを用いて集計結果を生成することができる。また、評価試験中であれば、異常な評価値Ｉ−ｎを入力した評価者３５０−ｎについて再評価試験を行い、正常な評価値Ｉ−ｎを得て評点記録部３３０−ｎに格納された値を更新してもよい。

［第４実施形態］
本発明者は、第３実施形態で得られる主観評価値（基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての５段階評価に基づくＭＯＳ値（表１に例示））と、ＰＥＳＱ値（基準音響信号と、当該基準音響信号を含む信号に基づく評価対象音響信号と、に対するＰＥＳＱ値）との関係が線形関係に近似できることを見出した（特許文献１〜３等参照）。この知見に基づき、自動的に算出されたＰＥＳＱ値を用い、煩雑な主観評価や計算量の多い非線形演算を行うことなく、演算量の少ない線形演算でＭＯＳ値を推定できる。

しかし、特許文献１〜３では、拡声系通信システムの実環境を模擬した環境で収録されたデータ（劣化信号Ｄ_１，Ｄ_２）を用いて評価試験を行っていたため、高音質のデータに対する評価試験を行うことができなかった。そのため、高音質のデータでもＭＯＳ値とＰＥＳＱ値との関係が線形関係に近似できることは確認されていなかった。また、低音質のデータに対する評価も不十分であったため、低音質のデータでもＭＯＳ値とＰＥＳＱ値との関係が線形関係に近似できるかについても十分確認されていなかった。これに対し、本発明の第１，２実施形態では、「第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号に信号処理を行って得られた処理信号に由来する第３重畳信号を含む第２チャネルの第３データ」、例えば「第１音響信号に由来する信号と第２音響信号とに基づく重畳信号であって、第２端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号に信号処理を行って得られた処理信号に由来する第３重畳信号を含む第２チャネルの第３データ」を生成した。そのため、従来確認できなかった高音質のデータ（特殊信号Ｄ_４）でもＭＯＳ値とＰＥＳＱ値との関係が線形関係に近似できるか否かを確認できるようになった。また、低音質のデータは、第２実施形態で説明した通信環境模擬処理部２６０（図２Ｂ）の擬似エコー生成部２６５で得られる擬似エコー信号や擬似雑音源２６８で得られる擬似雑音信号の振幅を増加させることで生成できる。そのため、従来確認していなかった低音質のデータでもＭＯＳ値とＰＥＳＱ値との関係が線形関係に近似できるか否かを確認できる。

図１５は、「参照信号Ｅ_１」「参照信号Ｅ_２」「劣化信号Ｄ_１」「劣化信号Ｄ_２」「特殊信号Ｄ_３」「特殊信号Ｄ_４」を用い、第３実施形態で例示した評価試験を行って得られたＭＯＳ値（ＤＭＯＳ（Degradation MOS）値）と、それらに対応する「基準音響信号」および「評価対象音響信号Ｔ_１〜Ｔ_４」から得られたＰＥＳＱ値との関係を表したグラフである。縦軸はＭＯＳ値（ＤＭＯＳ値）を表し、横軸はＰＥＳＱ値を表す。小さなダイヤ形のマークは主観評価試験による測定値を表し、破線直線上の大きな正方形のマークはそれらの線形関係に基づいた推定値（回帰分析で推定した値）を表す。この図に示すように、高音質のデータ（ＰＥＳＱ値が３．５以上）でも、ＭＯＳ値とそれに対応するＰＥＳＱ値との関係を線形関係で近似できることが分かる。また、低音質のデータでも、大方、ＭＯＳ値とそれに対応するＰＥＳＱ値との関係を線形関係で近似できることが分かる。しかしながら、低音質のデータの中には、この線形関係で近似できないものも存在する（図１５の領域ｒのデータ）。発明者は、この現象がＰＥＳＱ値の算出時に実行される「時間ずれの補正処理」の誤りに起因することを見出した。すなわち、「基準音響信号」と当該「基準音響信号」を含む信号に基づく「評価対象音響信号」とに対するＰＥＳＱ値を算出する場合、「基準音響信号」と「評価対象音響信号」との間の時間ずれ（例えば、遅延により生じた基準音響信号と評価対象音響信号の語頭若しくは話頭のずれ）が自動的に補正される（例えば、参考文献３「ITU-T Recommendation P.862」等参照）。本来、この補正は、「基準音響信号」の開始時間（例えば、図４の時間ｃ）と、「評価対象音響信号」が含む「基準音響信号」成分（遠端話者音響信号成分）の開始時間（例えば、図４の時間ｃ’）と、の間の時間ずれの削減を目的としている。「基準音響信号」の開始時間と「評価対象音響信号」が含む「基準音響信号」成分の開始時間との間の時間ずれが小さいほど、「基準音響信号」と「評価対象音響信号」が含む「基準音響信号」成分との間の類似度を正確に評価でき、ＰＥＳＱ値を正しく算出できるからである。しかし、低音質のデータの中には、「評価対象音響信号」に含まれるエコー成分（近端話者音響信号に基づく回り込み成分）の比率が大きいものも存在する。このようなデータの場合、「評価対象音響信号」に含まれるエコー成分の開始時間が「基準音響信号」成分の開始時間であると誤って判断され、「基準音響信号」の開始時間とエコー成分の開始時間との時間合わせが行われてしまう場合がある。例えば、図４の「劣化信号Ｄ_１」の「評価対象音響信号Ｔ_１」はエコー成分がキャンセルされていないため、「評価対象音響信号Ｔ_１」が含む「基準音響信号」成分の開始時間ｃ’をうまく検出できない場合がある。このような場合、「評価対象音響信号Ｔ_１」の開始時間ｅが「基準音響信号」成分の開始時間ｃ’であると誤って判断され、「基準音響信号」の開始時間ｃと「評価対象音響信号Ｔ_１」の開始時間ｅとの間の時間ずれが補正されてしまう。その結果、実際よりも悪い（小さい）ＰＥＳＱ値が算出されてしまい、ＭＯＳ値とＰＥＳＱ値との関係が所定の線形関係から乖離してしまう（図１５の領域ｒのデータ）。このような誤った判断によって補正される時間ずれの大きさは、正しい判断によって補正される時間ずれの大きさよりも大きい。そのため、補正された時間ずれの大きさによってＰＥＳＱ値の信頼性を判断でき、さらには上述の線形関係を用いて当該ＰＥＳＱ値からＭＯＳ値を推定できるのかを判断できる。図１６は、図１５のデータから、補正された時間ずれの大きさが所定値を超えたデータを取り除いたものである。このように補正された時間ずれの大きさが所定値を超えたデータを取り除くことで、低音質のデータが含まれていても、ＭＯＳ値とそれに対応するＰＥＳＱ値との関係を線形関係で近似できる。

以上より、ＰＥＳＱ値の算出値に行われる時間ずれの補正の大きさが所定値以下の場合には、上述の線形関係を用いて当該ＰＥＳＱ値からＭＯＳ値を推定し、そうでない場合には当該ＰＥＳＱ値を破棄することにすれば、高い精度でＭＯＳ値を推定できる。特に、「基準音響信号」の開始時間と「評価対象音響信号」に含まれた「評価対象音響信号の成分」の開始時間とが同一または近似していることが好ましく、この場合にはより高い精度でＭＯＳ値を推定できる。なお、αとβとが近似するとは、αとβとの差分が｜α｜のγ％以下であることを意味する。γ％の例は１０％または２０％である。より具体的には、例えば、事前に得られた「基準音響信号」と「評価対象音響信号」とから上述の線形関係を表す線形関数Ｆを定式化しておく。この線形関数Ｆは、例えば所定の傾きａおよび切片ｂを持つ一次関数ｙ＝ａ×ｘ＋ｂである。ただし、ｘはＰＥＳＱ値を表し、ｙはＭＯＳ値を表す。ａは１．３または１．３の近傍であり、ｂは‐０．３または‐０．３の近傍である。なお、αの近傍とはα‐δ_１以上α‐δ_２以下の範囲に属する値を意味する。ただし、δ_１およびδ_２は正値であり、δ_１＝δ_２であってもよいし、δ_１≠δ_２であってもよい。δ_１およびδ_２の例は｜α｜の１０％または２０％の値である。例えば、ａ＝１．３３であり、ｂ＝−０．２７である。新たな「基準音響信号」と「評価対象音響信号」とからＰＥＳＱ値が算出され、その際に補正された「基準音響信号」と「評価対象音響信号」との間の時間ずれの大きさが所定値以下の場合に、そのＰＥＳＱ値がこの線形関数に代入されてＭＯＳ値が算出される。補正された時間ずれの大きさが所定値よりも大きい場合には、得られたＰＥＳＱ値が破棄される。これにより、自動的に算出されたＰＥＳＱ値を用い、煩雑な主観評価や計算量の多い非線形演算を行うことなく、高い精度のＭＯＳ値を推定できる。

＜構成＞
図１４に例示するように、本実施形態の音響品質評価装置４は、ＰＥＳＱ算出部４１、線形変換部４２、および判定部４３を有する。音響品質評価装置４は、例えば、前述のような１個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。

＜前処理＞
音響品質評価処理の前処理として、「基準音響信号」と当該「基準音響信号」を含む信号に基づく「評価対象音響信号」との組をリファレンス信号として用い、「基準音響信号（第２の基準音響信号）」と当該「基準音響信号」を含む信号に基づく「評価対象音響信号（第２の評価対象音響信号）」とに対応するＰＥＳＱ値（第２のＰＥＳＱ値）と、当該「基準音響信号」に対応する基準音と当該「評価対象音響信号」に対応する評価音との違いについての５段階評価に基づくＭＯＳ値（第２のＭＯＳ値）と、の線形関係を求めておく。このとき基準音響信号と当該基準音響信号を含む信号に基づく評価対象音響信号の組については様々な組み合わせを行い、また評価者についても複数人で主観評価試験を実施し、リファレンス信号への依存性や評価者個人差への依存性を軽減する形で、線形関係を統計的に解析する。この解析結果として得た情報が、図１５に示されるＰＥＳＱ値（第２のＰＥＳＱ値）とＭＯＳ値（第２のＭＯＳ値）との線形関係（所定の傾きの直線で表される第２のＰＥＳＱ値と第２のＭＯＳ値との間の線形関係）である。このような線形関係を表す情報は線形変換部４２に設定される。「線形関係を表す情報」の例は、所定の傾きαの直線を表す線形関数Ｆや、この線形関数Ｆを特定するパラメータ等である。

なお、「基準音響信号」は、第１，２実施形態で例示したものであってもよいし、その他の音声信号であってもよいし、音楽や背景音等のその他の音響信号であってもよい。「評価対象音響信号」は、第１，２実施形態で例示したものであってもよいし、「基準音響信号」成分を含むその他の信号であってもよい。

ＰＥＳＱ算出部４１におけるＰＥＳＱ値の算出方法は周知であり、例えば、参考文献３等に詳細に記載されている。参考文献３に記載された「original X(t)」が「基準音響信号」に、「degraded signal Y(t)」が「評価対象音響信号」に、それぞれ該当する。前述のように、ＰＥＳＱ値の算出処理は、「基準音響信号」と「評価対象音響信号」との時間ずれを補正する処理を含む。

基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての５段階評価に基づくＭＯＳ値は、例えば、受聴された基準音と評価音との違いについて５段階評価（主観評価）の平均値である。５段階評価自体は５段階の評価カテゴリーを表す５つの値の何れかであるが、その平均値であるＭＯＳ値は１以上５以下の範囲に属する何れかの値である。「基準音と評価音との違いについて５段階評価」の内容に限定はない。このような５段階評価の例は、「基準音と評価音との違いが分かるか否かと、評価音の聞き取り易さおよび／または聞き取りにくさについての度合いと、の組み合わせからなる評価カテゴリーについての５段階評価」である。特に、このような５段階評価が「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての４段階の度合いと、の組み合わせからなる評価カテゴリーについての５段階評価」である場合、より誤差の小さな線形関係が成り立つ。より好ましくは、このような５段階評価が、「基準音と評価音との違いが分からないことを表す１段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての４段階の度合いとの組み合わせからなる４段階のカテゴリーと、を含む評価カテゴリーについての５段階評価」であることが望ましい。なお、「基準音と評価音との違いが分かるか否か」および「評価音の聞き取りにくさについての度合い」の具体例は、第３実施形態に例示した通りである。「評価音の聞き取り易さについての度合い」の具体例は、「聞き取りには問題がない」「少し聞き取り易い」「聞き取り易い」「非常に聞き取り易い」である。また、このような５段階評価に基づくＭＯＳ値は、「評価音の聞き取り易さの評価」を指示して得られた５段階評価に基づくものであることが望ましい。例えば、第３実施形態で例示したように、主観評価試験時に「評価音の『女声（左側）』の聞き取り易さ、を評価してください」等の内容が評価者に提示されて得られた５段階評価に基づくＭＯＳ値であることが望ましい。

＜音響品質評価処理＞
以上の前提のもと、以下のように音響品質評価処理が行われる。まず、ＰＥＳＱ算出部４１は、「基準音響信号（第１の基準音響信号）」と当該「基準音響信号」を含む信号に基づく「評価対象音響信号（第１の評価対象音響信号）」とを入力とし、これらの間の時間ずれを補正してから、当該「基準音響信号」と「評価対象音響信号」とに対するＰＥＳＱ値を得て出力する。さらに、ＰＥＳＱ算出部４１は、補正された時間ずれの大きさ（例えば、遅延量）を出力する。前述のように、「基準音響信号（第１の基準音響信号）」の開始時間と、「評価対象音響信号（第１の評価対象音響信号）」に含まれた「基準音響信号（第１の基準音響信号）」の成分の開始時間とは、同一または近似していることが望ましい。

ＰＥＳＱ算出部４１から出力されたＰＥＳＱ値および補正された時間ずれの大きさは判定部４３に入力される。判定部４３は、入力された時間ずれの大きさが所定値以下であったか、または、時間ずれの大きさが所定値よりも大きかったか、を判定する。ここで、時間ずれの大きさが所定値以下であったと判定されるか、または、時間ずれの大きさが所定値よりも大きくなかったと判定された場合、判定部４３はＰＥＳＱ値を線形変換部４２に送る。そうでない場合、判定部４３はＰＥＳＱ値を破棄する。例えば、「所定値」は、０．４秒の近傍以上１秒の近傍未満の範囲に属する値である。「所定値」の例は０．４秒である。

ＰＥＳＱ値が送られた線形変換部４２は、上述した線形関係に基づいて、入力されたＰＥＳＱ値（時間ずれの大きさが所定値以下であった第１の基準音響信号と第１の評価対象音響信号とに対する第１のＰＥＳＱ値）を線形変換してＭＯＳの推定値（第１のＭＯＳ値）を得て出力する。例えば、線形変換部４２は、ＰＥＳＱ値を前述の線形関数Ｆに代入して得られた結果をＭＯＳの推定値として出力する。このように、線形変換部４２は、補正された時間ずれの大きさが「所定値」よりも大きかった場合を除き、前述の線形関係に基づいてＰＥＳＱ値を線形変換してＭＯＳ値を得て出力する。言い換えると、線形変換部４２は、前述の線形関係に基づいて、補正された時間ずれの大きさが「所定値」以下であった「基準音響信号」と「評価対象音響信号」とに対する「ＰＥＳＱ値」のみを線形変換して「ＭＯＳ値」を得て出力する。

［第４実施形態の変形例１］
図１７に例示するように、この変形例の音響品質評価装置５は、ＰＥＳＱ算出部４１、線形変換部４２、判定部４３、遠端話者音響信号記憶部１０２、およびデータ記憶部１８０を有する。ＰＥＳＱ算出部４１は、遠端話者音響信号記憶部１０２から遠端話者音響信号を基準音響信号として読み出し、データ記憶部１８０からこの遠端話者音響信号に対応する評価対象音響信号Ｔ_１またはＴ_３を読み出す（図４参照）。ＰＥＳＱ算出部４１は、これらに対するＰＥＳＱ値を得て出力する。以降の処理は第４実施形態と同じである。なお、ＰＥＳＱ算出部４１が、遠端話者音響信号記憶部１０２から遠端話者音響信号を基準音響信号として読み出すことに代えて、データ記憶部１８０から基準音響信号を読み出してもよい。

［第４実施形態の変形例２］
第４実施形態の変形例１の評価対象音響信号Ｔ_１を評価対象音響信号Ｔ_２に置換した形態であってもよい。あるいは、評価対象音響信号Ｔ_３を評価対象音響信号Ｔ_４に置換した形態であってもよい。すなわち、ＰＥＳＱ算出部４１は、遠端話者音響信号記憶部１０２から遠端話者音響信号を基準音響信号として読み出し、データ記憶部１８０からこの遠端話者音響信号に対応する評価対象音響信号Ｔ_２またはＴ_４を読み出す。ＰＥＳＱ算出部４１は、これらに対するＰＥＳＱ値を得て出力する。以降の処理は第４実施形態と同じである。

［第４実施形態の変形例３］
図１７に例示するように、この変形例の音響品質評価装置は、ＰＥＳＱ算出部４１、線形変換部４２、判定部４３、近端話者音響信号記憶部１０１、遠端話者音響信号記憶部１０２、データ記憶部１８０、および信号処理部６２１を含む。なお、信号処理部６２１は、何らかの「信号処理」を行う処理部である。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。その他、「信号処理」が、エコーキャンセル処理もノイズキャンセル処理も含まない処理であってもよい。ＰＥＳＱ算出部４１は、遠端話者音響信号記憶部１０２から遠端話者音響信号を基準音響信号として読み出す。信号処理部６２１は、データ記憶部１８０からこの遠端話者音響信号に対応する評価対象音響信号Ｔ_１またはＴ_３を読み出し、近端話者音響信号記憶部１０１から評価対象音響信号Ｔ_１またはＴ_３に対応する近端話者音響信号を読み出す（図４参照）。信号処理部６２１は、これらを用いて評価対象音響信号Ｔ_１に信号処理を行い、それによって得られた信号を評価対象信号としてＰＥＳＱ算出部４１に送る。ＰＥＳＱ算出部４１は、入力された信号に対するＰＥＳＱ値を得て出力する。以降の処理は第４実施形態と同じである。

［その他の変形例等］
なお、本発明は上述の実施の形態に限定されるものではない。例えば、参照信号や劣化信号が音声以外の音響信号（音楽や背景音等）に基づいて得られたものであってもよい。また、参照信号や劣化信号が時系列信号でなくてもよい。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１，２データ生成装置
３〜６音響品質評価装置

Claims

第１の基準音響信号と前記第１の基準音響信号を含む信号に基づく第１の評価対象音響信号との間の時間ずれを補正してから、前記第１の基準音響信号と前記第１の評価対象音響信号とに対する第１のＰＥＳＱ値を得るＰＥＳＱ算出部と、
所定の傾きの直線で表される第２のＰＥＳＱ値と第２のＭＯＳ値との間の線形関係に基づいて、前記時間ずれの大きさが所定値以下であった前記第１の基準音響信号と前記第１の評価対象音響信号とに対する前記第１のＰＥＳＱ値を線形変換して第１のＭＯＳ値を得る線形変換部と、
を有し、
前記時間ずれの補正は、前記第１のＰＥＳＱ値を算出する際になされるものであり、
前記線形変換部は、前記時間ずれの補正の誤りに基づき前記第１のＰＥＳＱ値と前記第１のＰＥＳＱ値に対応するＭＯＳ値との関係が前記線形関係から乖離する前記第１のＰＥＳＱ値を取り除くために、前記時間ずれの大きさが所定値以下の第１のＰＥＳＱ値のみを変換する、音響品質評価装置。
請求項１の音響品質評価装置であって、
前記ＰＥＳＱ算出部は、前記第１の基準音響信号と前記第１の基準音響信号を含む信号に基づく前記第１の評価対象音響信号との間の自動検出された前記時間ずれを補正してから、前記第１の基準音響信号と前記第１の評価対象音響信号とに対する前記第１のＰＥＳＱ値を得、
前記時間ずれの大きさが前記所定値よりも大きい前記第１の基準音響信号と前記第１の評価対象音響信号とに対する前記第１のＰＥＳＱ値は破棄され、
前記所定値は、前記第１の基準音響信号と前記第１の評価対象音響信号との間の正しい時間ずれの大きさよりも大きい、音響品質評価装置。
請求項１または２の音響品質評価装置であって、
前記線形関係は、空間環境若しくは空間環境を模擬した条件に基づく劣化がない信号を含む信号に基づいて得られたものである、音響品質評価装置。
請求項１から３の何れかの音響品質評価装置であって、
前記第１の基準音響信号の開始時間と、前記第１の評価対象音響信号に含まれた前記第１の基準音響信号の成分の開始時間とは、同一である、音響品質評価装置。
請求項１から４の何れかの音響品質評価装置であって、
前記時間ずれの大きさが前記所定値以下であったか、または、前記時間ずれの大きさが前記所定値よりも大きかったか、を判定する判定部を有する、音響品質評価装置。
請求項１から５のいずれかの音響品質評価装置であって、
前記線形変換部は、前記時間ずれの大きさが前記所定値よりも大きかった場合を除き、前記線形関係に基づいて前記第１のＰＥＳＱ値を線形変換して前記第１のＭＯＳ値を得る、音響品質評価装置。
請求項１から６の何れかの音響品質評価装置であって、
前記線形変換部は、前記線形関係に基づいて、前記時間ずれの大きさが前記所定値以下であった前記第１の基準音響信号と前記第１の評価対象音響信号とに対する前記第１のＰＥＳＱ値のみを線形変換して前記第１のＭＯＳ値を得る、音響品質評価装置。
請求項１から７の何れかの音響品質評価装置であって、
前記所定値は、０．４秒以上１秒未満の範囲に属する値である、音響品質評価装置。
請求項１から８の何れかの音響品質評価装置であって、
前記線形変換部は、前記第１のＰＥＳＱ値をｘとしたｙ＝ａ×ｘ＋ｂを前記第１のＭＯＳ値として得、ａは１．３または１．３の近傍であり、ｂは‐０．３または‐０．３の近傍であり、
前記１．３の近傍は、１．０４以上１．５６以下の範囲に属する値であり、
前記‐０．３の近傍は、‐０．３６以上‐０．２４以下の範囲に属する値である、
音響品質評価装置。
ＰＥＳＱ算出部が、第１の基準音響信号と前記第１の基準音響信号を含む信号に基づく第１の評価対象音響信号との間の時間ずれを補正してから、前記第１の基準音響信号と前記第１の評価対象音響信号とに対する第１のＰＥＳＱ値を得るＰＥＳＱ算出ステップと、
線形変換部が、所定の傾きの直線で表される第２のＰＥＳＱ値と第２のＭＯＳ値との間の線形関係に基づいて、前記時間ずれの大きさが所定値以下であった前記第１の基準音響信号と前記第１の評価対象音響信号とに対する前記第１のＰＥＳＱ値を線形変換して第１のＭＯＳ値を得る線形変換ステップと、
を有し、
前記時間ずれの補正は、前記第１のＰＥＳＱ値を算出する際になされるものであり、
前記線形変換ステップは、前記時間ずれの補正の誤りに基づき前記第１のＰＥＳＱ値と前記第１のＰＥＳＱ値に対応するＭＯＳ値との関係が前記線形関係から乖離する前記第１のＰＥＳＱ値を取り除くために、前記時間ずれの大きさが所定値以下の第１のＰＥＳＱ値のみを変換する、
音響品質評価方法。
請求項１０の音響品質評価方法であって、
前記ＰＥＳＱ算出ステップは、前記第１の基準音響信号と前記第１の基準音響信号を含む信号に基づく前記第１の評価対象音響信号との間の自動検出された前記時間ずれを補正してから、前記第１の基準音響信号と前記第１の評価対象音響信号とに対する前記第１のＰＥＳＱ値を得、
前記時間ずれの大きさが前記所定値よりも大きい前記第１の基準音響信号と前記第１の評価対象音響信号とに対する前記第１のＰＥＳＱ値は破棄され、
前記所定値は、前記第１の基準音響信号と前記第１の評価対象音響信号との間の正しい時間ずれの大きさよりも大きい、音響品質評価方法。
請求項１０または１１の音響品質評価方法であって、
前記線形関係は、空間環境若しくは空間環境を模擬した条件に基づく劣化がない信号を含む信号に基づいて得られたものである、音響品質評価方法。
請求項１から９の何れかの音響品質評価装置としてコンピュータを機能させるためのプログラム。