以下、図面を参照して本発明の実施形態を説明する。
[第1実施形態]
<拡声系通信システムでの会話MOS試験を模擬した評価試験>
まず、拡声系通信システムでの会話MOS試験を模擬した評価試験を概念的に説明する。この評価試験では、近端話者と遠端話者とが拡声系通信システムを通じて会話を行い、近端話者側に位置する評価者が当該拡声系通信システムの品質評価を行う。なお、拡声系通信システムとは、マイクロホンとスピーカーとを備えた端末装置間で音響信号を送受信する通信システムであって、端末装置のスピーカーから出力された音の少なくとも一部がその端末装置のマイクロホンで受音されるもの(音の回り込みが生じるもの)をいう。拡声系通信システムの一例は、音声会議システムやテレビ会議システムである。
図3に例示する拡声系通信システムでは、近端話者の音声が近端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で遠端話者側に伝送され、当該音響信号が表す音が遠端話者側のスピーカーから出力される。また、遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で近端話者側に伝送され、当該音響信号が表す音が近端話者側のスピーカーから出力される。ただし、遠端話者側のスピーカーから出力された音の少なくとも一部は遠端話者側のマイクロホンでも受音される。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、遠端話者の音声に近端話者の音声の回り込み(音響エコー)が重畳されたものである。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、近端話者の音声に基づく信号と遠端話者の音声に基づく信号とが遠端話者側の空間で劣化して重畳した信号に基づく。また、近端話者側に伝送される音響信号は、遠端話者側のマイクロホンで受音された音を表す信号に所定の「信号処理」を行って得られた処理信号に由来するものであってもよいし、このような信号処理を行うことなく得られたものであってもよい。「信号処理」は、どのような処理であってもよい。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。
評価者は、ヘッドフォンやイヤホン等の両耳装着型音響再生装置を用い、近端話者からの直接音を一方の耳(例えば利き耳ではない方の耳−例えば右耳)で聴き、近端話者側のスピーカーから出力される音を他方の耳(例えば利き耳−例えば左耳)で聴き、通話品質を主観評価(オピニオン評価)する。本実施形態では、近端話者からの直接音側のチャネルを「Rch」と表記し、近端話者側のスピーカーから出力される音側のチャネルを「Lch」と表記する。上述のように、近端話者側のスピーカーから出力される音は、遠端話者の音声に近端話者の音声の音響エコーが重畳された遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号が近端話者側に伝送され、近端話者側のスピーカーから出力されたものである。そのため、近端話者側のスピーカーから出力される音に含まれる近端話者の音声の音響エコー成分は、この近端話者の音声の直接音よりも遅延している(音響信号が近端話者側と遠端話者側との間を一往復する時間の遅延)。また、近端話者側のスピーカーから出力される音に含まれる遠端話者の音声の成分は、この遠端話者の音声が発せられた時点よりも遅延している(音響信号が遠端話者側から近端話者側へ伝送される時間の遅延)。ここで、近端話者からの直接音を表す音響信号と、遠端話者側の空間での音の回り込みがある場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「劣化信号」と呼ぶ。この遠端話者側の空間での音の回り込みの際に当該空間での音質劣化が生じる。特に上述の「信号処理」が行われていない「劣化信号」を「劣化信号D1」と表記し、「信号処理」が行われた「劣化信号」を「劣化信号D2」と表記する。また、近端話者からの直接音を表す音響信号と、遠端話者側の空間での音の回り込みがあるものの当該空間での劣化がない場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「特殊信号」と表記する。特に上述の「信号処理」が行われていない「特殊信号」を「特殊信号D3」と表記し、「信号処理」が行われた「特殊信号」を「特殊信号D4」と表記する。さらに参照用として、近端話者からの直接音を表す音響信号と、遠端話者側での音の回り込みがないと仮定した場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「参照信号」と呼ぶ。評価者は、例えば「劣化信号D1」「劣化信号D2」「特殊信号D3」「特殊信号D4」「参照信号」の何れかの組を比較することで通話品質を主観評価する。
<データ生成装置>
次に、拡声系通信システムでの会話MOS試験を模擬した評価試験を行うためのデータ構造を生成するデータ生成装置を例示する。図1および図2Aに例示するように、本実施形態のデータ生成装置1は、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、再生部103,104、スピーカー105,106、マイクロホン107、時間調整処理部108,208,280、収録処理部109、信号処理部270、近端端末部110、遠端端末部120、出力部131,132,141,142,151,152,231,232,241,242,251,252、およびデータ記憶部180を有する。遠端端末部120は信号処理部121を含み、近端端末部110と遠端端末部120とはネットワーク(NW)を通じて通信可能に構成されている。少なくとも、スピーカー105,106およびマイクロホン107は、同じ室内に配置されている。図2Bに例示するように、信号処理部270は、例えば、入力部271,272、出力部273、加算部274、適応フィルタ275、および時間調整処理部276を含む。信号処理部270がさらに雑音除去部278および乗算部277を含んでもよい。また、図2Bでは適応フィルタ275を用いてエコーキャンセラが構成されているが、音声スイッチやエコーリダクションその他の技術またはそれと適応フィルタ275との組み合わせでエコーキャンセラが構成されてもよい。データ生成装置1は、例えば、スピーカーやマイクロホンが接続され、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備えた汎用または専用の1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。各コンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
<データ生成処理>
次に、本実施形態のデータ生成処理を説明する。
事前処理として、評価者が受聴する近端話者の直接音(近端話者の音声)に相当する音を表す近端話者音響信号(システムの第1端側の第1音響信号)のデータを近端話者音響信号記憶部101に格納し、遠端話者の直接音(遠端話者の音声)に相当する音を表す遠端話者音響信号(システムの第2端側の第2音響信号)のデータを遠端話者音響信号記憶部102に格納する。本実施形態の近端話者音響信号および遠端話者音響信号は何れも時系列の音響信号であり、例えば、防音室で収録した音声に基づいて得られたものである。ただし、これは本発明を限定するものではなく、近端話者音響信号および遠端話者音響信号の少なくとも一方が通常の室内環境で収録されたものであってもよい。また、本形態では、近端話者音響信号が表す近端話者音声と遠端話者音響信号が表す遠端話者音声との間の発話タイミング(すなわち、近端話者音声の発話時に対する遠端話者音声の発話時の相対時間、例えば、近端話者音声と遠端話者音声とのかぶり)に制約は設けない。ただし、これは本発明を限定するものではなく、近端話者音声と遠端話者音声との間の発話タイミングに何らかの制約を設けてもよい。また、近端話者および遠端話者に制約はなく、これらが評価者以外の人であってもよいし、これらの少なくとも一方が評価者と同一人物であってもよい。以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。
≪参照信号および劣化信号の生成≫
まず、図1を用い、参照信号E1および劣化信号D1,D2の生成方法について説明する。再生部103は、近端話者音響信号記憶部101から近端話者音響信号のデータを抽出して近端話者音響信号を出力する。再生部103から出力された近端話者音響信号は、出力部131,141,151および近端端末部110に送られる。出力部131,141,151は、送られた近端話者音響信号(システムの第1端側の第1音響信号)を、それぞれ「劣化信号D1」「劣化信号D2」「参照信号E1」のRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルの第1データ)として出力する。また、近端端末部110は、送られた近端話者音響信号をネットワーク経由で遠端端末部120に伝送する。遠端端末部120は伝送された近端話者音響信号(第1音響信号に由来する信号)をスピーカー105に送り、スピーカー105は近端話者音響信号が表す音を出力する。
再生部104は、遠端話者音響信号記憶部102から遠端話者音響信号のデータを抽出して遠端話者音響信号を出力する。再生部104から出力された遠端話者音響信号は時間調整処理部108およびスピーカー106に送られる。時間調整処理部108は送られた遠端話者音響信号を遅延させて出力部152に送る。時間調整処理部108での遅延量τは、遠端端末部120から近端端末部110までの伝送遅延量Bを模擬するものであり、例えば、この伝送遅延量Bに基づいて定められる。例えば、遠端端末部120から近端端末部110までの伝送遅延量B、当該伝送遅延量Bの予測値、当該伝送遅延量Bの平均値、またはこれらの何れかの近似値または補正値(関数値)を時間調整処理部108での遅延量τとする。なお、「αの近似値」とは、α−β1以上α+β2以下の範囲に属する値を意味する。β1およびβ2は正の値(例えば定数)であり、β1=β2であってもよいし、β1≠β2であってもよい。また、伝送遅延量Bは、往復の遅延量C(近端話者音響信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間)の約半分である。そのため、遅延量Cに基づいて遅延量τが定められてもよい。例えば、遅延量Cの1/2値、当該遅延量Cの予測値の1/2値、当該遅延量Cの平均値の1/2値、またはこれらの何れかの関数値を遅延量τとしてもよい。遅延量τは固定値であってもよいし、実際に測定された伝送遅延量Bに基づいて決定されてもよい。ただし、ネットワーク環境によっては往路と復路との遅延量が異なる場合もある。また、近端端末部110や遠端端末部120や信号処理部121やネットワーク環境が変化すれば伝送遅延量Bや遅延量Cが変化するため、そのような変化に応じて遅延量τを定めることが望ましい。出力部152は、時間調整処理部108で遅延させた遠端話者音響信号(基準音響信号、第2音響信号を含む信号に基づく比較用信号)を「参照信号E1」のLchのデータ(第2音響信号を含む信号に基づく比較用信号を含む第2チャネルの第4データ)として出力する。
スピーカー106は、送られた遠端話者音響信号(システムの第2端側の第2音響信号)が表す音(第2端側の第2音響信号に由来する再生信号)を出力する。スピーカー105から出力された音およびスピーカー106から出力された音は室内空間で重畳し、マイクロホン107で受音される。ここで、スピーカー105および106から出力された音は、遠端端末部120側(第2端側)の室内空間での残響、反響、雑音などの空間影響に基づいて劣化する。すなわち、マイクロホン107で受音される音は、スピーカー105および106から出力された音が空間影響に基づいて劣化しつつ重畳したものである。マイクロホン107で受音して得られた受音信号は、遠端端末部120の信号処理部121に送られる。信号処理部121は、送られた受音信号に対する信号処理の実行の有無を制御可能である。信号処理が実行される場合、信号処理部121は、送られた受音信号に信号処理を行って処理信号を得、遠端端末部120は処理信号をネットワーク経由で近端端末部110(第1端側)に伝送する。この信号処理には、さらに近端端末部110からネットワーク経由で遠端端末部120に伝送された近端話者音響信号(スピーカー105に入力される近端話者音響信号)が用いられてもよい。一方、信号処理が実行されない場合、遠端端末部120は、信号処理部121に送られた受音信号をネットワーク経由で近端端末部110(第1端側)に伝送する。また信号処理部121は、例えば、信号処理の有無を表す情報を収録処理部109に送る。信号処理部121は、送られた受音信号に対して信号処理を実行して処理信号を得、遠端端末部120はこの処理信号をネットワーク経由で近端端末部110に伝送し、さらに、この信号処理の対象となった受音信号またはそれと同一の条件のもとで得られた同一とみなせる受音信号をネットワーク経由で近端端末部110に伝送してもよい。すなわち、同一または同一とみなせる2つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われてもよい。「同一の条件」とは、少なくとも、データ生成装置1、近端話者音響信号、遠端話者音響信号、および発話タイミングが同一であることを意味する。「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。なお、エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理を意味する。広義のエコーキャンセラによる処理とは、エコーを低減させるための処理全般を意味する。広義のエコーキャンセラによる処理は、例えば、適応フィルタを用いた狭義のエコーキャンセラのみによって実現されてもよいし、音声スイッチによって実現されてもよいし、エコーリダクションによって実現されてもよいし、これらの少なくとも一部の技術の組み合わせによって実現されてもよいし、さらにその他の技術との組み合わせによって実現されてもよい(例えば、参考文献1「知識ベース 知識の森、2群−6編−5章、“音響エコーキャンセラ”、電子情報通信学会」参照)。またノイズキャンセル処理とは、遠端端末のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音に起因する雑音成分を抑圧または除去する処理を意味する。環境雑音とは、例えば、オフィスの空調音、走行中の車内音、交差点での車の通行音、虫の音、キーボードのタッチ音、複数の人の声(ガヤガヤ音)などを指し、音の大/小、屋内/屋外は問わない。
遠端端末部120からネットワーク経由で伝送された信号(第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づいて劣化した第2重畳信号)は、近端端末部110に入力され、収録処理部109に送られる。ここで、信号処理部121で信号処理が実行されている場合(信号処理ON時)、収録処理部109は、送られた信号(第2重畳信号)を出力部142に送る。出力部142は、送られた信号(評価対象音響信号T2)を「劣化信号D2」のLchのデータ(第2重畳信号を含む第2チャネルの第2データ)として出力する。一方、信号処理部121で信号処理が実行されていない場合(信号処理OFF時)、収録処理部109は、送られた信号(第2重畳信号)を出力部132に送る。出力部132は、送られた信号(評価対象音響信号T1)を「劣化信号D1」のLchのデータ(第2重畳信号を含む第2チャネルの第2データ)として出力する。
出力部131から出力されたRchの近端話者音響信号のデータと、出力部132から出力されたLchの評価対象音響信号T1のデータとの組は、「劣化信号D1」としてデータ記憶部180に格納される。出力部141から出力されたRchの近端話者音響信号のデータと、出力部142から出力されたLchの評価対象音響信号T2のデータとの組は、「劣化信号D2」としてデータ記憶部180に格納される。出力部151から出力されたRchの近端話者音響信号のデータと、出力部152から出力されたLchの基準音響信号のデータとの組は、「参照信号E1」としてデータ記憶部180に格納される。なお、同じ時間区間に対応する「劣化信号D1」「劣化信号D2」「参照信号E1」のRchの近端話者音響信号は互いに同一である。そのため、必ずしも「劣化信号D1」「劣化信号D2」「参照信号E1」のそれぞれについて、互いに同一なRchの近端話者音響信号のデータをデータ記憶部180に格納する必要はない。もちろん、「劣化信号D1」「劣化信号D2」「参照信号E1」のそれぞれについて、互いに同一なRchの近端話者音響信号のデータをデータ記憶部180に格納してもかまわない。
図4を用い、上述のように得られた「参照信号E1」「劣化信号D1」「劣化信号D2」を例示する。図4の例では、前述した同一または同一とみなせる2つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われ、信号処理を実行した場合の「劣化信号D2」と、信号処理を実行していない場合の「劣化信号D1」との両方が得られている。また図4の例では、「信号処理」としてエコーキャンセル処理を含む処理を用いている。
本実施形態の「参照信号E1」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルの第1データ)と、前述の遠端話者音響信号に基づく基準音響信号を含むLchのデータ(第2音響信号を含む信号に基づく比較用信号を含む第2チャネルの第4データ)とを含む。これらのRchの第1データとLchの第4データとは互いに対応付けられている。本実施形態の「劣化信号D1」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(第1音響信号を含む第1チャネルの第1データ)と、前述の評価対象音響信号T1を含むLchのデータ(第2重畳信号を含む第2チャネルの第2データ)とを含む。これらのRchの第1データとLchの第2データとは互いに対応付けられている。評価対象音響信号T1は信号処理を行うことなく得られた比較用の信号である。本実施形態の「劣化信号D2」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルの第1データ)と、前述の評価対象音響信号T2を含むLchのデータ(第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する第2重畳信号(第2端側の空間環境に基づいて劣化した信号)を含む第2チャネルの第2データ)とを含む。これらのRchの第1データとLchの第2データも互いに対応付けられている。
図4に例示するように、「参照信号E1」「劣化信号D1」「劣化信号D2」のRchのデータの時間区間a−bには、互いに同一な近端話者音響信号(第1音響信号)が含まれる。「劣化信号D1」「劣化信号D2」のLchのデータの時間区間e−d’には、近端話者音響信号の音響エコー成分が含まれる。音響エコー成分は上記の近端話者音響信号に由来する信号(第1音響信号に由来する信号)であるが、近端話者音響信号に比べて時間区間a−e(遅延量C)だけ遅延している。この遅延量Cは、近端話者音響信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間に相当する。
「参照信号E1」のLchのデータの時間区間c−dには、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく成分)が含まれ、「劣化信号D1」のLchのデータの時間区間c’−d’には、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく成分)が重畳され、「劣化信号D2」のLchのデータの時間区間c’−d’には、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく成分)が重畳されている。「劣化信号D1」「劣化信号D2」のRchの近端話者音響信号の開始時点aからLchの遠端話者音響信号成分の開始時点c’までには時間差a−c’が存在する。また、「参照信号E1」のRchの近端話者音響信号の開始時点aからLchの遠端話者音響信号成分の開始時点cまでには時間差a−cが存在する。ここで「劣化信号D1」「劣化信号D2」での時間差a−c’は、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Aと、信号が遠端端末部120から近端端末部110に伝送されるまでの伝送遅延量Bとの合計A+Bに相当する。一方、「参照信号E1」での時間差a−cは、時間差Aと時間調整処理部108での遅延量τとの合計A+τに相当する。前述のように遅延量τは伝送遅延量Bに基づいて定められているため、遅延量τと伝送遅延量Bとが一致または近似し、時間差a−cを時間差a−c’に一致または近似させることができる。このようなデータ構造を用いた評価試験では、「劣化信号D2」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「参照信号E1」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。同様に、「劣化信号D1」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「参照信号E1」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。さらに、「劣化信号D1」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「劣化信号D2」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを一致または近似させることができる。すなわち、第2重畳信号は、第2音響信号に基づく第1成分を含み、比較用信号は、第2音響信号に基づく第2成分を含み、第1チャネルで第1音響信号を出力してから第2チャネルで第1成分を出力するまでの時間と、第1チャネルで第1音響信号を出力してから第2チャネルで第2成分を出力するまでの時間とを、一致または近似させることができる。なお、図4では、近端話者が遠端話者に先行して発話する状況を例示したが、遠端話者が近端話者に先行して発話したり、時間差がa−c’≒0となったりする場合もある。例えば、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Aと、信号が遠端端末部120から近端端末部110に伝送されるまでの伝送遅延量Bとが等しい場合は、時間差a−c’= 差分A−B≒0となる場合がある。さらに遠端話者が近端話者に対して伝送遅延量Bよりも早く話し始めた場合には波形の位置関係が逆転し、Lchの遠端話者音響信号成分の開始時点c’が「劣化信号D1」「劣化信号D2」のRchの近端話者音響信号の開始時点aよりも前になる場合もある。このような場合であっても同様に時間調整を行うことができる。
≪参照信号および特殊信号の生成≫
次に、図2Aを用い、参照信号E2および特殊信号D3,D4の生成方法について説明する。本形態では前述したコンピュータを用いた計算機シミュレートによって、参照信号E2および特殊信号D3,D4を作成する。近端話者音響信号記憶部101から近端話者音響信号が抽出され、出力部231,241,251、時間調整処理部280の入力部282、および信号処理部270の入力部272に送られる。遠端話者音響信号記憶部102から遠端話者音響信号が抽出され、時間調整処理部208および時間調整処理部280の入力部281に入力される。
出力部231,241,251は、送られた近端話者音響信号(第1音響信号)を、それぞれ「特殊信号D3」「特殊信号D4」「参照信号E2」のRchのデータ(第1音響信号を含む第1チャネルの第1データ)として出力する。
時間調整処理部280は、入力部281および282に入力された遠端話者音響信号(第2音響信号)および近端話者音響信号(第1音響信号)に「時間調整処理」および「加算処理(重畳処理)」を行い、それによって得られた重畳信号(模擬信号)を出力部283から出力する。例えば、時間調整処理部280は、当該遠端話者音響信号に遅延量B’の遅延を与え、当該近端話者音響信号に遅延量C’の遅延を与え、遅延させたこれらの信号を加算(重畳)して得られる重畳信号を出力部283から出力する。上述の遅延量B’は、例えば、前述の伝送遅延量B(遠端端末部120から近端端末部110までの伝送遅延量)を模擬するものである。一方、遅延量C’は、例えば、前述の遅延量C(信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間)を模擬するものである。そのため、B’<C’であることが望ましい(例えば、C’=2×B’)。しかしながら、これは本発明を限定するものではなく、B’=C’やB’>C’または、B’=C’=0であってもよい。
出力部283から出力された重畳信号は、出力部232および信号処理部270の入力部271に入力される。出力部232は、送られた重畳信号(評価対象音響信号T3:第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号。例えば、第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号)を「特殊信号D3」のLchのデータとして出力する。
信号処理部270は、入力部271に入力された重畳信号と入力部272に入力された近端話者音響信号を用い、当該重畳信号に信号処理を行って処理信号(第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号に信号処理を行って得られた処理信号に由来する第3重畳信号。例えば、第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号に信号処理を行って得られた処理信号に由来する第3重畳信号)を得る。信号処理部121と同様、「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む。図2Bの例の場合、信号処理部270は、入力部272に入力された近端話者音響信号を時間調整処理部276で遅延させた信号に適応フィルタ275を適用して得られた信号と、入力部271に入力された重畳信号(模擬信号)と、を加算部274で重畳することでエコーキャンセル処理を行い、それによって処理信号(第3重畳信号)を得る。信号処理部270が、上述のエコーキャンセル処理の後、さらにノイズキャンセル処理を行って処理信号を得てもよい。あるいは、信号処理部270がエコーキャンセル処理を行うことなくノイズキャンセル処理を行って処理信号を得てもよい。なお、ノイズキャンセル処理の方法は、例えば、加算部274からの出力信号に対して、推定した定常雑音レベルの分だけ振幅が抑圧されるように、乗算部277でゲイン値を乗じるものである(例えば、参考文献2「阪内澄宇,羽田陽一,田中雅史,佐々木潤子,片岡章俊,“雑音抑圧及びエコー抑圧機能を備えた音響エコーキャンセラ”,電子情報通信学会論文誌Vol.J87-A, No.4, pp.448-457 (2004年4月)」等参照)。得られた処理信号は出力部273から出力される。出力部273は処理信号を出力部242に送る。出力部242は、送られた処理信号を「特殊信号D4」のLchのデータ(評価対象音響信号T4:第3重畳信号を含む第2チャネルの第3データ)として出力する。
また、時間調整処理部208は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部252に送る。遅延量τ’は、例えば、上述の遅延量B’に対応する。例えば、遅延量B’または当該遅延量B’の近似値もしくは補正値(関数値)を遅延量τ’とする。あるいは、遅延量τ’が遅延量C’に対応してもよい。例えば、τ’がC’/2またはC’/2の関数値であってもよい。あるいは、遅延量τ’が遅延量B’および遅延量C’に対応してもよい。出力部252は、時間調整処理部208で遅延させた遠端話者音響信号を「参照信号E2」のLchのデータ(第2音響信号を含む信号に基づく比較用信号を含む第2チャネルの第4データ)として出力する。以上のように得られたデータ構造はデータ記憶部180に格納される。
本実施形態の「参照信号E2」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(第1音響信号を含む第1チャネルの第1データ)と、前述の遠端話者音響信号に基づく基準音響信号を含むLchのデータ(第2音響信号を含む信号に基づく比較用信号を含む第2チャネルの第4データ)とを含む。これらのRchの第1データとLchの第4データとは互いに対応付けられている。本実施形態の「特殊信号D3」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(第1音響信号を含む第1チャネルの第1データ)と、前述の評価対象音響信号T3を含むLchのデータ(第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号を含む第2チャネルのデータ。例えば、第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号を含む第2チャネルのデータ)とを含む。これらのRchの第1データとLchのデータとは互いに対応付けられている。評価対象音響信号T3は信号処理を行うことなく得られた比較用の信号である。本実施形態の「特殊信号D4」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(第1音響信号を含む第1チャネルの第1データ)と、前述の評価対象音響信号T4を含むLchのデータ(第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号に信号処理を行って得られた処理信号に由来する第3重畳信号を含む第2チャネルの第3データ。例えば、第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号に信号処理を行って得られた処理信号に由来する第3重畳信号を含む第2チャネルの第3データ)とを含む。これらのRchの第1データとLchの第3データとは互いに対応付けられている。なお、同じ時間区間に対応する「特殊信号D3」「特殊信号D4」「参照信号E2」のRchの近端話者音響信号は互いに同一である。そのため、必ずしも「特殊信号D3」「特殊信号D4」「参照信号E2」のそれぞれについて、互いに同一なRchの近端話者音響信号のデータをデータ記憶部180に格納する必要はない。もちろん、「特殊信号D3」「特殊信号D4」「参照信号E2」のそれぞれについて、互いに同一なRchの近端話者音響信号のデータをデータ記憶部180に格納してもかまわない。
このようなデータ構造を用いた評価試験では、「特殊信号D3」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。同様に、「特殊信号D4」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。さらに、「特殊信号D3」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「特殊信号D4」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを一致または近似させることができる。すなわち、第3重畳信号は、第2音響信号に基づく第3成分を含み、比較用信号は、第2音響信号に基づく第4成分を含み、第1チャネルで第1音響信号を出力してから第2チャネルで第3成分を出力するまでの時間と、第1チャネルで第1音響信号を出力してから第2チャネルで第4成分を出力するまでの時間とを、一致または近似させることができる。
≪参照信号、劣化信号、および特殊信号を含むデータ構造≫
上述のように、本実施形態の評価試験を行うためのデータ構造は、(1)「参照信号E1」「劣化信号D1」「劣化信号D2」の三つ組み、および(2)「参照信号E2」「特殊信号D3」「特殊信号D4」の三つ組みを含む。(1)「参照信号E1」「劣化信号D1」「劣化信号D2」の三つ組み、および、(2)「参照信号E2」「特殊信号D3」「特殊信号D4」の三つ組みのそれぞれは、単数であってもよいし、複数であってもよい。1つの(1)「参照信号E1」「劣化信号D1」「劣化信号D2」の三つ組みは、1つの近端話者音響信号および遠端話者音響信号の組から生成される。同様に、1つの(2)「参照信号E2」「特殊信号D3」「特殊信号D4」の三つ組みは、1つの近端話者音響信号および遠端話者音響信号の組から生成される。(1)「参照信号E1」「劣化信号D1」「劣化信号D2」の三つ組み、および(2)「参照信号E2」「特殊信号D3」「特殊信号D4」の三つ組みは、1つの近端話者音響信号および遠端話者音響信号の組から生成されてもよいし、互いに異なる2つの近端話者音響信号および遠端話者音響信号の組から生成されてもよい。複数の(1)「参照信号E1」「劣化信号D1」「劣化信号D2」の三つ組みは、例えば、互いに異なる複数の近端話者音響信号および遠端話者音響信号の組からそれぞれ生成される。複数の(2)「参照信号E2」「特殊信号D3」「特殊信号D4」の三つ組みは、例えば、互いに異なる複数の近端話者音響信号および遠端話者音響信号の組からそれぞれ生成される。
このようなデータ構造を用いた評価試験を行う音響品質評価装置は、Rchで近端話者音響信号を出力しつつ、Lchで基準音響信号を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号T1を出力する制御とを行うことができる。同様に、Rchで近端話者音響信号を出力しつつ、Lchで基準音響信号を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号T2を出力する制御とを行うこともできる。さらに、音響品質評価装置は、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号T1を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号T2を出力する制御とを行うこともできる。さらに、音響品質評価装置は、Rchで近端話者音響信号を出力しつつ、Lchで基準音響信号を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号T3を出力する制御とを行うことができる。同様に、音響品質評価装置は、Rchで近端話者音響信号を出力しつつ、Lchで基準音響信号を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号T4を出力する制御とを行うこともできる。さらに、音響品質評価装置は、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号T3を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号T4を出力する制御とを行うこともできる。すなわち、音響品質評価装置は、少なくとも第1チャネルで第1音響信号を出力しつつ、第2チャネルで比較用信号を出力する制御と、第1チャネルで第1音響信号を出力しつつ、第2チャネルで第2重畳信号を出力する制御と、第1チャネルで第1音響信号を出力しつつ、第2チャネルで第3重畳信号を出力する制御と、が可能である。
評価試験の際、「参照信号E1」「劣化信号D1」「劣化信号D2」が何らかの順序で再生されるか、または、「参照信号E2」「特殊信号D3」「特殊信号D4」が何らかの順序で再生される。これらのRchの信号の再生音は、例えば、両耳装着型音響再生装置の右のスピーカーから出力され、Lchの信号の再生音は、例えば、この両耳装着型音響再生装置の左のスピーカーから出力される(ステレオ再生)。評価者は、この両耳装着型音響再生装置を両耳に装着し、ステレオ再生されたこれらの音を聴いて通話品質を主観評価する。この際、評価者はLchの信号の再生音を利き耳(例えば左耳)で聴き、Rchの信号の再生音を利き耳ではない耳(例えば右耳)で聴くことが望ましい。
すなわち、第1データおよび第2データまたは第3データが音響品質評価装置で読み出されたとき、第1データが表す音が両耳装着型音響再生装置の一方のチャネルから再生され、第2データまたは第3データが表す音が両耳装着型音響再生装置の他方のチャネルから再生され、評価結果を表す情報が音響品質評価装置に入力される。評価試験の詳細は第3実施形態で説明する。
[第1実施形態の変形例1]
第1実施形態では、遠端話者音響信号を遅延量τだけ遅延させたものを「参照信号E1」のLchの基準音響信号とした。これは「参照信号E1」と「劣化信号D1」「劣化信号D2」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似(例えば、図4の時間区間a−cと時間区間a−c’との一致または近似)させるためである。しかしながら、このような目的は他の手段によっても実現できる。例えば、再生部104から出力された遠端話者音響信号を遅延させることなく「参照信号E1」のLchの基準音響信号として出力部152から出力し、再生部103から出力された近端話者音響信号を時間τだけ時間的に繰り上げたもの(遅延の逆の時間シフトをしたもの)を「参照信号E1」のRchの近端話者音響信号としてもよい。あるいは、再生部104から出力された遠端話者音響信号を時間τ−Tだけ遅延させたものを「参照信号E1」のLchの基準音響信号として出力部152から出力し、再生部103から出力された近端話者音響信号を時間Tだけ時間的に繰り上げたものを「参照信号E1」のRchの近端話者音響信号としてもよい。ただし、Tの値は、例えば、0≦T≦τである。あるいは、評価試験時の処理により、「参照信号E1」と「劣化信号D1」「劣化信号D2」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。例えば、「参照信号E1」「劣化信号D1」「劣化信号D2」のファイル名やそれらを構成する信号の時間情報を持つデータ構造であればよい。データ構造がさらに遅延量τを特定するための情報を持っていてもよい。このような場合、データ記憶部180に格納されている「参照信号E1」と「劣化信号D1」「劣化信号D2」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間が一致または近似されていなくてもよい。要は、何らかの方法で、「参照信号E1」「劣化信号D1」「劣化信号D2」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号E1」「劣化信号D1」「劣化信号D2」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号E1」「劣化信号D1」「劣化信号D2」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。また、「劣化信号D1」「劣化信号D2」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間が一致していないデータ構造であってもよい。
[第1実施形態の変形例2]
第1実施形態では、時間調整処理部208,280それぞれの遅延処理により、「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させた。しかしながら、このような目的は他の手段によっても実現できる。例えば、遠端話者音響信号記憶部102から読み出された遠端話者音響信号を遅延させることなく「参照信号E2」のLchの基準音響信号として出力部252から出力し、近端話者音響信号記憶部101から読み出された近端話者音響信号を時間τ’だけ時間的に繰り上げたものを「参照信号E2」のRchの近端話者音響信号としてもよい。要は、
(1)「特殊信号D4」のRchの近端話者音響信号が出力されてから、そのLchの評価対象音響信号T4に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号E2」のRchの近端話者音響信号が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、および、
(2)「特殊信号D3」のRchの近端話者音響信号が出力されてから、そのLchの評価対象音響信号T3に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号E2」のRchの近端話者音響信号が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、
の少なくとも一方を行う1個以上の時間調整処理部を備えていればよい。その他、評価試験の時の処理により、「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。要は、何らかの方法で、「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。
[第2実施形態]
第2実施形態は第1実施形態の変形例であり、通信環境および室内環境を電気的に模擬したデータ生成装置で、評価試験を行うためのすべてのデータ構造を生成するものである。以下では、これまで説明した事項との相違点を中心に説明する。既に説明した事項については、それらに用いた参照番号を流用して説明を簡略化する。
<データ生成装置>
図5に例示するように、本実施形態のデータ生成装置2は、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、時間調整処理部208、通信環境模擬処理部260、信号処理部270、出力部231,232,241,242,251,252、およびデータ記憶部180を有する。データ生成装置2は、例えば、音声信号の処理が可能な汎用または専用の1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
通信環境模擬処理部260は、通信環境を電気的に模擬した通信環境模擬処理を行う。さらに通信環境模擬処理部260は、前述した遠端端末部120側(第2端側)の空間環境(空間伝達系)を電気的に模擬するか、模擬しないかを切り替えることもできる。すなわち、通信環境模擬処理部260は、遠端端末部120側(第2端側)の空間環境を模擬した条件に基づいて信号を劣化させるか、当該空間環境を模擬した条件に基づいた劣化をさせないかを切り替えることができる。この通信環境模擬処理は、少なくとも、近端話者音響信号(第1音響信号)に第1時間調整処理を含む処理を行って得られる信号と、遠端話者音響信号(第2音響信号)に第2時間調整処理を含む処理を行って得られる信号と、を重畳する処理を含む。また空間環境を電気的に模擬する処理(空間環境を模擬した条件に基づいて信号を劣化させる処理)は、擬似エコーおよび擬似雑音の少なくとも一方を信号に重畳する処理を含む。例えば、図6に例示するように、通信環境模擬処理部260は、時間調整処理部264,266、擬似エコー生成部265、加算部267、入力部261,262、出力部263、および切り替え部269aを含む。さらに、通信環境模擬処理部260が擬似雑音源268および切り替え部269bを含んでもよい。なお、擬似エコー生成部265は、遠端端末部120側の空間での反響や残響を模擬するためのものである。擬似雑音源268は、遠端端末部120のマイクロホン107の周囲で発生する、遠端話者の音声以外のあらゆる環境雑音を模擬するためのものである。
<データ生成処理>
次に、本実施形態のデータ生成処理を説明する。
第1実施形態と同じく、まず事前処理として、近端話者音響信号(第1音響信号)のデータを近端話者音響信号記憶部101に格納し、遠端話者音響信号(第2音響信号)のデータを遠端話者音響信号記憶部102に格納する。以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。
≪参照信号および劣化信号の生成≫
参照信号E1および劣化信号D1,D2の生成を行う場合、切り替え部269a(図6)は時間調整処理部264を擬似エコー生成部265に接続し、擬似エコー生成部265を駆動させる。通信環境模擬処理部260が擬似雑音源268および切り替え部269bを含む場合には、切り替え部269bが擬似雑音源268を加算部267に接続し、擬似雑音源268を駆動させる。
近端話者音響信号記憶部101(図5)から近端話者音響信号が抽出され、出力部231,241,251、通信環境模擬処理部260の入力部262、および信号処理部270の入力部272に送られる。遠端話者音響信号記憶部102から遠端話者音響信号が抽出され、時間調整処理部208および通信環境模擬処理部260の入力部261に入力される。
出力部231,241,251は、送られた近端話者音響信号(第1音響信号)を、それぞれ、「劣化信号D1」,「劣化信号D2」,「参照信号E1」のRchのデータ(第1音響信号を含む第1チャネルの第1データ)として出力する。
通信環境模擬処理部260は、入力部261および262に入力された遠端話者音響信号(第2音響信号)および近端話者音響信号(第1音響信号)に対し、前述した「空間環境を電気的に模擬する処理」を含む「通信環境模擬処理」を行い、それによって得られた重畳信号を出力部263から出力する。図6の例の場合、入力部261に入力された遠端話者音響信号は時間調整処理部266に入力され、入力部262に入力された近端話者音響信号は時間調整処理部264に入力される。時間調整処理部266は、当該遠端話者音響信号に遅延量B’の遅延を与え、それによって得られた信号を加算部267に送る(第1時間調整処理)。時間調整処理部264は、当該近端話者音響信号に遅延量C’の遅延を与え、遅延された近端話者音響信号を、切り替え部269a経由で擬似エコー生成部265に送る(第2時間調整処理)。擬似エコー生成部265は、第2時間調整処理で遅延させた近端話者音響信号を用いて擬似エコー信号を作成(例えば、近端話者音響信号を遠端話者側のスピーカーで再生して遠端話者側のマイクロホンで収音するときの空間伝達系および収音時の波形歪みを模擬した信号を擬似エコー信号として生成)し、当該擬似エコー信号を加算部267に送る。加算部267は、第1時間調整処理によって得られた信号と、擬似エコー信号と、を重畳して重畳信号を得る。擬似雑音源268が存在する場合には、加算部267は、第1時間調整処理によって得られた信号と、擬似エコー信号と、擬似雑音源268から出力された擬似雑音信号と、を重畳して重畳信号を得てもよい。加算部267で得られた重畳信号(模擬信号)は出力部263に送られ、出力部263はそれを出力する。前述のように、遅延量B’は、例えば、第1実施形態の伝送遅延量Bを模擬するものである。一方、遅延量C’は、例えば、第1実施形態の遅延量Cを模擬するものである。そのため、B’<C’であることが望ましい(例えば、C’=2×B’)。しかしながら、これは本発明を限定するものではなく、B’=C’やB’>C’または、B’=C’=0であってもよい。
出力部263から出力された重畳信号は、出力部232および信号処理部270の入力部271に入力される。出力部232は、送られた重畳信号(評価対象音響信号T1)を「劣化信号D1」のLchのデータ(第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境を模擬した条件に基づいて劣化した第2重畳信号を含む第2チャネルの第2データ)として出力する。
信号処理部270は、入力部271に入力された重畳信号と入力部272に入力された近端話者音響信号を用い、当該重畳信号に信号処理を行って処理信号(第2重畳信号)を得る。図2Bの例の場合、近端話者音響信号を時間調整処理部276で遅延させた信号に適応フィルタ275を適用して得られた信号と当該重畳信号とを加算部274で重畳することでエコーキャンセル処理を行い、雑音除去部278および乗算部277を有する場合には、さらにノイズキャンセル処理を行って、それによって処理信号を得る。ノイズキャンセル処理の方法は、例えば、近端話者および遠端話者のどちらの音響信号も存在しない状態で、図6の擬似雑音源268が送出する擬似雑音の定常雑音レベルを雑音推定部278で推定し、加算部274からの出力信号に対して、推定した定常雑音レベルの分だけ振幅が抑圧されるように、乗算部277でゲイン値を乗じるものである(例えば、参考文献2等参照)。得られた処理信号は出力部273から出力される。出力部273は処理信号を出力部242に送る。出力部242は、送られた処理信号(評価対象音響信号T2)を「劣化信号D2」のLchのデータ(第2重畳信号を含む第2チャネルの第2データ)として出力する。
時間調整処理部208は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部252に送る。前述のように、遅延量τ’は、例えば、上述の遅延量B’に対応する。例えば、遅延量B’または当該遅延量B’の近似値もしくは補正値(関数値)を遅延量τ’とする。あるいは、遅延量τ’が遅延量C’に対応してもよい。例えば、τ’がC’/2またはC’/2の関数値であってもよい。あるいは、遅延量τ’が遅延量B’および遅延量C’に対応してもよい。出力部252は、時間調整処理部208で遅延させた遠端話者音響信号(基準音響信号)を「参照信号E1」のLchのデータ(第2音響信号を含む信号に基づく比較用信号を含む第2チャネルの第4データ)として出力する。以上の処理によっても図4に例示するようなデータ構造を得ることができる。得られたデータ構造はデータ記憶部180に格納される。
≪参照信号および特殊信号の生成≫
参照信号E2および特殊信号D3,D4の生成を行う場合、切り替え部269aは時間調整処理部264を擬似エコー生成部265から切断し、加算部267に接続するとともに、擬似エコー生成部265を停止させる。通信環境模擬処理部260が擬似雑音源268および切り替え部269bを含む場合には、切り替え部269bは擬似雑音源268を加算部267から切断し、擬似雑音源268を停止させる。
近端話者音響信号記憶部101から近端話者音響信号が抽出され、出力部231,241,251、通信環境模擬処理部260の入力部262、および信号処理部270の入力部272に送られる。遠端話者音響信号記憶部102から遠端話者音響信号が抽出され、時間調整処理部208および通信環境模擬処理部260の入力部261に入力される。
出力部231,241,251は、送られた近端話者音響信号(第1音響信号)を、それぞれ、「特殊信号D3」,「特殊信号D4」,「参照信号E2」のRchのデータ(第1音響信号を含む第1チャネルの第1データ)として出力する。
通信環境模擬処理部260は、入力部261および262に入力された遠端話者音響信号(第2音響信号)および近端話者音響信号(第1音響信号)に対し、「空間環境を電気的に模擬」しない「通信環境模擬処理」を行い、それによって得られた重畳信号を出力部263から出力する。図6の例の場合、入力部261に入力された遠端話者音響信号は時間調整処理部266に入力され、入力部262に入力された近端話者音響信号は時間調整処理部264に入力される。時間調整処理部266は、当該遠端話者音響信号に遅延量B’の遅延を与え、それによって得られた信号を加算部267に送る(第1時間調整処理)。時間調整処理部264は、当該近端話者音響信号に遅延量C’の遅延を与え、遅延された近端話者音響信号を、加算部267に送る(第2時間調整処理)。加算部267は第1時間調整処理によって得られた信号と第2時間調整処理によって得られた信号を重畳する。加算部267で得られた重畳信号は出力部263に送られ、出力部263はそれを出力する。前述のように、遅延量B’は、例えば伝送遅延量Bを模擬するものである。一方、遅延量C’は、例えば遅延量Cを模擬するものである。そのため、B’<C’であることが望ましい(例えば、C’=2×B’)。しかしながら、これは本発明を限定するものではなく、B’=C’やB’>C’または、B’=C’=0であってもよい。
出力部263から出力された重畳信号は、出力部232および信号処理部270の入力部271に入力される。出力部232は、送られた重畳信号(評価対象音響信号T3)を「特殊信号D3」のLchのデータとして出力する。
信号処理部270は、入力部271に入力された重畳信号と入力部272に入力された近端話者音響信号を用い、前述のように当該重畳信号に信号処理を行って処理信号(第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号に信号処理を行って得られた処理信号に由来する第3重畳信号。例えば、第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号に信号処理を行って得られた処理信号に由来する第3重畳信号)を得る。得られた処理信号(第3重畳信号)は出力部273から出力される。出力部273は処理信号を出力部242に送る。出力部242は、送られた重畳信号(評価対象音響信号T4:第3重畳信号)を「特殊信号D4」のLchのデータ(第3重畳信号を含む第2チャネルの第3データ)として出力する。
時間調整処理部208は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部252に送る。出力部252は、時間調整処理部208で遅延させた遠端話者音響信号を「参照信号E2」のLchのデータ(第2音響信号を含む信号に基づく比較用信号を含む第2チャネルの第4データ)として出力する。得られたデータ構造はデータ記憶部180に格納される。
[第2実施形態の変形例]
第2実施形態では、時間調整処理部208,264,266,276それぞれの遅延処理により、「参照信号E1」「劣化信号D1」「劣化信号D2」の間および「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させた。しかしながら、第1実施形態の変形例1,2と同様、このような目的は他の手段によっても実現できる。例えば、遠端話者音響信号記憶部102から読み出された遠端話者音響信号を遅延させることなく「参照信号E1」「参照信号E2」のLchの基準音響信号として出力部252から出力し、近端話者音響信号記憶部101から読み出された近端話者音響信号を時間τ’だけ時間的に繰り上げたものを「参照信号E1」「参照信号E2」のRchの近端話者音響信号としてもよい。要は、
(1)「劣化信号D2」のRchの近端話者音響信号が出力されてから、そのLchの評価対象音響信号T2に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号E1」のRchの近端話者音響信号が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、
(2)「特殊信号D4」のRchの近端話者音響信号が出力されてから、そのLchの評価対象音響信号T4に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号E2」のRchの近端話者音響信号が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、
(3)「劣化信号D1」のRchの近端話者音響信号が出力されてから、そのLchの評価対象音響信号T1に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号E1」のRchの近端話者音響信号が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、および、
(4)「特殊信号D3」のRchの近端話者音響信号が出力されてから、そのLchの評価対象音響信号T3に含まれる遠端話者音響信号成分が出力されるまでの時間と、「参照信号E2」のRchの近端話者音響信号が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分が出力されるまでの時間との一致または近似、
の少なくともいずれかを行う1個以上の時間調整処理部を備えていればよい。その他、評価試験の時の処理により、「参照信号E1」「劣化信号D1」「劣化信号D2」の間および「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。要は、何らかの方法で、「参照信号E1」「劣化信号D1」「劣化信号D2」の間および「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号」「劣化信号D1」「劣化信号D2」および「参照信号E2」「特殊信号D3」「特殊信号D4」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号」「劣化信号D1」「劣化信号D2」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。
[第3実施形態]
第3実施形態では、前述のように生成されたデータ構造を用いた品質評価方法を説明する。
<音響品質評価装置>
図7に例示するように、本実施形態の音響品質評価装置3は、データ記憶部180、集計結果記憶部305、再生制御部301、表示制御部302、集計部303、制御部304、音響出力処理部310−n、表示部320−n、および入力部330−nを有する。ただし、n=1,・・・,Nであり、Nは1以上の整数(例えば、Nは1以上4以下)である。音響品質評価装置3は、例えば、表示装置(ディスプレイ等)および入力装置(キーボードやマウス等)を備えた前述のような1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
<音響品質評価処理>
音響品質評価装置3は、前述したデータ構造を用い、制御部304の制御のもと、前述した拡声系通信システムでの会話MOS試験を模擬した評価試験を行う。
n=1,・・・,Nについて、音響出力処理部310−nの出力部311−nに両耳装着型音響再生装置340−nの一方のチャネルであるRch(第1チャネル:例えば右チャネル)が接続され、出力部312−nに両耳装着型音響再生装置340−nの他方のチャネルであるLch(第2チャネル:例えば左チャネル)が接続される。なお、両耳装着型音響再生装置340−nとは、一方のチャネルRchの音を出力する一方の耳専用のスピーカーと、他方のチャネルLchの音を出力する他方の耳専用のスピーカーと、を備えたステレオ再生可能な音響再生装置である。両耳装着型音響再生装置340−nの具体例は、ヘッドフォンやイヤホン等である。評価者350−nは、両耳装着型音響再生装置340−nを装着し、表示部320−nから出力される表示内容に従って、両耳装着型音響再生装置340−nから出力される音の主観評価を行い、評価結果を入力部330−nに入力する。なお、評価者350−nは、その利き耳(例えば、左耳)にチャネルLchの音を出力する側のスピーカーを装着し、利き耳ではない側の耳(例えば、右耳)にチャネルRchの音を出力する側のスピーカーを装着することが望ましい。以下、これらの処理を詳細に説明する。
再生制御部301は、制御部304の制御に従い(制御内容は後述)、データ記憶部180から前述したデータ構造から「参照信号E1」「劣化信号D1」「劣化信号D2」「参照信号E2」「特殊信号D3」「特殊信号D4」の何れかを抽出し、音響出力処理部310−n(ただし、n=1,・・・,N)に送る。この際に、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させるための処理がなされてもよい。音響出力処理部310−nは、送られた信号に応じて以下の処理を行う。なお、「参照信号E1」および「参照信号E2」の基準音響信号が表す音を「基準音」とよび、「劣化信号D1」および「特殊信号D3」の評価対象音響信号T1およびT3が表す音、および「劣化信号D2」および「特殊信号D4」の評価対象音響信号T2およびT4が表す音を「評価音」とよぶことにする。
≪「参照信号E1」または「参照信号E2」が送られた場合≫
「参照信号E1」または「参照信号E2」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、送られた「参照信号E1」または「参照信号E2」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nの一方のチャネルであるRch(第1チャネル)に出力しつつ、送られた「参照信号E1」または「参照信号E2」の基準音響信号を出力部312−nから両耳装着型音響再生装置340−nの他方のチャネルであるLch(第2チャネル)に出力する(第1処理)。
≪「劣化信号D1」が送られた場合≫
「劣化信号D1」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、送られた「劣化信号D1」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nのRch(第1チャネル)に出力しつつ、送られた「劣化信号D1」の評価対象音響信号T1(第2重畳信号)を出力部312−nから両耳装着型音響再生装置340−nのLch(第2チャネル)に出力する(第2処理)。
≪「劣化信号D2」が送られた場合≫
「劣化信号D2」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、「劣化信号D2」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nのRch(第1チャネル)に出力しつつ、「劣化信号D2」の評価対象音響信号T2(第2重畳信号)を出力部312−nから両耳装着型音響再生装置340−nのLch(第2チャネル)に出力する(第2処理)。
≪「特殊信号D3」が送られた場合≫
「特殊信号D3」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、送られた「特殊信号D3」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nのRch(第1チャネル)に出力しつつ、送られた「特殊信号D3」の評価対象音響信号T3を出力部312−nから両耳装着型音響再生装置340−nのLch(第2チャネル)に出力する。
≪「特殊信号D4」が送られた場合≫
「特殊信号D4」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、送られた「特殊信号D4」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nのRch(第1チャネル)に出力しつつ、送られた「特殊信号D4」の評価対象音響信号T4(第3重畳信号)を出力部312−nから両耳装着型音響再生装置340−nのLch(第2チャネル)に出力する(第3処理)。
表示制御部302は、制御部304の制御に従い(制御内容は後述)、表示部320−n(ただし、n=1,・・・,N)に表示情報を送る。表示部320−nは、送られた表示情報に従い、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての2段階以上の度合いと、の組み合わせからなる3段階以上のカテゴリーを含む評価カテゴリーを表示する。評価者350−nは、この表示に従って両耳装着型音響再生装置340−nから出力された音を主観評価する。ここで「基準音」は、遠端話者から理想的な状態で受信した音響信号に相当する。近端話者からの直接音に相当する「近端話者音」と合わせて提示することで、拡声系通信システムの理想的な状態を模擬することができる。「近端話者音」を「基準音響信号」と同時に提示することで、近端話者の音声の回り込み(音響エコー)と、遠端話者の音声を区別しやすくなる。「評価音」を常に「基準音」と比較することで、評価対象とする通信システムがどれだけ理想的な状態に近いか、または異なる状態であるか、を客観的に、かつ主観的に評価することができる。 「評価音」のみを提示して評価すると、遠端話者の言いよどみや、遠端話者の周囲騒音などが劣化要因として判断され、低く評価される可能性が高い。常に「基準音」と比較することで、通信システム以外の劣化要因が評価対象から排除され、ばらつきの少ない、的確な評価値を得ることができる。また、この評価カテゴリーは、基準音に対する評価音の劣化のみならず、評価音の聞き取りにくさ(聞き取り易さ)に対する評価基準を定めたものである。このように、評価音の基準音からの劣化度と聞き取りやすさの度合いを組み合わせた評価カテゴリーを表示することで、従来のDCR(劣化カテゴリ評価)のように劣化のみに着目した評価カテゴリーを表示する場合に比べ、どのような基準で評価を行えばよいかが明確になり、複数の要因が複雑に絡み合うような環境でも評価ばらつきを小さくすることができる。また、評価音の聞き取り「にくさ」についての評価基準(否定的な評価基準)を表示することで、評価音の聞き取り「易さ」についての評価基準(肯定的な評価基準)を表示する場合に比べて評価者350−nの選択が厳密になり、評価精度が向上する。これは生理学上の自然法則に基づく。
好ましくは、評価カテゴリーは、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての3段階以上の度合いと、の組み合わせからなる4段階以上のカテゴリーを含む。評価音の聞き取りにくさについての3段階以上の度合いについての評価基準を定めることで、評価精度をより向上させることができる。特に、評価カテゴリーは、基準音と評価音との違いが分からないことを表す1段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての4段階の度合いとの組み合わせからなる4段階のカテゴリーとを含むことが望ましい。以下に評価カテゴリーの具体例を示す。
なお、「基準音と違いが分からない」「違いはあるが」「違いがあり」は「基準音と評価音との違いが分かるか否か」を表し、「聞き取りには問題がない」「少し聞き取りにくい」「聞き取りにくい」「非常に聞き取りにくい」は「評価音の聞き取りにくさについての度合い」を表す。この例の各評価カテゴリーには1から5の評価を表す値が対応付けられており、この値が大きいほど品質が高いことを表す。ここでは、「基準音」が理想的な状態であるとしてカテゴリーを設定したが、評価対象とする通信システムのノイズキャンセラ等の効果によって、「評価音」が「基準音」よりも評価が高くなる状態も考えられる。この場合は、さらに上位のカテゴリーとして「違いはあるが、聞き取りやすい」を含めてもよい。
以下に従来のDCR(劣化カテゴリ評価)で用いられていた劣化のみに着目した評価カテゴリーを示す。表1の評価カテゴリーと比べて主観的・内面的な表現が多いことが分かる。
さらに、表示制御部302が出力する表示情報が、評価音の聞き取り易さの評価を指示するための情報を含み、表示部320−nが、さらに評価音の聞き取り易さの評価を指示するための表示(「何を評価するか」を表す表示)を行ってもよい。例えば、表示部320−nは「評価音の『女声(左側)』の聞き取り易さ、を評価してください」と表示してもよい。この例において左側とは「参照信号」「劣化信号D1」「劣化信号D2」におけるLch(第2チャネル)側のスピーカーの出力を指している。上述のように、評価カテゴリーは、基準音と評価音との違いが分かるか否かと評価音の聞き取りにくさについての度合いとの組み合わせからなる。生理学上、人間は違いの有無には敏感であり、特に注意をしていなくても基準音と評価音との違いの有無を評価することができる。一方、聞き取り易さについては注意をしていないと適切な評価を行うことができない。このような自然法則に基づき、表示部320−nが、さらに評価音の聞き取り易さの評価を指示するための表示を行うことで、評価精度を向上できたり、評価ばらつきを低減できたりする。なお、何を評価するかを表す表示として「評価音の聞き取り『にくさ』の評価を指示するための表示」を行った場合、生理学上、評価者350−nは詳細な点に注目しすぎてしまい、「聞き取り易さ」への影響が小さな劣化をも評価してしまう傾向がある。何を評価するかを表す表示として「評価音の聞き取り『易さ』の評価を指示するための表示」することで、評価者350−nの評価が適切になり、評価精度を向上できたり、評価ばらつきを低減できたりする。
さらに、表示制御部302が出力する表示情報が、何に着目するかを表示するための情報を含み、表示部320−nが「何に着目するか」を表示してもよい。例えば、表示部320−nは、上述の「第1処理」の際に基準音に着目する旨の指示を表す表示を行い、「第2処理」や「第3処理」の際に評価音に着目する旨の指示を表す表示を行ってもよい。例えば、表示部320−nは、「第1処理」の際に「基準音(1):『女声(左側)』に着目してください」との表示を行い、「劣化信号D1」を出力する「第2処理」の際に「評価音(1):『女声(左側)』に着目してください」との表示を行い、「劣化信号D2」を出力する「第2処理」の際に「評価音(2):『女声(左側)』に着目してください」との表示を行ってもよい。同様に、表示部320−nは、「特殊信号D3」を出力する際に「評価音(1):『女声(左側)』に着目してください」との表示を行い、「特殊信号D4」を出力する「第3処理」の際に「評価音(2):『女声(左側)』に着目してください」との表示を行ってもよい。これにより、評価対象を明らかにし、評価者350−nを評価対象音響信号(遠端話者音響信号側)に着目させるとともに、評価者350−nを近端話者音響信号側に着目させないようにすることができる。また、音響出力処理部310−nから出力される信号に応じて、表示部320−nから表示される「何に着目するか」「何を評価するか」の表示が変わることで、評価対象音響信号の発生タイミングを視覚的に認識させることができる。
主観評価を行った評価者350−nは、評価カテゴリーから選択したカテゴリーを表す情報(第2重畳信号および第3重畳信号に対する評価結果を表す情報)である評価値I−nを入力部330−nに入力する。図8に表示部320−nが表示する表示画面321を例示する。この表示画面321は、「何に着目するか」を表示する着目内容提示部3211、「何を評価するか」を表示する評価指示提示部3212、評価カテゴリーを表示する評価カテゴリー提示部3213、評価を表す値「1」〜「5」(評価値I−n)の入力のためにタッチまたはクリックされるアイコン3214〜3218、入力確定のためにタッチまたはクリックされるアイコン3219を含む。なお、図8のように、アイコン3214〜3219の並びは一列であることが望ましい。評価者350−nは、着目内容提示部3211、評価指示提示部3212、評価カテゴリー提示部3213の表示に従い、両耳装着型音響再生装置340−nから出力された音を主観評価し、評価に対応するアイコン3214〜3218の何れかをタッチまたはクリックし、確定のためのアイコン3219をタッチまたはクリックする。アイコン3214〜3219がアクティブでアイコン3219がタッチまたはクリックされるまでは、評価者350−nはアイコン3214〜3218を何度も選び直すタッチまたはクリック操作が可能である。これにより、評価カテゴリーから選択されたカテゴリーを表す評価値I−nが入力部330−nに入力される。なお、評価条件を同一とするため、上述の評価試験は、すべての評価者350−n(ただし、n=1,・・・,N)によって同時に実行されることが望ましい。一定時間以上評価が確定しない評価者がいる場合は、その評価者に対して確定を促す画面表示と、他の評価者に対しては待たせる画面表示を行ってもよい。
入力部330−nに入力された評価値I−nは集計部303に送られる。集計部303は、評価値I−nを集計し、それによって得られた集計結果を集計結果記憶部305に格納する。例えば、集計結果は、評価者350−nを表すID、評価試験に用いられた「劣化信号D2」や「特殊信号D4」等の音響信号やその条件とともに格納される。評価値I−nの集計結果は、評価値I−nの集合であってもよいし、評価試験に用いられた音響信号ごとでの最大値、最小値、平均値、分散値等であってもよい。評価内容に疑いがある評価者350−nに対応する評価値I−nを除外してから求めた最大値、最小値、平均値、分散値等を集計結果としてもよい。その他、他の処理装置でさらに詳しい分析が行われてもよい。
≪制御部304の制御内容≫
次に、図9から図13を用い、制御部304の制御内容を例示する。これらの図の横軸は時間軸を表し、紙面の右に向かうほど後の時間を表す。これらの図の「Lch」の行は、両耳装着型音響再生装置340−nのLch側のスピーカーから出力させる音を表し、「Rch」の行は、両耳装着型音響再生装置340−nのRch側のスピーカーから出力させる音を表す。これらの図の「3211」の列は、着目内容提示部3211の提示内容(何に着目するか)を表し、「3212」の列は、評価指示提示部3212の提示内容(何を評価するか)を表し、「3213」の列は、評価カテゴリー提示部3213の提示内容(評価カテゴリー)を表す。
≪図9の例≫
図9の例では、まず、再生制御部301がデータ記憶部180から「参照信号E1」を読み込み、それを音響出力処理部310−n(ただし、n=1,・・・,N)に送る。音響出力処理部310−nは、出力部312−nから「参照信号E1」の基準音響信号を出力し、出力部311−nから「参照信号E1」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置340−nのLchからは基準音響信号が表す「基準音」が出力され、Rchからは近端話者からの直接音に相当する「近端話者音」が出力される。この際、表示制御部302は、着目内容F1および評価カテゴリーを表す表示情報を表示部320−nに送る。なお、着目内容F1は、基準音(Lch)に着目する旨の指示を表す内容(例えば「基準音(1):「女声(左側)」に着目してください」)を意味する。また、評価カテゴリーは、前述の「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての2段階以上の度合いと、の組み合わせからなる3段階以上のカテゴリーを含む評価カテゴリー」である。表示部320−nは、着目内容F1を着目内容提示部3211に提示し、評価カテゴリーを評価カテゴリー提示部3213に提示する(ステップS1)。
次に、再生制御部301がデータ記憶部180から「劣化信号D2」を読み込み、それを音響出力処理部310−n(ただし、n=1,・・・,N)に送る。音響出力処理部310−nは、出力部312−nから「劣化信号D2」の評価対象音響信号T2を出力し、出力部311−nから「劣化信号D2」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置340−nのLchからは「劣化信号D2」の評価対象音響信号T2が表す「評価音」が出力され、Rchからは近端話者音響信号が表す「近端話者音」が出力される。この際、表示制御部302は、着目内容F2、評価指示S1、および、評価カテゴリーを表す表示情報を表示部320−nに送る。なお、着目内容F2は、評価音(Lch)に着目する旨の指示を表す内容(例えば「評価音(1):『女声(左側)』に着目してください」)を意味する。評価指示S1は、評価音(Lch)の聞き取り易さの評価の指示(例えば「評価音の『女声(左側)』の聞き取り易さ、を評価してください」)を意味する。表示部320−nは、着目内容F2を着目内容提示部3211に提示し、評価指示S1を評価指示提示部3212に提示し、評価カテゴリーを評価カテゴリー提示部3213に提示する(ステップS2)。
さらに、ステップS1をもう一度実行し(ステップS3)、さらにステップS2をもう一度実行してもよい(ステップS4)。また、ステップS1、ステップS2の繰り返しを3回以上としてもよい。
その後、アイコン3214〜3219をアクティブにして、入力部330−nからの評価値I−nおよび確定の旨の入力を受け付ける(ステップS5)。
さらに、ステップS1〜S4の少なくとも何れかの「劣化信号D2」を「劣化信号D1」に置換し、「評価対象音響信号T2」を「評価対象音響信号T1」に置換した処理が実行されてもよい。ステップS1〜S4の少なくとも何れかの「劣化信号D2」を「特殊信号D3」に置換し、「評価対象音響信号T2」を「評価対象音響信号T3」に置換した処理が実行されてもよい。ステップS1〜S4の少なくとも何れかの「劣化信号D2」を「特殊信号D4」に置換し、「評価対象音響信号T2」を「評価対象音響信号T4」に置換した処理が実行されてもよい。ステップS1〜S4の少なくとも何れかの「参照信号E1」を「参照信号E2」に置換した処理が実行されてもよい。ただし、ステップS1〜S4で出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号(参照信号、および劣化信号または特殊信号)に対応する。例えば、ステップS1で出力される「基準音」が「参照信号E1」に対応する場合、ステップS2で出力される「評価音」は「劣化信号D1」または「劣化信号D2」に対応し、ステップS3で出力される「基準音」が「参照信号E1」に対応する場合、ステップS4で出力される「評価音」は「劣化信号D1」または「劣化信号D2」に対応する。例えば、ステップS1で出力される「基準音」が「参照信号E2」に対応する場合、ステップS2で出力される「評価音」は「特殊信号D3」または「特殊信号D4」に対応し、ステップS3で出力される「基準音」が「参照信号E2」に対応する場合、ステップS4で出力される「評価音」は「特殊信号D3」または「特殊信号D4」に対応する。また、評価カテゴリー提示部3213の評価カテゴリーの提示はステップS1〜S5を通して継続的に行われてもよいし、各ステップが終了するたびに評価カテゴリーの提示が消えてもよい。
≪図10の例≫
図10の例では、「基準音」、評価対象音響信号T1が表す「評価音」、および評価対象音響信号T2が表す「評価音」のうち、対比を行う一組の音をランダムに選択し、選択した音を順番に出力する。
以下に処理の具体例を示す。
まず再生制御部301は、「参照信号E1」「劣化信号D1」「劣化信号D2」から、対比する組をランダムに選択する。対比する組の例は、「参照信号E1」と「劣化信号D1」とからなる組、「参照信号E1」と「劣化信号D2」とからなる組、「劣化信号D1」と「劣化信号D2」とからなる組である。対比する組を構成する信号のうち、先に出力する信号を「第1出力信号」とよび、後に出力する信号を「第2出力信号」とよぶ。対比する組を構成する信号のうち何れを先に出力してもかまわない。例えば、「参照信号E1」と「劣化信号D1」とからなる組を対比する場合、「参照信号E1」を「第1出力信号」とし、「劣化信号D1」を「第2出力信号」としてもよいし、「参照信号E1」を「第2出力信号」とし、「劣化信号D1」を「第1出力信号」としてもよい。
次に、Lchから「第1出力信号」に対応する「基準音または評価音」が出力され、Rchから「第1出力信号」に対応する「近端話者音」が出力される(ステップS21)。「第1出力信号」が「参照信号E1」である場合のステップS21の処理は、前述のステップS1と同じである。「第1出力信号」が「劣化信号D2」である場合のステップS21の処理は、評価指示S1を評価指示提示部3212に提示しない以外、前述のステップS2と同じである。「第1出力信号」が「劣化信号D1」である場合のステップS21の処理は、前述のステップS2の処理において「劣化信号D2」を「劣化信号D1」に置換し、「評価対象音響信号T2」を「評価対象音響信号T1」に置換し、評価指示S1を評価指示提示部3212に提示しないこととした処理である。
次にLchから「第2出力信号」に対応する「基準音または評価音」が出力され、Rchから「第2出力信号」に対応する「近端話者音」が出力される(ステップS22)。「第2出力信号」が「参照信号E1」である場合のステップS22の処理は、前述のステップS1に加え、評価指示S1を評価指示提示部3212に提示する処理を行うものである。「第2出力信号」が「劣化信号D2」である場合のステップS21の処理は、前述のステップS2と同じである。「第2出力信号」が「劣化信号D1」である場合のステップS21の処理は、前述のステップS2の処理において「劣化信号D2」を「劣化信号D1」に置換し、「評価対象音響信号T2」を「評価対象音響信号T1」に置換した処理である。最後に、評価値の入力とその確定が行われる(ステップS5)。
また、ステップS21,22において、「参照信号E1」を「参照信号E2」に置換し、「劣化信号D1」を「特殊信号D3」に置換し、「劣化信号D2」を「特殊信号D4」に置換してもよい。ただし、ステップS21,22で出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号(参照信号、および劣化信号または特殊信号)に対応する。その他、ステップS21,22の変形例として、Lchから出力されている音が「基準音」であるか「評価音」であるかを提示しないこととしてもよい。すなわち、着目内容F1および着目内容F2に代えて、Lchに着目する旨の指示を表す内容(例えば「『女声(左側)』に着目してください」)を提示してもよい。この場合、評価者350−nは提示されている音が「基準音」であるか「評価音」であるかを知らされることなく、主観評価を行うことになる。
≪図11の例≫
図11の例では、1回目に「基準音」が出力され、2回目および3回目にそれぞれ「隠された基準音」または評価対象音響信号T1が表す「評価音」もしくは評価対象音響信号T2が表す「評価音」が出力される。ここで、2回目に「隠された基準音」が出力された場合、3回目には評価対象音響信号T1が表す「評価音」もしくは評価対象音響信号T2が表す「評価音」が出力される(パターン1)。一方、2回目に評価対象音響信号T1が表す「評価音」もしくは評価対象音響信号T2が表す「評価音」が出力された場合、3回目に「隠された基準音」が出力される(パターン2)。なお、「隠された基準音」とは、「基準音」であることを示さずに出力する「基準音」を意味する。また、パターン1とするかパターン2とするかはランダムに定められる。以下に処理の具体例を示す。
まず、Lchから「参照信号E1」に対応する「基準音」が出力され、Rchから「参照信号E1」に対応する「近端話者音」が出力される(ステップS31)。ステップS31の処理は、前述のステップS21と同じである。
次に、再生制御部301は、パターン1とするかパターン2とするかをランダムに選択する。
パターン1が選択された場合、まず、Lchから「参照信号E1」に対応する「隠された基準音」が出力され、Rchから「参照信号E1」に対応する「近端話者音」が出力され(ステップS32)、次に、Lchから「劣化信号D1」の評価対象音響信号T1が表す「評価音」もしくは「劣化信号D2」の評価対象音響信号T2が表す「評価音」が出力され、Rchから「劣化信号D1」もしくは「劣化信号D2」に対応する「近端話者音」が出力される(ステップS33)。
一方、パターン2が選択された場合、Lchから評価対象音響信号T1が表す「評価音」もしくは評価対象音響信号T2が表す「評価音」が出力され、Rchから「劣化信号D1」もしくは「劣化信号D2」に対応する「近端話者音」が出力され(ステップS32)、次に、Lchから「参照信号E1」に対応する「隠された基準音」が出力され、Rchから「参照信号E1」に対応する「近端話者音」が出力される(ステップS33)。
Lchから「参照信号E1」に対応する「隠された基準音」を出力し、Rchから「参照信号E1」に対応する「近端話者音」を出力する処理は、着目内容F2に代えて着目内容F1を着目内容提示部3211に提示し、評価指示S1を評価指示提示部3212に提示する以外は、前述のステップS1と同じである。また、Lchから評価対象音響信号T1が表す「評価音」もしくは評価対象音響信号T2が表す「評価音」を出力し、Rchから「劣化信号D1」もしくは「劣化信号D2」に対応する「近端話者音」を出力する処理は、前述のステップS2の処理、またはステップS2の処理において「劣化信号D2」を「劣化信号D1」に置換し、「評価対象音響信号T2」を「評価対象音響信号T1」に置換した処理と同じである。
最後に、評価値の入力とその確定が行われる(ステップS5)。ただし、評価者350−nは、ステップS32,S33で出力された音のうち、どちらが評価音かを判断し、評価音と判断した音に対してのみ評価値を入力する。評価音と判断されなかった音については自働的に「隠された基準音」と判断したとみなされ、隠された基準音に対する評価値「5」が付与される。また、評価者350−nが入力部330−nに指示入力を行うことにより、ステップS5の前に、ステップS31〜S33を所望の順序で何度でも実行できる構成であってもよい。また、ステップS31〜31において、「参照信号E1」を「参照信号E2」に置換し、「劣化信号D1」を「特殊信号D3」に置換し、「劣化信号D2」を「特殊信号D4」に置換してもよい。ただし、ステップS31〜31で出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号(参照信号、および劣化信号または特殊信号)に対応する。
≪図12の例≫
図12の例でも、1回目に「基準音」が出力され、2回目および3回目にそれぞれ、ランダムに選択されたパターン1またはパターン2に従い、「隠された基準音」または評価対象音響信号T1が表す「評価音」もしくは評価対象音響信号T2が表す「評価音」が出力される。ただし、2回目および3回目の出力時にそれぞれに対する評価値が入力され(ステップS132,S133)、最後に評価値の確定入力のみがなされる(ステップS105)。なお、評価者350−nは、ステップS132,S133で出力された音のうち、「隠された基準音」と判断したほうに評価値「5」を入力し、「評価音」と判断したほうに自らの評価値を入力する。その他の詳細は、図11の例と同じである。また、ステップS31,S132,S133において、「参照信号E1」を「参照信号E2」に置換し、「劣化信号D1」を「特殊信号D3」に置換し、「劣化信号D2」を「特殊信号D4」に置換してもよい。ただし、ステップS31,S132,S133で出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号(参照信号、および劣化信号または特殊信号)に対応する。
≪図13の例≫
図13では、1回目に「基準音」が出力され(ステップS41)、2回目からx+1回目(xは3以上の整数(例えばxは14以下))に「評価音1」から「評価音x」が出力され(ステップS42−1〜S42−x)、評価値の入力とその確定が行われる(ステップS5)。なお、「評価音1」から「評価音x」は、評価対象音響信号T1が表す「評価音」および評価対象音響信号T2が表す「評価音」の少なくとも一方、1個の「隠された基準音」、1個以上の「アンカー音」を含む。なお、「アンカー音」とは悪い音響品質の基準となる音を表す。複数のアンカー音を含む場合は、段階的に悪くなる音響品質の基準を用いてよい。また、ステップS5では、ステップS42−1〜S42−xで出力された音それぞれの評価値が入力される。また、「評価音1」から「評価音x」の出力順序はランダムに定められる。ただし、評価者350−nが入力部330−nに指示入力を行うことにより、ステップS5の前に、ステップS42−1〜S42−xを所望の順序で何度でも実行できる構成であってもよい。その他は、図11の例と同様である。また、ステップS41,S42−1〜S42−xにおいて、「参照信号E1」を「参照信号E2」に置換し、「劣化信号D1」を「特殊信号D3」に置換し、「劣化信号D2」を「特殊信号D4」に置換してもよい。ただし、ステップS41,S42−1〜S42−xで出力される「基準音」および「評価音」は、同一の「近端話者音響信号および遠端話者音響信号の組」から得られた信号(参照信号、および劣化信号または特殊信号)に対応する。
[第3実施形態の変形例1]
図7に例示するように、各入力部330−nと集計部303との間に評点記録部330−nが配置されていてもよい。各評点記録部330−nは、各入力部330−nから入力された評価値I−nを格納し、集計部303は、各評点記録部330−nから評価値I−nを抽出し、それによって得られた集計結果を集計結果記憶部305に格納する。各評価者350−nによって入力された評価値I−nを評点記録部330−nに記録しておくことにより、試験終了後または評価試験中に、異常な評価値I−n(例えば、評価試験中に評価者350−nが眠っていたときの評価値I−n、評価者350−nが間違えて入力した評価値I−nなど)を評点記録部330−nから除外し、正常な評価値I−nのみを用いて集計結果を生成することができる。また、評価試験中であれば、異常な評価値I−nを入力した評価者350−nについて再評価試験を行い、正常な評価値I−nを得て評点記録部330−nに格納された値を更新してもよい。
[第4実施形態]
本発明者は、第3実施形態で得られる主観評価値(基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての5段階評価に基づくMOS値(表1に例示))と、PESQ値(基準音響信号と、当該基準音響信号を含む信号に基づく評価対象音響信号と、に対するPESQ値)との関係が線形関係に近似できることを見出した(特許文献1〜3等参照)。この知見に基づき、自動的に算出されたPESQ値を用い、煩雑な主観評価や計算量の多い非線形演算を行うことなく、演算量の少ない線形演算でMOS値を推定できる。
しかし、特許文献1〜3では、拡声系通信システムの実環境を模擬した環境で収録されたデータ(劣化信号D1,D2)を用いて評価試験を行っていたため、高音質のデータに対する評価試験を行うことができなかった。そのため、高音質のデータでもMOS値とPESQ値との関係が線形関係に近似できることは確認されていなかった。また、低音質のデータに対する評価も不十分であったため、低音質のデータでもMOS値とPESQ値との関係が線形関係に近似できるかについても十分確認されていなかった。これに対し、本発明の第1,2実施形態では、「第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化若しくは空間環境を模擬した条件に基づく劣化がない信号に信号処理を行って得られた処理信号に由来する第3重畳信号を含む第2チャネルの第3データ」、例えば「第1音響信号に由来する信号と第2音響信号とに基づく重畳信号であって、第2端側の空間環境に基づく劣化も空間環境を模擬した条件に基づく劣化もない信号に信号処理を行って得られた処理信号に由来する第3重畳信号を含む第2チャネルの第3データ」を生成した。そのため、従来確認できなかった高音質のデータ(特殊信号D4)でもMOS値とPESQ値との関係が線形関係に近似できるか否かを確認できるようになった。また、低音質のデータは、第2実施形態で説明した通信環境模擬処理部260(図2B)の擬似エコー生成部265で得られる擬似エコー信号や擬似雑音源268で得られる擬似雑音信号の振幅を増加させることで生成できる。そのため、従来確認していなかった低音質のデータでもMOS値とPESQ値との関係が線形関係に近似できるか否かを確認できる。
図15は、「参照信号E1」「参照信号E2」「劣化信号D1」「劣化信号D2」「特殊信号D3」「特殊信号D4」を用い、第3実施形態で例示した評価試験を行って得られたMOS値(DMOS(Degradation MOS)値)と、それらに対応する「基準音響信号」および「評価対象音響信号T1〜T4」から得られたPESQ値との関係を表したグラフである。縦軸はMOS値(DMOS値)を表し、横軸はPESQ値を表す。小さなダイヤ形のマークは主観評価試験による測定値を表し、破線直線上の大きな正方形のマークはそれらの線形関係に基づいた推定値(回帰分析で推定した値)を表す。この図に示すように、高音質のデータ(PESQ値が3.5以上)でも、MOS値とそれに対応するPESQ値との関係を線形関係で近似できることが分かる。また、低音質のデータでも、大方、MOS値とそれに対応するPESQ値との関係を線形関係で近似できることが分かる。しかしながら、低音質のデータの中には、この線形関係で近似できないものも存在する(図15の領域rのデータ)。発明者は、この現象がPESQ値の算出時に実行される「時間ずれの補正処理」の誤りに起因することを見出した。すなわち、「基準音響信号」と当該「基準音響信号」を含む信号に基づく「評価対象音響信号」とに対するPESQ値を算出する場合、「基準音響信号」と「評価対象音響信号」との間の時間ずれ(例えば、遅延により生じた基準音響信号と評価対象音響信号の語頭若しくは話頭のずれ)が自動的に補正される(例えば、参考文献3「ITU-T Recommendation P.862」等参照)。本来、この補正は、「基準音響信号」の開始時間(例えば、図4の時間c)と、「評価対象音響信号」が含む「基準音響信号」成分(遠端話者音響信号成分)の開始時間(例えば、図4の時間c’)と、の間の時間ずれの削減を目的としている。「基準音響信号」の開始時間と「評価対象音響信号」が含む「基準音響信号」成分の開始時間との間の時間ずれが小さいほど、「基準音響信号」と「評価対象音響信号」が含む「基準音響信号」成分との間の類似度を正確に評価でき、PESQ値を正しく算出できるからである。しかし、低音質のデータの中には、「評価対象音響信号」に含まれるエコー成分(近端話者音響信号に基づく回り込み成分)の比率が大きいものも存在する。このようなデータの場合、「評価対象音響信号」に含まれるエコー成分の開始時間が「基準音響信号」成分の開始時間であると誤って判断され、「基準音響信号」の開始時間とエコー成分の開始時間との時間合わせが行われてしまう場合がある。例えば、図4の「劣化信号D1」の「評価対象音響信号T1」はエコー成分がキャンセルされていないため、「評価対象音響信号T1」が含む「基準音響信号」成分の開始時間c’をうまく検出できない場合がある。このような場合、「評価対象音響信号T1」の開始時間eが「基準音響信号」成分の開始時間c’であると誤って判断され、「基準音響信号」の開始時間cと「評価対象音響信号T1」の開始時間eとの間の時間ずれが補正されてしまう。その結果、実際よりも悪い(小さい)PESQ値が算出されてしまい、MOS値とPESQ値との関係が所定の線形関係から乖離してしまう(図15の領域rのデータ)。このような誤った判断によって補正される時間ずれの大きさは、正しい判断によって補正される時間ずれの大きさよりも大きい。そのため、補正された時間ずれの大きさによってPESQ値の信頼性を判断でき、さらには上述の線形関係を用いて当該PESQ値からMOS値を推定できるのかを判断できる。図16は、図15のデータから、補正された時間ずれの大きさが所定値を超えたデータを取り除いたものである。このように補正された時間ずれの大きさが所定値を超えたデータを取り除くことで、低音質のデータが含まれていても、MOS値とそれに対応するPESQ値との関係を線形関係で近似できる。
以上より、PESQ値の算出値に行われる時間ずれの補正の大きさが所定値以下の場合には、上述の線形関係を用いて当該PESQ値からMOS値を推定し、そうでない場合には当該PESQ値を破棄することにすれば、高い精度でMOS値を推定できる。特に、「基準音響信号」の開始時間と「評価対象音響信号」に含まれた「評価対象音響信号の成分」の開始時間とが同一または近似していることが好ましく、この場合にはより高い精度でMOS値を推定できる。なお、αとβとが近似するとは、αとβとの差分が|α|のγ%以下であることを意味する。γ%の例は10%または20%である。より具体的には、例えば、事前に得られた「基準音響信号」と「評価対象音響信号」とから上述の線形関係を表す線形関数Fを定式化しておく。この線形関数Fは、例えば所定の傾きaおよび切片bを持つ一次関数y=a×x+bである。ただし、xはPESQ値を表し、yはMOS値を表す。aは1.3または1.3の近傍であり、bは‐0.3または‐0.3の近傍である。なお、αの近傍とはα‐δ1以上α‐δ2以下の範囲に属する値を意味する。ただし、δ1およびδ2は正値であり、δ1=δ2であってもよいし、δ1≠δ2であってもよい。δ1およびδ2の例は|α|の10%または20%の値である。例えば、a=1.33であり、b=−0.27である。新たな「基準音響信号」と「評価対象音響信号」とからPESQ値が算出され、その際に補正された「基準音響信号」と「評価対象音響信号」との間の時間ずれの大きさが所定値以下の場合に、そのPESQ値がこの線形関数に代入されてMOS値が算出される。補正された時間ずれの大きさが所定値よりも大きい場合には、得られたPESQ値が破棄される。これにより、自動的に算出されたPESQ値を用い、煩雑な主観評価や計算量の多い非線形演算を行うことなく、高い精度のMOS値を推定できる。
<構成>
図14に例示するように、本実施形態の音響品質評価装置4は、PESQ算出部41、線形変換部42、および判定部43を有する。音響品質評価装置4は、例えば、前述のような1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
<前処理>
音響品質評価処理の前処理として、「基準音響信号」と当該「基準音響信号」を含む信号に基づく「評価対象音響信号」との組をリファレンス信号として用い、「基準音響信号(第2の基準音響信号)」と当該「基準音響信号」を含む信号に基づく「評価対象音響信号(第2の評価対象音響信号)」とに対応するPESQ値(第2のPESQ値)と、当該「基準音響信号」に対応する基準音と当該「評価対象音響信号」に対応する評価音との違いについての5段階評価に基づくMOS値(第2のMOS値)と、の線形関係を求めておく。このとき基準音響信号と当該基準音響信号を含む信号に基づく評価対象音響信号の組については様々な組み合わせを行い、また評価者についても複数人で主観評価試験を実施し、リファレンス信号への依存性や評価者個人差への依存性を軽減する形で、線形関係を統計的に解析する。この解析結果として得た情報が、図15に示されるPESQ値(第2のPESQ値)とMOS値(第2のMOS値)との線形関係(所定の傾きの直線で表される第2のPESQ値と第2のMOS値との間の線形関係)である。このような線形関係を表す情報は線形変換部42に設定される。「線形関係を表す情報」の例は、所定の傾きαの直線を表す線形関数Fや、この線形関数Fを特定するパラメータ等である。
なお、「基準音響信号」は、第1,2実施形態で例示したものであってもよいし、その他の音声信号であってもよいし、音楽や背景音等のその他の音響信号であってもよい。「評価対象音響信号」は、第1,2実施形態で例示したものであってもよいし、「基準音響信号」成分を含むその他の信号であってもよい。
PESQ算出部41におけるPESQ値の算出方法は周知であり、例えば、参考文献3等に詳細に記載されている。参考文献3に記載された「original X(t)」が「基準音響信号」に、「degraded signal Y(t)」が「評価対象音響信号」に、それぞれ該当する。前述のように、PESQ値の算出処理は、「基準音響信号」と「評価対象音響信号」との時間ずれを補正する処理を含む。
基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての5段階評価に基づくMOS値は、例えば、受聴された基準音と評価音との違いについて5段階評価(主観評価)の平均値である。5段階評価自体は5段階の評価カテゴリーを表す5つの値の何れかであるが、その平均値であるMOS値は1以上5以下の範囲に属する何れかの値である。「基準音と評価音との違いについて5段階評価」の内容に限定はない。このような5段階評価の例は、「基準音と評価音との違いが分かるか否かと、評価音の聞き取り易さおよび/または聞き取りにくさについての度合いと、の組み合わせからなる評価カテゴリーについての5段階評価」である。特に、このような5段階評価が「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての4段階の度合いと、の組み合わせからなる評価カテゴリーについての5段階評価」である場合、より誤差の小さな線形関係が成り立つ。より好ましくは、このような5段階評価が、「基準音と評価音との違いが分からないことを表す1段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての4段階の度合いとの組み合わせからなる4段階のカテゴリーと、を含む評価カテゴリーについての5段階評価」であることが望ましい。なお、「基準音と評価音との違いが分かるか否か」および「評価音の聞き取りにくさについての度合い」の具体例は、第3実施形態に例示した通りである。「評価音の聞き取り易さについての度合い」の具体例は、「聞き取りには問題がない」「少し聞き取り易い」「聞き取り易い」「非常に聞き取り易い」である。また、このような5段階評価に基づくMOS値は、「評価音の聞き取り易さの評価」を指示して得られた5段階評価に基づくものであることが望ましい。例えば、第3実施形態で例示したように、主観評価試験時に「評価音の『女声(左側)』の聞き取り易さ、を評価してください」等の内容が評価者に提示されて得られた5段階評価に基づくMOS値であることが望ましい。
<音響品質評価処理>
以上の前提のもと、以下のように音響品質評価処理が行われる。まず、PESQ算出部41は、「基準音響信号(第1の基準音響信号)」と当該「基準音響信号」を含む信号に基づく「評価対象音響信号(第1の評価対象音響信号)」とを入力とし、これらの間の時間ずれを補正してから、当該「基準音響信号」と「評価対象音響信号」とに対するPESQ値を得て出力する。さらに、PESQ算出部41は、補正された時間ずれの大きさ(例えば、遅延量)を出力する。前述のように、「基準音響信号(第1の基準音響信号)」の開始時間と、「評価対象音響信号(第1の評価対象音響信号)」に含まれた「基準音響信号(第1の基準音響信号)」の成分の開始時間とは、同一または近似していることが望ましい。
PESQ算出部41から出力されたPESQ値および補正された時間ずれの大きさは判定部43に入力される。判定部43は、入力された時間ずれの大きさが所定値以下であったか、または、時間ずれの大きさが所定値よりも大きかったか、を判定する。ここで、時間ずれの大きさが所定値以下であったと判定されるか、または、時間ずれの大きさが所定値よりも大きくなかったと判定された場合、判定部43はPESQ値を線形変換部42に送る。そうでない場合、判定部43はPESQ値を破棄する。例えば、「所定値」は、0.4秒の近傍以上1秒の近傍未満の範囲に属する値である。「所定値」の例は0.4秒である。
PESQ値が送られた線形変換部42は、上述した線形関係に基づいて、入力されたPESQ値(時間ずれの大きさが所定値以下であった第1の基準音響信号と第1の評価対象音響信号とに対する第1のPESQ値)を線形変換してMOSの推定値(第1のMOS値)を得て出力する。例えば、線形変換部42は、PESQ値を前述の線形関数Fに代入して得られた結果をMOSの推定値として出力する。このように、線形変換部42は、補正された時間ずれの大きさが「所定値」よりも大きかった場合を除き、前述の線形関係に基づいてPESQ値を線形変換してMOS値を得て出力する。言い換えると、線形変換部42は、前述の線形関係に基づいて、補正された時間ずれの大きさが「所定値」以下であった「基準音響信号」と「評価対象音響信号」とに対する「PESQ値」のみを線形変換して「MOS値」を得て出力する。
[第4実施形態の変形例1]
図17に例示するように、この変形例の音響品質評価装置5は、PESQ算出部41、線形変換部42、判定部43、遠端話者音響信号記憶部102、およびデータ記憶部180を有する。PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出し、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号T1またはT3を読み出す(図4参照)。PESQ算出部41は、これらに対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。なお、PESQ算出部41が、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出すことに代えて、データ記憶部180から基準音響信号を読み出してもよい。
[第4実施形態の変形例2]
第4実施形態の変形例1の評価対象音響信号T1を評価対象音響信号T2に置換した形態であってもよい。あるいは、評価対象音響信号T3を評価対象音響信号T4に置換した形態であってもよい。すなわち、PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出し、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号T2またはT4を読み出す。PESQ算出部41は、これらに対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。
[第4実施形態の変形例3]
図17に例示するように、この変形例の音響品質評価装置は、PESQ算出部41、線形変換部42、判定部43、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、データ記憶部180、および信号処理部621を含む。なお、信号処理部621は、何らかの「信号処理」を行う処理部である。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。その他、「信号処理」が、エコーキャンセル処理もノイズキャンセル処理も含まない処理であってもよい。PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出す。信号処理部621は、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号T1またはT3を読み出し、近端話者音響信号記憶部101から評価対象音響信号T1またはT3に対応する近端話者音響信号を読み出す(図4参照)。信号処理部621は、これらを用いて評価対象音響信号T1に信号処理を行い、それによって得られた信号を評価対象信号としてPESQ算出部41に送る。PESQ算出部41は、入力された信号に対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。
[その他の変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、参照信号や劣化信号が音声以外の音響信号(音楽や背景音等)に基づいて得られたものであってもよい。また、参照信号や劣化信号が時系列信号でなくてもよい。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。