JP6163468B2 - Sound quality evaluation apparatus, sound quality evaluation method, and program - Google Patents

Sound quality evaluation apparatus, sound quality evaluation method, and program Download PDF

Info

Publication number
JP6163468B2
JP6163468B2 JP2014170109A JP2014170109A JP6163468B2 JP 6163468 B2 JP6163468 B2 JP 6163468B2 JP 2014170109 A JP2014170109 A JP 2014170109A JP 2014170109 A JP2014170109 A JP 2014170109A JP 6163468 B2 JP6163468 B2 JP 6163468B2
Authority
JP
Japan
Prior art keywords
signal
sound
evaluation
acoustic signal
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014170109A
Other languages
Japanese (ja)
Other versions
JP2016046695A (en
Inventor
祥子 栗原
祥子 栗原
島内 末廣
末廣 島内
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014170109A priority Critical patent/JP6163468B2/en
Publication of JP2016046695A publication Critical patent/JP2016046695A/en
Application granted granted Critical
Publication of JP6163468B2 publication Critical patent/JP6163468B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、通話品質を評価するための技術に関し、特に拡声系通信システムの品質評価試験技術に関する。   The present invention relates to a technique for evaluating call quality, and more particularly to a quality evaluation test technique for a loudspeaker communication system.

従来、客観評価値であるPESQ(Perceptual Evaluation of Speech Quality)値をを用いて会話MOS(Mean Opinion Score)値または受聴MOS値を推定する場合には、リファレンス信号に基づいてPESQ値と会話MOS値または受聴MOS値との対応関係を表す非線形関数を定式化し、その関数に基づく非線形変換を行う必要があった(例えば、非特許文献1参照)。   Conventionally, when a conversation MOS (Mean Opinion Score) value or a listening MOS value is estimated using a PESQ (Perceptual Evaluation of Speech Quality) value that is an objective evaluation value, a PESQ value and a conversation MOS value are based on a reference signal. Alternatively, it is necessary to formulate a nonlinear function representing the correspondence relationship with the listening MOS value, and to perform nonlinear conversion based on the function (see, for example, Non-Patent Document 1).

社団法人情報通信技術委員会:“IP電話の通話品質評価法”,JJ−201.01,第5版,2008年8月.Information and Communication Technology Committee: “IP Phone Call Quality Evaluation Method”, JJ-201.001, 5th edition, August 2008.

この方法に拠れば、PESQ値から会話MOSまたは受聴MOSの推定値への変換に複雑な非線形処理が必要となり、計算が複雑化する問題があった。   According to this method, complicated non-linear processing is required for the conversion from the PESQ value to the estimated value of the conversation MOS or listening MOS, and there is a problem that the calculation becomes complicated.

本発明の課題は、少ない演算量でPESQ値からMOS値を推定する技術を提供することである。   An object of the present invention is to provide a technique for estimating a MOS value from a PESQ value with a small amount of calculation.

本発明では、第1の基準音響信号とこれを含む信号に基づく第1の評価対象音響信号とに対する第1のPESQ値を得、第2の基準音響信号と第2基準音響信号を含む信号に基づく第2の評価対象音響信号とに対応する第2のPESQ値と、第2の基準音響信号に対応する基準音と第2の評価対象音響信号に対応する評価音との違いについての5段階評価に基づく第2のMOS値と、の線形関係に基づいて、第1のPESQ値を線形変換して第1のMOS値を得る。   In the present invention, a first PESQ value for the first reference acoustic signal and the first evaluation target acoustic signal based on the signal including the first reference acoustic signal is obtained, and the signal including the second reference acoustic signal and the second reference acoustic signal is obtained. 5 levels of differences between the second PESQ value corresponding to the second evaluation target acoustic signal based on the reference sound corresponding to the second reference acoustic signal and the evaluation sound corresponding to the second evaluation target acoustic signal Based on the linear relationship with the second MOS value based on the evaluation, the first PESQ value is linearly converted to obtain the first MOS value.

本発明では、基準音と評価音との違いについての5段階評価に基づくMOS値を採用することで、PESQ値とMOS値とを線形な関係に近似することができた。そのため、少ない演算量でPESQ値からMOS値を推定することが可能となった。   In the present invention, the PESQ value and the MOS value can be approximated to a linear relationship by adopting the MOS value based on the five-step evaluation of the difference between the reference sound and the evaluation sound. Therefore, the MOS value can be estimated from the PESQ value with a small amount of calculation.

図1は、第1実施形態のデータ生成装置の機能構成を例示したブロック図である。FIG. 1 is a block diagram illustrating a functional configuration of the data generation apparatus according to the first embodiment. 図2は、第1実施形態のデータ生成装置によって生成されるデータ構造を説明するための概念図である。FIG. 2 is a conceptual diagram for explaining a data structure generated by the data generation apparatus according to the first embodiment. 図3は、第1実施形態のデータ生成装置によって生成されるデータ構造を例示するための図である。FIG. 3 is a diagram for illustrating a data structure generated by the data generation apparatus of the first embodiment. 図4は、第2実施形態のデータ生成装置の機能構成を例示したブロック図である。FIG. 4 is a block diagram illustrating a functional configuration of the data generation device according to the second embodiment. 図5Aは、図4の通信環境模擬処理部を例示したブロック図である。図5Bは、図4の信号処理部を例示したブロック図である。FIG. 5A is a block diagram illustrating the communication environment simulation processing unit of FIG. FIG. 5B is a block diagram illustrating the signal processing unit of FIG. 図6は、第3実施形態の音響品質評価装置の機能構成を例示したブロック図である。FIG. 6 is a block diagram illustrating a functional configuration of the sound quality evaluation apparatus according to the third embodiment. 図7は、第3実施形態の音響品質評価試験での表示内容を例示した図である。FIG. 7 is a diagram illustrating display contents in the sound quality evaluation test of the third embodiment. 図8は、音響品質評価方法を例示するための図である。FIG. 8 is a diagram for illustrating the acoustic quality evaluation method. 図9は、音響品質評価方法を例示するための図である。FIG. 9 is a diagram for illustrating the acoustic quality evaluation method. 図10は、音響品質評価方法を例示するための図である。FIG. 10 is a diagram for illustrating the acoustic quality evaluation method. 図11は、音響品質評価方法を例示するための図である。FIG. 11 is a diagram for illustrating the acoustic quality evaluation method. 図12は、音響品質評価方法を例示するための図である。FIG. 12 is a diagram for illustrating the acoustic quality evaluation method. 図13は、第4実施形態の音響品質評価装置の機能構成を例示したブロック図である。FIG. 13 is a block diagram illustrating a functional configuration of the sound quality evaluation apparatus according to the fourth embodiment. 図14は、DMOS値とPESQ値との関係を例示した図である。FIG. 14 is a diagram illustrating the relationship between the DMOS value and the PESQ value. 図15は、第4実施形態の変形例の音響品質評価装置の機能構成を例示したブロック図である。FIG. 15 is a block diagram illustrating a functional configuration of an acoustic quality evaluation apparatus according to a modification of the fourth embodiment.

以下、図面を参照して本発明の実施形態を説明する。
[第1実施形態]
<拡声系通信システムでの会話MOS試験を模擬した評価試験>
まず、拡声系通信システムでの会話MOS試験を模擬した評価試験を概念的に説明する。この評価試験では、近端話者と遠端話者とが拡声系通信システムを通じて会話を行い、近端話者側に位置する評価者が当該拡声系通信システムの品質評価を行う。なお、拡声系通信システムとは、マイクロホンとスピーカーとを備えた端末装置間で音響信号を送受信する通信システムであって、端末装置のスピーカーから出力された音の少なくとも一部がその端末装置のマイクロホンで受音されるもの(音の回り込みが生じるもの)をいう。拡声系通信システムの一例は、音声会議システムやテレビ会議システムである。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
<Evaluation test simulating conversational MOS test in loudspeaker communication system>
First, an evaluation test simulating a conversation MOS test in a loudspeaker communication system will be conceptually described. In this evaluation test, a near-end speaker and a far-end speaker have a conversation through a loudspeaker communication system, and an evaluator located on the near-end speaker side evaluates the quality of the loudspeaker communication system. Note that the loudspeaker communication system is a communication system that transmits and receives an acoustic signal between terminal devices including a microphone and a speaker, and at least a part of the sound output from the speaker of the terminal device is a microphone of the terminal device. The sound received by the sound (the sound wraps around). An example of a loudspeaker communication system is an audio conference system or a video conference system.

図2に例示する拡声系通信システムでは、近端話者の音声が近端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で遠端話者側に伝送され、当該音響信号が表す音が遠端話者側のスピーカーから出力される。また、遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で近端話者側に伝送され、当該音響信号が表す音が近端話者側のスピーカーから出力される。ただし、遠端話者側のスピーカーから出力された音の少なくとも一部は遠端話者側のマイクロホンでも受音される。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、遠端話者の音声に近端話者の音声の回り込み(音響エコー)が重畳されたものである。また、近端話者側に伝送される音響信号は、遠端話者側のマイクロホンで受音された音を表す信号に所定の「信号処理」を行って得られた処理信号に由来するものであってもよいし、このような信号処理を行うことなく得られたものであってもよい。「信号処理」は、どのような処理であってもよい。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。   In the loudspeaker communication system illustrated in FIG. 2, the near-end speaker's voice is received by the near-end speaker's microphone, and an acoustic signal obtained based on the sound is transmitted to the far-end speaker via the network. The sound represented by the acoustic signal is output from the far-end speaker. Further, the far-end speaker side sound is received by the far-end speaker side microphone, and the acoustic signal obtained based on the received sound is transmitted to the near-end speaker side via the network, and the sound represented by the acoustic signal is Output from the near-end speaker. However, at least part of the sound output from the speaker on the far end speaker side is also received by the microphone on the far end speaker side. That is, the far-end speaker's sound received by the far-end speaker's microphone is obtained by superimposing the near-end talker's voice (acoustic echo) on the far-end talker's voice. The acoustic signal transmitted to the near-end speaker is derived from a processed signal obtained by performing predetermined “signal processing” on the signal representing the sound received by the far-end speaker's microphone. It may be obtained without performing such signal processing. “Signal processing” may be any processing. An example of “signal processing” is processing including at least one of echo cancellation processing and noise cancellation processing.

評価者は、ヘッドフォンやイヤホン等の両耳装着型音響再生装置を用い、近端話者からの直接音を一方の耳(例えば利き耳ではない方の耳−例えば右耳)で聴き、近端話者側のスピーカーから出力される音を他方の耳(例えば利き耳−例えば左耳)で聴き、通話品質を主観評価(オピニオン評価)する。本実施形態では、近端話者からの直接音側のチャネルを「Rch」と表記し、近端話者側のスピーカーから出力される音側のチャネルを「Lch」と表記する。上述のように、近端話者側のスピーカーから出力される音は、遠端話者の音声に近端話者の音声の音響エコーが重畳された遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号が近端話者側に伝送され、近端話者側のスピーカーから出力されたものである。そのため、近端話者側のスピーカーから出力される音に含まれる近端話者の音声の音響エコー成分は、この近端話者の音声の直接音よりも遅延している(音響信号が近端話者側と遠端話者側との間を一往復する時間の遅延)。また、近端話者側のスピーカーから出力される音に含まれる遠端話者の音声の成分は、この遠端話者の音声が発せられた時点よりも遅延している(音響信号が遠端話者側から近端話者側へ伝送される時間の遅延)。ここで、近端話者からの直接音を表す音響信号と、遠端話者側での音の回り込みがある場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「劣化信号」と呼ぶ。特に上述の「信号処理」が行われていない「劣化信号」を「劣化信号D」と表記し、「信号処理」が行われた「劣化信号」を「劣化信号D」と表記する。また、参照用として、近端話者からの直接音を表す音響信号と、遠端話者側での音の回り込みがないと仮定した場合の近端話者側のスピーカーから出力される音を表す音響信号と、の組を「参照信号」と呼ぶ。評価者は、例えば「劣化信号D」「劣化信号D」「参照信号」の何れかの組を比較することで通話品質を主観評価する。 The evaluator listens to the direct sound from the near-end speaker with one ear (for example, the ear that is not the dominant ear—for example, the right ear) using a binaural sound reproduction device such as headphones or earphones. The sound output from the speaker on the speaker side is heard with the other ear (for example, the dominant ear—for example, the left ear), and the speech quality is subjectively evaluated (opinion evaluation). In this embodiment, the channel on the direct sound side from the near-end speaker is denoted as “Rch”, and the channel on the sound side output from the near-end speaker is denoted as “Lch”. As described above, the sound output from the speaker on the near-end speaker side is the sound on the far-end speaker side where the acoustic echo of the near-end speaker sound is superimposed on the far-end speaker sound. The sound signal received based on the microphone on the speaker side and transmitted based on the sound is transmitted to the near-end speaker side and output from the speaker on the near-end speaker side. Therefore, the acoustic echo component of the near-end speaker's voice included in the sound output from the near-end speaker's speaker is delayed from the direct sound of the near-end speaker's voice (the acoustic signal is near Delay of one round trip between the end speaker and far end speaker). In addition, the far-end speaker's voice component included in the sound output from the near-end speaker's speaker is delayed from the time when the far-end talker's voice is emitted (the acoustic signal is far away). The delay in time transmitted from the end speaker side to the near end speaker side). Here, an acoustic signal representing the direct sound from the near-end speaker and an acoustic signal representing the sound output from the speaker on the near-end speaker side when there is a sound wraparound on the far-end speaker side, The set is called a “degraded signal”. In particular, a “degraded signal” that has not been subjected to the “signal processing” is denoted as “degraded signal D 1 ”, and a “degraded signal” that has been subjected to “signal processing” is denoted as “degraded signal D 2 ”. For reference, the sound signal representing the direct sound from the near-end speaker and the sound output from the near-end speaker when assuming that there is no sound wraparound at the far-end speaker A set of acoustic signals to be expressed is referred to as a “reference signal”. The evaluator subjectively evaluates the call quality by comparing any set of “degraded signal D 1 ”, “degraded signal D 2 ”, and “reference signal”, for example.

<データ生成装置>
次に、拡声系通信システムでの会話MOS試験を模擬した評価試験を行うためのデータ構造を生成するデータ生成装置を例示する。図1に例示するように、本実施形態のデータ生成装置1は、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、再生部103,104、スピーカー105,106、マイクロホン107、時間調整処理部108、収録処理部109、近端端末部110、遠端端末部120、出力部131,132,141,142,151,152、およびデータ記憶部180を有する。遠端端末部120は信号処理部121を含み、近端端末部110と遠端端末部120とはネットワーク(NW)を通じて通信可能に構成されている。少なくとも、スピーカー105,106およびマイクロホン107は、同じ室内に配置されている。データ生成装置1は、例えば、スピーカーやマイクロホンが接続され、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備えた汎用または専用の1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。各コンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
<Data generation device>
Next, a data generation apparatus that generates a data structure for performing an evaluation test simulating a conversation MOS test in a loudspeaker communication system will be exemplified. As illustrated in FIG. 1, the data generation apparatus 1 according to the present embodiment includes a near-end speaker acoustic signal storage unit 101, a far-end speaker acoustic signal storage unit 102, playback units 103 and 104, speakers 105 and 106, and a microphone. 107, a time adjustment processing unit 108, a recording processing unit 109, a near-end terminal unit 110, a far-end terminal unit 120, output units 131, 132, 141, 142, 151, 152, and a data storage unit 180. The far-end terminal unit 120 includes a signal processing unit 121, and the near-end terminal unit 110 and the far-end terminal unit 120 are configured to be able to communicate through a network (NW). At least the speakers 105 and 106 and the microphone 107 are arranged in the same room. The data generator 1 is connected to a speaker or a microphone, for example, a processor (hardware processor) such as a CPU (central processing unit), a memory such as a random-access memory (RAM), a read-only memory (ROM), or the like. Is a device configured by executing a predetermined program by one or more general-purpose or dedicated computers. Each computer may include one processor or memory, or may include a plurality of processors or memories. This program may be installed in a computer, or may be recorded in a ROM or the like in advance. In addition, some or all of the processing units may be configured using an electronic circuit that realizes a processing function independently instead of an electronic circuit (circuitry) that realizes a functional configuration by reading a program like a CPU. . In addition, an electronic circuit constituting one device may include a plurality of CPUs.

<データ生成処理>
次に、本実施形態のデータ生成処理を説明する。
事前処理として、評価者が受聴する近端話者の直接音(近端話者の音声)に相当する音を表す近端話者音響信号(システムの第1端側の第1音響信号)のデータを近端話者音響信号記憶部101に格納し、遠端話者の直接音(遠端話者の音声)に相当する音を表す遠端話者音響信号(システムの第2端側の第2音響信号)のデータを遠端話者音響信号記憶部102に格納する。本実施形態の近端話者音響信号および遠端話者音響信号は何れも時系列の音響信号であり、例えば、防音室で収録した音声に基づいて得られたものである。ただし、これは本発明を限定するものではなく、近端話者音響信号および遠端話者音響信号の少なくとも一方が通常の室内環境で収録されたものであってもよい。また、本形態では、近端話者音響信号が表す近端話者音声と遠端話者音響信号が表す遠端話者音声との間の発話タイミング(すなわち、近端話者音声の発話時に対する遠端話者音声の発話時の相対時間、例えば、近端話者音声と遠端話者音声とのかぶり)に制約は設けない。ただし、これは本発明を限定するものではなく、近端話者音声と遠端話者音声との間の発話タイミングに何らかの制約を設けてもよい。また、近端話者および遠端話者に制約はなく、これらが評価者以外の人であってもよいし、これらの少なくとも一方が評価者と同一人物であってもよい。
<Data generation processing>
Next, the data generation process of this embodiment is demonstrated.
As pre-processing, a near-end speaker acoustic signal (first acoustic signal on the first end side of the system) representing a sound corresponding to the direct sound (near-end speaker voice) of the near-end speaker that the evaluator listens to The data is stored in the near-end speaker acoustic signal storage unit 101, and the far-end speaker acoustic signal (the second end side of the system) representing the sound corresponding to the far-end speaker's direct sound (far-end speaker's voice) is stored. The data of the second sound signal is stored in the far-end speaker sound signal storage unit 102. Both the near-end speaker sound signal and the far-end speaker sound signal of this embodiment are time-series sound signals, and are obtained based on, for example, sound recorded in a soundproof room. However, this does not limit the present invention, and at least one of the near-end speaker sound signal and the far-end speaker sound signal may be recorded in a normal indoor environment. In this embodiment, the speech timing between the near-end speaker sound represented by the near-end speaker sound signal and the far-end speaker sound represented by the far-end speaker sound signal (that is, when the near-end speaker sound is uttered). There is no restriction on the relative time when the far-end speaker voice is uttered with respect to (for example, the fogging of the near-end talker voice and the far-end talker voice). However, this does not limit the present invention, and some restrictions may be placed on the speech timing between the near-end speaker speech and the far-end speaker speech. Moreover, there is no restriction | limiting in a near end speaker and a far end speaker, These may be persons other than an evaluator, and at least one of these may be the same person as an evaluator.

以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。再生部103は、近端話者音響信号記憶部101から近端話者音響信号のデータを抽出して近端話者音響信号を出力する。再生部103から出力された近端話者音響信号は、出力部131,141,151および近端端末部110に送られる。出力部131,141,151は、送られた近端話者音響信号(システムの第1端側の第1音響信号)を、それぞれ「劣化信号D」「劣化信号D」「参照信号」のRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルのデータ)として出力する。また、近端端末部110は、送られた近端話者音響信号をネットワーク経由で遠端端末部120に伝送する。遠端端末部120は伝送された近端話者音響信号(第1音響信号に由来する信号)をスピーカー105に送り、スピーカー105は近端話者音響信号が表す音(システムの第2端側に送られた第1音響信号に由来する再生信号)を出力する。 Based on the above assumptions, a data structure for performing the above-described evaluation test is generated as follows. The reproduction unit 103 extracts the near-end speaker sound signal data from the near-end speaker sound signal storage unit 101 and outputs the near-end speaker sound signal. The near-end speaker sound signal output from the reproduction unit 103 is sent to the output units 131, 141, 151 and the near-end terminal unit 110. The output units 131, 141, and 151 output the near-end speaker acoustic signals (first acoustic signals on the first end side of the system) to “degraded signal D 1 ”, “degraded signal D 2 ”, and “reference signal”, respectively. Rch data (first channel data including the first acoustic signal on the first end side of the system). Further, the near-end terminal unit 110 transmits the sent near-end speaker sound signal to the far-end terminal unit 120 via the network. The far-end terminal unit 120 sends the transmitted near-end speaker sound signal (a signal derived from the first sound signal) to the speaker 105, and the speaker 105 generates a sound represented by the near-end speaker sound signal (second end side of the system). (A reproduction signal derived from the first acoustic signal sent to).

再生部104は、遠端話者音響信号記憶部102から遠端話者音響信号のデータを抽出して遠端話者音響信号を出力する。再生部104から出力された遠端話者音響信号は時間調整処理部108およびスピーカー106に送られる。時間調整処理部108は送られた遠端話者音響信号を遅延させて出力部152に送る。時間調整処理部108での遅延量τは、遠端端末部120から近端端末部110までの伝送遅延量Bを模擬するものであり、例えば、この伝送遅延量Bに基づいて定められる。例えば、遠端端末部120から近端端末部110までの伝送遅延量B、当該伝送遅延量Bの予測値、当該伝送遅延量Bの平均値、またはこれらの何れかの近似値または補正値(関数値)を時間調整処理部108での遅延量τとする。なお、「αの近似値」とは、α−β以上α+β以下の範囲に属する値を意味する。βおよびβは正の値(例えば定数)であり、β=βであってもよいし、β≠βであってもよい。また、伝送遅延量Bは、往復の遅延量C(近端話者音響信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間)の約半分である。そのため、遅延量Cに基づいて遅延量τが定められてもよい。例えば、遅延量Cの1/2値、当該遅延量Cの予測値の1/2値、当該遅延量Cの平均値の1/2値、またはこれらの何れかの関数値を遅延量τとしてもよい。遅延量τは固定値であってもよいし、実際に測定された伝送遅延量Bに基づいて決定されてもよい。ただし、ネットワーク環境によっては往路と復路との遅延量が異なる場合もある。また、近端端末部110や遠端端末部120や信号処理部121やネットワーク環境が変化すれば伝送遅延量Bや遅延量Cが変化するため、そのような変化に応じて遅延量τを定めることが望ましい。出力部152は、時間調整処理部108で遅延させた遠端話者音響信号(基準音響信号、第2音響信号に基づく第2比較用信号)を「参照信号」のLchのデータ(基準音響信号を表す第2チャネルのデータ)として出力する。 The reproduction unit 104 extracts far-end speaker sound signal data from the far-end speaker sound signal storage unit 102 and outputs a far-end speaker sound signal. The far-end speaker sound signal output from the reproduction unit 104 is sent to the time adjustment processing unit 108 and the speaker 106. The time adjustment processing unit 108 delays the sent far-end speaker sound signal and sends it to the output unit 152. The delay amount τ in the time adjustment processing unit 108 simulates the transmission delay amount B from the far-end terminal unit 120 to the near-end terminal unit 110, and is determined based on the transmission delay amount B, for example. For example, the transmission delay amount B from the far-end terminal unit 120 to the near-end terminal unit 110, the predicted value of the transmission delay amount B, the average value of the transmission delay amount B, or any approximate value or correction value thereof ( (Function value) is the delay amount τ in the time adjustment processing unit 108. The “approximate value of α” means a value belonging to a range of α−β 1 or more and α + β 2 or less. β 1 and β 2 are positive values (for example, constants), and β 1 = β 2 may be satisfied, or β 1 ≠ β 2 may be satisfied. Further, the transmission delay amount B is a round-trip delay amount C (a near-end speaker acoustic signal is transmitted from the near-end terminal unit 110 to the far-end terminal unit 120, and a sound representing it is output from the speaker 105. The signal obtained by receiving the sound is about half of the time until the signal is further transmitted from the far-end terminal unit 120 to the near-end terminal unit 110. Therefore, the delay amount τ may be determined based on the delay amount C. For example, ½ value of the delay amount C, ½ value of the predicted value of the delay amount C, ½ value of the average value of the delay amount C, or any one of these function values is used as the delay amount τ. Also good. The delay amount τ may be a fixed value or may be determined based on the actually measured transmission delay amount B. However, depending on the network environment, the amount of delay between the forward path and the return path may be different. Further, if the near-end terminal unit 110, the far-end terminal unit 120, the signal processing unit 121, and the network environment change, the transmission delay amount B and the delay amount C change, so the delay amount τ is determined according to such change. It is desirable. The output unit 152 converts the far-end speaker acoustic signal (reference acoustic signal, second comparison signal based on the second acoustic signal) delayed by the time adjustment processing unit 108 into Lch data (reference acoustic signal) of the “reference signal”. 2nd channel data representing

スピーカー106は、送られた遠端話者音響信号(システムの第2端側の第2音響信号)が表す音(第2端側の第2音響信号に由来する再生信号)を出力する。スピーカー105から出力された音およびスピーカー106から出力された音は室内空間で重畳し、マイクロホン107で受音される。マイクロホン107で受音して得られた受音信号(第1音響信号に由来する信号と第2音響信号とに基づく信号)は、遠端端末部120の信号処理部121に送られる。信号処理部121は、送られた受音信号に対する信号処理の実行の有無を制御可能である。信号処理が実行される場合、信号処理部121は、送られた受音信号に信号処理を行って処理信号を得、遠端端末部120は処理信号をネットワーク経由で近端端末部110(第1端側)に伝送する。この信号処理には、さらに近端端末部110からネットワーク経由で遠端端末部120に伝送された近端話者音響信号(スピーカー105に入力される近端話者音響信号)が用いられてもよい。一方、信号処理が実行されない場合、遠端端末部120は、信号処理部121に送られた受音信号をネットワーク経由で近端端末部110(第1端側)に伝送する。また信号処理部121は、例えば、信号処理の有無を表す情報を収録処理部109に送る。また信号処理部121は、送られた受音信号に対して信号処理を実行して処理信号を得、遠端端末部120は処理信号をネットワーク経由で近端端末部110に伝送し、さらに、この信号処理と同一の受音信号または同一の条件のもとで得られた同一とみなせる受音信号をネットワーク経由で近端端末部110に伝送してもよい。すなわち、同一または同一とみなせる2つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われてもよい。「同一の条件」とは、少なくとも、データ生成装置1、近端話者音響信号、遠端話者音響信号、および発話タイミングが同一であることを意味する。「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。なお、エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理を意味する。広義のエコーキャンセラによる処理とは、エコーを低減させるための処理全般を意味する。広義のエコーキャンセラによる処理は、例えば、適応フィルタを用いた狭義のエコーキャンセラのみによって実現されてもよいし、音声スイッチによって実現されてもよいし、エコーリダクションによって実現されてもよいし、これらの少なくとも一部の技術の組み合わせによって実現されてもよいし、さらにその他の技術との組み合わせによって実現されてもよい(例えば、「知識ベース 知識の森、2群−6編−5章、“音響エコーキャンセラ”、電子情報通信学会」参照)。またノイズキャンセル処理とは、遠端端末のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音に起因する雑音成分を抑圧または除去する処理を意味する。環境雑音とは、例えば、オフィスの空調音、走行中の車内音、交差点での車の通行音、虫の音、キーボードのタッチ音、複数の人の声(ガヤガヤ音)などを指し、音の大/小、屋内/屋外は問わない。   The speaker 106 outputs a sound (a reproduction signal derived from the second acoustic signal on the second end side) represented by the transmitted far-end speaker acoustic signal (second acoustic signal on the second end side of the system). The sound output from the speaker 105 and the sound output from the speaker 106 are superimposed in the indoor space and received by the microphone 107. A sound reception signal (a signal based on the first sound signal and the second sound signal) obtained by receiving the sound with the microphone 107 is sent to the signal processing unit 121 of the far-end terminal unit 120. The signal processing unit 121 can control whether or not signal processing is performed on the received sound reception signal. When signal processing is executed, the signal processing unit 121 performs signal processing on the received sound reception signal to obtain a processed signal, and the far-end terminal unit 120 transmits the processed signal to the near-end terminal unit 110 (the first terminal) via the network. 1 end side). For this signal processing, a near-end speaker sound signal (a near-end speaker sound signal input to the speaker 105) transmitted from the near-end terminal unit 110 to the far-end terminal unit 120 via the network is used. Good. On the other hand, when the signal processing is not executed, the far-end terminal unit 120 transmits the received sound signal sent to the signal processing unit 121 to the near-end terminal unit 110 (first end side) via the network. For example, the signal processing unit 121 sends information indicating the presence or absence of signal processing to the recording processing unit 109. In addition, the signal processing unit 121 performs signal processing on the received sound signal to obtain a processed signal, the far-end terminal unit 120 transmits the processed signal to the near-end terminal unit 110 via the network, and The received sound signal that is the same as this signal processing or the received sound signal that can be regarded as the same obtained under the same conditions may be transmitted to the near-end terminal unit 110 via the network. That is, a series of processes when signal processing is performed on one of two received sound signals that can be regarded as the same or the same may be performed, and a series of processes when signal processing is not performed on the other may be performed. The “same condition” means that at least the data generation device 1, the near-end speaker sound signal, the far-end speaker sound signal, and the speech timing are the same. “Signal processing” may be any processing, and an example of “signal processing” is processing including at least one of echo cancellation processing and noise cancellation processing. Note that the echo cancellation processing means processing by an echo canceller in a broad sense for reducing echo. The processing by the echo canceller in a broad sense means all processing for reducing echo. The processing by the broad echo canceller may be realized only by a narrow sense echo canceller using an adaptive filter, may be realized by a voice switch, may be realized by echo reduction, or these It may be realized by a combination of at least some techniques, and may also be realized by a combination with other techniques (for example, “Knowledge Base Knowledge Forest, Group 2-6, Chapter 5,“ Acoustic Echo ”). (See Canceller, IEICE). The noise canceling process means a process for suppressing or removing a noise component caused by any environmental noise other than the voice of the far-end speaker that occurs around the microphone of the far-end terminal. Environmental noise refers to, for example, office air-conditioning sound, in-car sound while driving, car traffic sound at intersections, insect sounds, keyboard touch sounds, voices of multiple people (gray noise), etc. It doesn't matter whether it's large / small or indoor / outdoor.

遠端端末部120からネットワーク経由で伝送された信号(第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号)は、近端端末部110に入力され、収録処理部109に送られる。ここで、信号処理部121で信号処理が実行されている場合(信号処理ON時)、収録処理部109は、送られた信号(第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号)を出力部142に送る。出力部142は、送られた信号(評価対象音響信号T)を「劣化信号D」のLchのデータ(重畳信号を含む第2チャネルのデータ)として出力する。一方、信号処理部121で信号処理が実行されていない場合(信号処理OFF時)、収録処理部109は、送られた信号(受音信号を第1端側に送ることで得られた第1比較用信号)を出力部132に送る。出力部132は、送られた信号(評価対象音響信号T)を「劣化信号D」のLchのデータ(重畳信号を含む第2チャネルのデータ)として出力する。 A signal (a superimposed signal based on a signal derived from the first acoustic signal and a second acoustic signal on the second end side of the system) transmitted from the far end terminal unit 120 via the network is input to the near end terminal unit 110. Are sent to the recording processing unit 109. Here, when the signal processing is performed in the signal processing unit 121 (when the signal processing is ON), the recording processing unit 109 is based on the transmitted signal (the signal derived from the first acoustic signal and the second acoustic signal). The superimposition signal derived from the processed signal obtained by performing signal processing on the signal is sent to the output unit 142. The output unit 142 outputs the transmitted signal (evaluation target acoustic signal T 2 ) as Lch data (second channel data including a superimposed signal) of the “degraded signal D 2 ”. On the other hand, when the signal processing is not performed in the signal processing unit 121 (when the signal processing is OFF), the recording processing unit 109 transmits the transmitted signal (the first obtained by sending the received sound signal to the first end side). The comparison signal is sent to the output unit 132. The output unit 132 outputs the transmitted signal (evaluation target acoustic signal T 1 ) as Lch data (second channel data including a superimposed signal) of the “degraded signal D 1 ”.

出力部131から出力されたRchの近端話者音響信号のデータと、出力部132から出力されたLchの評価対象音響信号Tのデータとの組は、「劣化信号D」としてデータ記憶部180に格納される。出力部141から出力されたRchの近端話者音響信号のデータと、出力部142から出力されたLchの評価対象音響信号Tのデータとの組は、「劣化信号D」としてデータ記憶部180に格納される。出力部151から出力されたRchの近端話者音響信号のデータと、出力部152から出力されたLchの基準音響信号のデータとの組は、「参照信号」としてデータ記憶部180に格納される。なお、同じ時間区間に対応する「劣化信号D」「劣化信号D」「参照信号」のRchの近端話者音響信号は互いに同一である。そのため、必ずしも「劣化信号D」「劣化信号D」「参照信号」のそれぞれについて、互いに同一なRchの近端話者音響信号のデータをデータ記憶部180に格納する必要はない。もちろん、「劣化信号D」「劣化信号D」「参照信号」のそれぞれについて、互いに同一なRchの近端話者音響信号のデータをデータ記憶部180に格納してもかまわない。 A set of Rch near-end speaker acoustic signal data output from the output unit 131 and Lch evaluation target acoustic signal T 1 data output from the output unit 132 is stored as “deteriorated signal D 1 ”. Stored in the unit 180. The pair of the Rch near-end speaker acoustic signal data output from the output unit 141 and the data of the Lch evaluation target acoustic signal T 2 output from the output unit 142 is stored as “deteriorated signal D 2 ”. Stored in the unit 180. A set of Rch near-end speaker acoustic signal data output from the output unit 151 and Lch reference acoustic signal data output from the output unit 152 is stored in the data storage unit 180 as a “reference signal”. The The Rch near-end speaker acoustic signals of “deteriorated signal D 1 ”, “deteriorated signal D 2 ”, and “reference signal” corresponding to the same time interval are the same. Therefore, it is not always necessary to store the same Rch near-end speaker acoustic signal data in the data storage unit 180 for each of the “degraded signal D 1 ”, “degraded signal D 2 ”, and “reference signal”. Of course, for each of the “degraded signal D 1 ”, “degraded signal D 2 ”, and “reference signal”, the data of the near-end speaker acoustic signal of the same Rch may be stored in the data storage unit 180.

図3を用い、上述のように得られた「参照信号」「劣化信号D」「劣化信号D」を例示する。図3の例では、前述した同一または同一とみなせる2つの受音信号の一方に信号処理する場合の一連の処理が行われ、他方に信号処理を実行しない場合の一連の処理が行われ、信号処理を実行した場合の「劣化信号D」と、信号処理を実行していない場合の「劣化信号D」との両方が得られている。また図3の例では、「信号処理」としてエコーキャンセル処理を含む処理を用いている。 The “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ” obtained as described above are illustrated using FIG. In the example of FIG. 3, a series of processing is performed when signal processing is performed on one of the two received sound signals that can be regarded as the same or the same, and a series of processing when signal processing is not performed is performed on the other. Both “degraded signal D 2 ” when processing is performed and “degraded signal D 1 ” when signal processing is not performed are obtained. In the example of FIG. 3, processing including echo cancellation processing is used as “signal processing”.

本実施形態の「参照信号」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルのデータ)と、前述の遠端話者音響信号に基づく基準音響信号を含むLchのデータ(第2端側の第2音響信号に基づく第2比較用信号を含む第2チャネルのデータ)とを含む。本実施形態の「劣化信号D」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルのデータ)と、前述の評価対象音響信号Tを含むLchのデータ(第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号を含む第2チャネルのデータ)とを含む。評価対象音響信号Tは信号処理を行うことなく得られた「第1比較用信号」である。本実施形態の「劣化信号D」のデータ構造は、前述の近端話者音響信号を含むRchのデータ(システムの第1端側の第1音響信号を含む第1チャネルのデータ)と、前述の評価対象音響信号Tを含むLchのデータ(第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号を含む第2チャネルのデータ)とを含む。なお、「評価対象音響信号Tを含むLchのデータ」および「評価対象音響信号Tを含むLchのデータ」は、いずれも「第1音響信号に由来する信号とシステムの第2端側の第2音響信号とに基づく重畳信号を含む第2チャネルのデータ」に相当する。特に「評価対象音響信号Tを含むLchのデータ」は、このような「重畳信号」を含むデータのうち、「第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来するもの」を含むデータである。 The data structure of the “reference signal” of the present embodiment includes Rch data including the above-mentioned near-end speaker acoustic signal (first channel data including the first acoustic signal on the first end side of the system) and the above-described data structure. Lch data including a reference sound signal based on the far-end speaker sound signal (second channel data including a second comparison signal based on the second sound signal on the second end side). The data structure of the “degraded signal D 1 ” of the present embodiment includes Rch data including the above-mentioned near-end speaker acoustic signal (first channel data including the first acoustic signal on the first end side of the system), and and a data Lch including evaluation target sound signal T 1 of the above (data of the second channel including a superimposed signal based on a second audio signal of the second end side of the derived signal and the system to the first acoustic signal) . Evaluated acoustic signal T 1 is obtained without performing signal processing "first comparison signal". The data structure of the “degraded signal D 2 ” of the present embodiment includes Rch data including the above-mentioned near-end speaker acoustic signal (first channel data including the first acoustic signal on the first end side of the system), and the containing superimposed signal derived from the Lch data (signals and processing signal obtained by performing signal processing on a signal based on a second sound signal from the first acoustic signal comprising evaluated acoustic signal T 2 of the above 2 channel data). Note that “the data of the Lch including the evaluation target acoustic signal T 1 ” and “the data of the Lch including the evaluation target acoustic signal T 2 ” are both “the signal derived from the first acoustic signal and the second end side of the system”. This corresponds to “second channel data including a superimposed signal based on the second acoustic signal”. In particular, the “Lch data including the evaluation target acoustic signal T 2 ” is a signal processing based on “a signal derived from the first acoustic signal and a second acoustic signal among the data including the“ superimposed signal ”. Data derived from the processing signal obtained by performing "."

図3に例示するように、「参照信号」「劣化信号D」「劣化信号D」のRchのデータの時間区間a−bには、互いに同一な近端話者音響信号(第1音響信号)が含まれる。「劣化信号D」「劣化信号D」のLchのデータの時間区間e−d’には、近端話者音響信号の音響エコー成分が含まれる。音響エコー成分は上記の近端話者音響信号に由来する信号(第1音響信号に由来する信号)であるが、近端話者音響信号に比べて時間区間a−e(遅延量C)だけ遅延している。この遅延量Cは、近端話者音響信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間に相当する。 As illustrated in FIG. 3, the same near-end speaker acoustic signal (first acoustic signal) is used in the time interval ab of the Rch data of “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ”. Signal). The time interval ed ′ of the Lch data of “degraded signal D 1 ” and “degraded signal D 2 ” includes the acoustic echo component of the near-end speaker acoustic signal. The acoustic echo component is a signal derived from the above-mentioned near-end speaker acoustic signal (a signal derived from the first acoustic signal), but only in the time interval ae (delay amount C) compared to the near-end speaker acoustic signal. There is a delay. This delay amount C is a signal obtained by transmitting a near-end speaker acoustic signal from the near-end terminal unit 110 to the far-end terminal unit 120, outputting a sound representing it from the speaker 105, and receiving it by the microphone 107. Corresponds to the time until the data is further transmitted from the far-end terminal unit 120 to the near-end terminal unit 110.

「参照信号」のLchのデータの時間区間c−dには、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく第22成分)が含まれ、「劣化信号D」のLchのデータの時間区間c’−d’には、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく第21成分)が重畳され、「劣化信号D」のLchのデータの時間区間c’−d’には、遠端話者音響信号に基づく遠端話者音響信号成分(第2音響信号に基づく第1成分)が重畳されている。「劣化信号D」「劣化信号D」のRchの近端話者音響信号の開始時点aからLchの遠端話者音響信号成分の開始時点c’までには時間差a−c’が存在する。また、「参照信号」のRchの近端話者音響信号の開始時点aからLchの遠端話者音響信号成分の開始時点cまでには時間差a−cが存在する。ここで「劣化信号D」「劣化信号D」での時間差a−c’は、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Aと、信号が遠端端末部120から近端端末部110に伝送されるまでの伝送遅延量Bとの合計A+Bに相当する。一方、「参照信号」での時間差a−cは、時間差Aと時間調整処理部108での遅延量τとの合計A+τに相当する。前述のように遅延量τは伝送遅延量Bに基づいて定められているため、遅延量τと伝送遅延量Bとが一致または近似し、時間差a−cを時間差a−c’に一致または近似させることができる。このようなデータ構造を用いた評価試験では、「劣化信号D」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。同様に、「劣化信号D」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「参照信号」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを、一致または近似させることができる。さらに、「劣化信号D」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間と、「劣化信号D」のRchで近端話者音響信号を出力してからLchで遠端話者音響信号成分を出力するまでの時間とを一致または近似させることができる。すなわち、重畳信号は、第2音響信号に基づく第1成分を含み、比較用信号は、第2音響信号に基づく第2成分(第21成分または第22成分)を含み、第1チャネルで第1音響信号を出力してから第2チャネルで第1成分を出力するまでの時間と、第1チャネルで第1音響信号を出力してから第2チャネルで第2成分を出力するまでの時間とを、一致または近似させることができる。なお、図3では、近端話者が遠端話者に先行して発話する状況を例示したが、遠端話者が近端話者に先行して発話したり、時間差がa−c’≒0となったりする場合もある。例えば、近端話者音響信号の開始タイミングと遠端話者音響信号の開始タイミングとの時間差Aと、信号が遠端端末部120から近端端末部110に伝送されるまでの伝送遅延量Bとが等しい場合は、時間差a−c’= 差分A−B≒0となる場合がある。さらに遠端話者が近端話者に対して伝送遅延量Bよりも早く話し始めた場合には波形の位置関係が逆転し、Lchの遠端話者音響信号成分の開始時点c’が「劣化信号D」「劣化信号D」のRchの近端話者音響信号の開始時点aよりも前になる場合もある。このような場合であっても同様に時間調整を行うことができる。 The time interval cd of the Lch data of the “reference signal” includes a far-end speaker sound signal component based on the far-end speaker sound signal (a 22nd component based on the second sound signal). The far-end speaker acoustic signal component based on the far-end speaker acoustic signal (the 21st component based on the second acoustic signal) is superimposed on the time interval c′-d ′ of the Lch data of “D 1 ”. The far-end speaker acoustic signal component based on the far-end speaker acoustic signal (the first component based on the second acoustic signal) is superimposed on the time interval c′-d ′ of the Lch data of the signal D 2 ″. . There is a time difference a−c ′ from the start time a of the Rch near-end speaker acoustic signal of the “deterioration signal D 1 ” and the “degradation signal D 2 ” to the start time c ′ of the Lch far-end speaker sound signal component. To do. Also, there is a time difference a−c from the start time a of the Rch near-end speaker sound signal of the “reference signal” to the start time c of the Lch far-end speaker sound signal component. Here, the time difference a−c ′ between the “degraded signal D 1 ” and the “degraded signal D 2 ” is the time difference A between the start timing of the near-end speaker acoustic signal and the start timing of the far-end speaker acoustic signal, This corresponds to the sum A + B of the transmission delay amount B from the far end terminal unit 120 to the near end terminal unit 110. On the other hand, the time difference ac in the “reference signal” corresponds to the sum A + τ of the time difference A and the delay amount τ in the time adjustment processing unit 108. Since the delay amount τ is determined based on the transmission delay amount B as described above, the delay amount τ and the transmission delay amount B match or approximate, and the time difference a−c matches or approximates the time difference a−c ′. Can be made. In the evaluation test using such a data structure, the time from the output of the near-end speaker acoustic signal at the Rch of the “degraded signal D 2 ” to the output of the far-end speaker acoustic signal component at the Lch, The time from when the near-end speaker acoustic signal is output at the Rch of the “reference signal” to when the far-end speaker acoustic signal component is output at the Lch can be matched or approximated. Similarly, the time from the output of the near-end speaker acoustic signal on the Rch of the “degraded signal D 1 ” to the output of the far-end speaker acoustic signal component on the Lch and the near-end talk on the Rch of the “reference signal” It is possible to match or approximate the time from the output of the speaker audio signal to the output of the far-end speaker audio signal component on the Lch. Furthermore, the time from the output of the near-end speaker acoustic signal at the Rch of the “degraded signal D 1 ” to the output of the far-end speaker acoustic signal component at the Lch, and the near-end at the Rch of the “degraded signal D 2 ”. It is possible to match or approximate the time from when the speaker acoustic signal is output to when the far-end speaker acoustic signal component is output at Lch. That is, the superimposed signal includes a first component based on the second acoustic signal, and the comparison signal includes a second component (21st component or 22nd component) based on the second acoustic signal, and the first channel uses the first component. The time from the output of the acoustic signal to the output of the first component on the second channel and the time from the output of the first acoustic signal on the first channel to the output of the second component on the second channel , Can be matched or approximated. FIG. 3 illustrates the situation where the near-end speaker speaks before the far-end speaker, but the far-end speaker speaks before the near-end speaker, or the time difference is ac−c ′. In some cases, ≈0. For example, the time difference A between the start timing of the near-end speaker sound signal and the start timing of the far-end speaker sound signal, and the transmission delay amount B until the signal is transmitted from the far-end terminal unit 120 to the near-end terminal unit 110 May be equal to time difference a−c ′ = difference A−B≈0. Further, when the far-end speaker starts speaking to the near-end speaker earlier than the transmission delay amount B, the positional relationship of the waveforms is reversed, and the start time c ′ of the Lch far-end speaker acoustic signal component is “ In some cases, the deterioration signal D 1 ”“ deterioration signal D 2 ”may be before the start time a of the Rch near-end speaker acoustic signal. Even in such a case, the time adjustment can be similarly performed.

また、上述のデータ構造では、「参照信号」としてRchの近端話者音響信号のデータとLchの基準音響信号のデータとが対応付けられ、「劣化信号D」としてRchの近端話者音響信号のデータとLchの評価対象音響信号Tのデータとが対応付けられ、「劣化信号D」としてRchの近端話者音響信号のデータとLchの評価対象音響信号Tのデータとが対応付けられている。このようなデータ構造を用いた評価試験では、Rchで近端話者音響信号を出力しつつ、Lchで基準音響信号を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号Tを出力する制御とを行うことができる。同様に、Rchで近端話者音響信号を出力しつつ、Lchで基準音響信号を出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号Tを出力する制御とを行うこともできる。さらに、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号Tを出力する制御と、Rchで近端話者音響信号を出力しつつ、Lchで評価対象音響信号Tを出力する制御とを行うこともできる。すなわち、第1チャネルで第1音響信号を出力しつつ、第2チャネルで比較用信号を出力する制御と、第1チャネルで第1音響信号を出力しつつ、第2チャネルで重畳信号を出力する制御と、が可能である。 In the above data structure, the Rch near-end speaker acoustic signal data and the Lch reference acoustic signal data are associated as the “reference signal”, and the Rch near-end speaker is represented as the “degraded signal D 1 ”. The acoustic signal data and the Lch evaluation target acoustic signal T 1 data are associated with each other, and the Rch near-end speaker acoustic signal data and the Lch evaluation target acoustic signal T 2 data are represented as “degraded signal D 2 ”. Are associated. In an evaluation test using such a data structure, while outputting a near-end speaker sound signal at Rch and outputting a reference sound signal at Lch, and outputting a near-end speaker sound signal at Rch, Lch in it is possible to perform the control for outputting the evaluated acoustic signal T 1. Similarly, while outputs the near-end talker audio signals Rch, and a control for outputting a reference sound signal Lch, while outputs the near-end talker audio signals Rch, outputs the evaluated acoustic signal T 2 in Lch Control can also be performed. Furthermore, while outputs the near-end talker audio signals Rch, and a control for outputting the evaluated acoustic signal T 1 in Lch, while outputs the near-end talker audio signals Rch, evaluated by Lch target sound signal T 2 Can also be controlled. That is, a control for outputting a comparison signal on the second channel while outputting the first acoustic signal on the first channel, and a superimposed signal on the second channel while outputting the first acoustic signal on the first channel Control is possible.

評価試験の際、「参照信号」「劣化信号D」「劣化信号D」が何らかの順序で再生される。「参照信号」「劣化信号D」「劣化信号D」のRchの信号の再生音は、例えば、両耳装着型音響再生装置の右のスピーカーから出力され、Lchの信号の再生音は、例えば、この両耳装着型音響再生装置の左のスピーカーから出力される(ステレオ再生)。評価者は、この両耳装着型音響再生装置を両耳に装着し、ステレオ再生されたこれらの音を聴いて通話品質を主観評価する。この際、評価者はLchの信号の再生音を利き耳(例えば左耳)で聴き、Rchの信号の再生音を利き耳ではない耳(例えば右耳)で聴くことが望ましい。評価試験の詳細は第3実施形態で説明する。 In the evaluation test, “reference signal”, “deteriorated signal D 1 ”, and “deteriorated signal D 2 ” are reproduced in some order. The reproduced sound of the Rch signal of “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ” is output from, for example, the right speaker of the binaural-type sound reproducing device, and the reproduced sound of the Lch signal is For example, the sound is output from the left speaker of this binaural-mounted sound reproduction device (stereo reproduction). The evaluator wears the binaural sound reproducing apparatus on both ears and listens to these sounds reproduced in stereo to subjectively evaluate the call quality. At this time, the evaluator preferably listens to the reproduced sound of the Lch signal with the dominant ear (for example, the left ear) and listens to the reproduced sound of the Rch signal with the ear that is not the dominant ear (for example, the right ear). Details of the evaluation test will be described in a third embodiment.

[第1実施形態の変形例]
第1実施形態では、遠端話者音響信号を遅延量τだけ遅延させたものを「参照信号」のLchの基準音響信号とした。これは「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似(例えば、図3の時間区間a−cと時間区間a−c’との一致または近似)させるためである。しかしながら、このような目的は他の手段によっても実現できる。例えば、再生部104から出力された遠端話者音響信号を遅延させることなく「参照信号」のLchの基準音響信号として出力部152から出力し、再生部103から出力された近端話者音響信号を時間τだけ時間的に繰り上げたもの(遅延の逆の時間シフトをしたもの)を「参照信号」のRchの近端話者音響信号としてもよい。あるいは、再生部104から出力された遠端話者音響信号を時間τ−Tだけ遅延させたものを「参照信号」のLchの基準音響信号として出力部152から出力し、再生部103から出力された近端話者音響信号を時間Tだけ時間的に繰り上げたものを「参照信号」のRchの近端話者音響信号としてもよい。ただし、Tの値は、例えば、0≦T≦τである。あるいは、評価試験時の処理により、「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。例えば、「参照信号」「劣化信号D」「劣化信号D」のファイル名やそれらを構成する信号の時間情報を持つデータ構造であればよい。データ構造がさらに遅延量τを特定するための情報を持っていてもよい。このような場合、データ記憶部180に格納されている「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間が一致または近似されていなくてもよい。要は、何らかの方法で、「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号」と「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。また、「劣化信号D」「劣化信号D」との間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間が一致していないデータ構造であってもよい。
[Modification of First Embodiment]
In the first embodiment, the far-end speaker sound signal delayed by the delay amount τ is used as the “reference signal” Lch standard sound signal. This is between the “reference signal” and the “degraded signal D 1 ” and “degraded signal D 2 ”, when the near-end speaker acoustic signal (Rch) starts and when the far-end speaker acoustic signal component (Lch) starts. This is for making the time interval between and coincide with each other (for example, coincidence or approximation between the time interval ac and the time interval ac ′ in FIG. 3). However, such an object can be realized by other means. For example, the far-end speaker sound output from the playback unit 104 is output from the output unit 152 as the Lch standard sound signal of the “reference signal” without delaying the far-end speaker sound signal output from the playback unit 104. A signal obtained by raising the signal by time τ (a signal shifted by a time shift opposite to the delay) may be used as the Rch near-end speaker acoustic signal of the “reference signal”. Alternatively, the far-end speaker sound signal output from the playback unit 104 is delayed by the time τ-T and output from the output unit 152 as the Lch standard sound signal of the “reference signal” and output from the playback unit 103. Alternatively, the near-end speaker sound signal of the Rch of the “reference signal” may be obtained by raising the near-end speaker sound signal by time T. However, the value of T is, for example, 0 ≦ T ≦ τ. Alternatively, by the processing during the evaluation test, the near-end speaker acoustic signal (Rch) starts and the far-end speaker acoustic signal between the “reference signal” and the “degraded signal D 1 ” and the “degraded signal D 2 ”. It may be a data structure that can match or approximate the time interval from the start of the component (Lch). For example, a data structure having file names of “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ” and time information of signals constituting them may be used. The data structure may further have information for specifying the delay amount τ. In such a case, between the “reference signal” and the “degraded signal D 1 ” and “degraded signal D 2 ” stored in the data storage unit 180, when the near-end speaker acoustic signal (Rch) starts and far The time interval from the start of the end speaker audio signal component (Lch) may not be the same or approximated. In short, in some way, between the “reference signal” and the “degraded signal D 1 ” and “degraded signal D 2 ”, the beginning of the near-end speaker acoustic signal (Rch) and the far-end speaker acoustic signal component ( Any data structure that can match or approximate the time interval from the start of (Lch) can be used. Further, depending on the environment, between the “reference signal” and the “degraded signal D 1 ” and “degraded signal D 2 ”, the near-end speaker acoustic signal (Rch) starts and the far-end speaker acoustic signal component (Lch). The evaluation test may be performed without adjusting the time interval between the start of the first time and the first time. In such a case, between the “reference signal” and the “degraded signal D 1 ” and “degraded signal D 2 ”, the near-end speaker acoustic signal (Rch) is started and the far-end speaker acoustic signal component ( The data structure may not be able to match or approximate the time interval from the start of (Lch). Further, the time between the start of the near-end speaker acoustic signal (Rch) and the start of the far-end speaker acoustic signal component (Lch) between the “deteriorated signal D 1 ” and the “degraded signal D 2 ”. A data structure in which the sections do not match may be used.

[第2実施形態]
第2実施形態は第1実施形態の変形例であり、通信環境および室内環境を電気的に模擬したデータ生成装置で、評価試験を行うためのデータ構造を生成するものである。以下では、これまで説明した事項との相違点を中心に説明する。既に説明した事項については、それらに用いた参照番号を流用して説明を簡略化する。
[Second Embodiment]
The second embodiment is a modification of the first embodiment, and is a data generation device that electrically simulates a communication environment and an indoor environment, and generates a data structure for performing an evaluation test. Below, it demonstrates centering on the difference with the matter demonstrated so far. About the already demonstrated matter, the reference number used for them is diverted and description is simplified.

<データ生成装置>
図4に例示するように、本実施形態のデータ生成装置2は、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、時間調整処理部208、通信環境模擬処理部260、信号処理部270、出力部131,132,141,142,151,152、およびデータ記憶部180を有する。データ生成装置2は、例えば、音声信号の処理が可能な汎用または専用の1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
<Data generation device>
As illustrated in FIG. 4, the data generation device 2 of the present embodiment includes a near-end speaker acoustic signal storage unit 101, a far-end speaker acoustic signal storage unit 102, a time adjustment processing unit 208, and a communication environment simulation processing unit 260. , A signal processing unit 270, output units 131, 132, 141, 142, 151, 152, and a data storage unit 180. The data generation device 2 is a device configured by, for example, one or more general-purpose or dedicated computers capable of processing audio signals executing a predetermined program. Further, a part or all of the processing units may be configured using an electronic circuit that realizes a processing function independently.

通信環境模擬処理部260は、通信環境および周囲環境(空間伝達系)を電気的に模擬した通信環境模擬処理を行う。この通信環境模擬処理は、少なくとも、近端話者音響信号(第1音響信号)に第1時間調整処理を含む処理を行って得られる信号と、遠端話者音響信号(第2音響信号)に第2時間調整処理を含む処理を行って得られる信号と、を重畳する処理を含む。さらに、通信環境模擬処理が、擬似エコーおよび擬似雑音の少なくとも一方を重畳する処理を含んでもよい。例えば、図5Aに例示するように、通信環境模擬処理部260は、時間調整処理部264,266、擬似エコー生成部265、加算部267、入力部261,262、および出力部263を含む。さらに、通信環境模擬処理部260が擬似雑音源268を含んでもよい。なお、擬似雑音源268は遠端端末部のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音を模擬するためのものである。   The communication environment simulation processing unit 260 performs communication environment simulation processing that electrically simulates the communication environment and the surrounding environment (space transmission system). The communication environment simulation process includes at least a signal obtained by performing a process including a first time adjustment process on the near-end speaker sound signal (first sound signal), and a far-end speaker sound signal (second sound signal). Includes a process of superimposing a signal obtained by performing a process including the second time adjustment process. Furthermore, the communication environment simulation process may include a process of superimposing at least one of a pseudo echo and a pseudo noise. For example, as illustrated in FIG. 5A, the communication environment simulation processing unit 260 includes time adjustment processing units 264 and 266, a pseudo echo generation unit 265, an addition unit 267, input units 261 and 262, and an output unit 263. Further, the communication environment simulation processing unit 260 may include a pseudo noise source 268. The pseudo noise source 268 is for simulating any environmental noise generated around the microphone of the far end terminal unit other than the voice of the far end speaker.

信号処理部270は、入力された信号に所定の信号処理を行って出力する。第1実施形態と同様、「信号処理」はどのような処理であってもよく、「信号処理」の例はエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理である。例えば、図5Bに例示するように、信号処理部270は、入力部271,272、出力部273、加算部274、適応フィルタ275、および時間調整処理部276を含む。信号処理部270がさらに雑音除去部278および乗算部277を含んでもよい。また、図5Bでは適応フィルタ275を用いてエコーキャンセラが構成されているが、音声スイッチやエコーリダクションその他の技術またはそれと適応フィルタ275との組み合わせでエコーキャンセラが構成されてもよい。   The signal processing unit 270 performs predetermined signal processing on the input signal and outputs it. As in the first embodiment, “signal processing” may be any processing, and an example of “signal processing” is processing including at least one of echo cancellation processing and noise cancellation processing. The echo cancellation processing is processing by an echo canceller in a broad sense for reducing echo. For example, as illustrated in FIG. 5B, the signal processing unit 270 includes input units 271 and 272, an output unit 273, an addition unit 274, an adaptive filter 275, and a time adjustment processing unit 276. The signal processing unit 270 may further include a noise removal unit 278 and a multiplication unit 277. 5B, the echo canceller is configured by using the adaptive filter 275. However, the echo canceller may be configured by a voice switch, echo reduction, other techniques, or a combination thereof and the adaptive filter 275.

次に、本実施形態のデータ生成処理を説明する。
第1実施形態と同じく、まず事前処理として、近端話者音響信号(第1音響信号)のデータを近端話者音響信号記憶部101に格納し、遠端話者音響信号(第2音響信号)のデータを遠端話者音響信号記憶部102に格納する。以上の前提のもと、上述の評価試験を行うためのデータ構造が次のように生成される。
Next, the data generation process of this embodiment is demonstrated.
As in the first embodiment, first, as a pre-process, the data of the near-end speaker sound signal (first sound signal) is stored in the near-end speaker sound signal storage unit 101, and the far-end speaker sound signal (second sound) is stored. Signal) data is stored in the far-end speaker sound signal storage unit 102. Based on the above assumptions, a data structure for performing the above-described evaluation test is generated as follows.

近端話者音響信号記憶部101から近端話者音響信号が抽出され、出力部131,141,151、通信環境模擬処理部260の入力部262、および信号処理部270の入力部272に送られる。遠端話者音響信号記憶部102から遠端話者音響信号が抽出され、時間調整処理部208および通信環境模擬処理部260の入力部261に入力される。   Near-end speaker sound signals are extracted from the near-end speaker sound signal storage unit 101 and sent to the output units 131, 141, 151, the input unit 262 of the communication environment simulation processing unit 260, and the input unit 272 of the signal processing unit 270. It is done. The far-end speaker sound signal is extracted from the far-end speaker sound signal storage unit 102 and input to the time adjustment processing unit 208 and the input unit 261 of the communication environment simulation processing unit 260.

出力部131,141,151は、送られた近端話者音響信号(第1音響信号)を、それぞれ「劣化信号D」「劣化信号D」「参照信号」のRchのデータ(第1音響信号を含む第1チャネルのデータ)として出力する。 The output units 131, 141, and 151 output the RCH data (first signal) of the “deterioration signal D 1 ”, “deterioration signal D 2 ”, and “reference signal” to the transmitted near-end speaker acoustic signal (first acoustic signal), respectively. 1st channel data including an acoustic signal).

通信環境模擬処理部260は、入力部261,262に入力された遠端話者音響信号(第2音響信号),近端話者音響信号(第1音響信号)に前述した「通信環境模擬処理」を行い、それによって得られた模擬信号を出力部263から出力する。図5Aの例の場合、入力部261に入力された遠端話者音響信号は時間調整処理部266に入力され、入力部262に入力された近端話者音響信号は時間調整処理部264に入力される。時間調整処理部266は、当該遠端話者音響信号に遅延量B’の遅延を与え、それによって得られた信号を加算部267に送る(第1時間調整処理)。時間調整処理部264は、当該近端話者音響信号に遅延量C’の遅延を与え、遅延された近端話者音響信号を擬似エコー生成部265に送る(第2時間調整処理)。擬似エコー生成部265は、遅延された近端話者音響信号を用いて擬似エコーを作成し(例えば、近端話者音響信号(第1音響信号)を遠端話者側のスピーカーで再生して遠端話者側のマイクロホンで収音するときの空間伝達系および収音時の波形歪みを模擬した信号を擬似エコーとして生成する)、それによって得られた信号を加算部267に送る。加算部267は第1時間調整処理によって得られた信号と第2時間調整処理によって得られた信号を重畳する。擬似雑音源268が存在する場合には、加算部267はさらに擬似雑音源268から出力された擬似雑音信号を重畳してもよい。加算部267で得られた信号は出力部263に送られ、出力部263はそれを模擬信号として出力する。   The communication environment simulation processing unit 260 uses the “communication environment simulation process” described above for the far-end speaker acoustic signal (second acoustic signal) and the near-end speaker acoustic signal (first acoustic signal) input to the input units 261 and 262. And the simulation signal obtained thereby is output from the output unit 263. In the case of the example of FIG. 5A, the far-end speaker sound signal input to the input unit 261 is input to the time adjustment processing unit 266, and the near-end speaker sound signal input to the input unit 262 is input to the time adjustment processing unit 264. Entered. The time adjustment processing unit 266 gives a delay amount B ′ to the far-end speaker sound signal, and sends the signal obtained thereby to the addition unit 267 (first time adjustment processing). The time adjustment processing unit 264 gives a delay amount C ′ to the near-end speaker sound signal, and sends the delayed near-end speaker sound signal to the pseudo echo generation unit 265 (second time adjustment process). The pseudo echo generation unit 265 creates a pseudo echo using the delayed near-end speaker sound signal (for example, reproduces the near-end speaker sound signal (first sound signal) on the far-end speaker side speaker. Then, a signal that simulates the spatial transmission system and the waveform distortion at the time of sound collection when the sound is collected by the microphone on the far end speaker side is generated as a pseudo echo), and the signal obtained thereby is sent to the adder 267. The adder 267 superimposes the signal obtained by the first time adjustment process and the signal obtained by the second time adjustment process. When the pseudo noise source 268 exists, the adding unit 267 may further superimpose the pseudo noise signal output from the pseudo noise source 268. The signal obtained by the adding unit 267 is sent to the output unit 263, and the output unit 263 outputs it as a simulation signal.

なお、上述の遅延量B’は、例えば、第1実施形態の伝送遅延量B(遠端端末部120から近端端末部110までの伝送遅延量)を模擬するものである。一方、遅延量C’は、例えば、第1実施形態の遅延量C(信号が近端端末部110から遠端端末部120に伝送され、スピーカー105からそれを表す音が出力され、マイクロホン107で受音されて得られた信号が、さらに遠端端末部120から近端端末部110に伝送されるまでの時間)を模擬するものである。そのため、B’<C’であることが望ましい(例えば、C’=2×B’)。しかしながら、これは本発明を限定するものではなく、B’=C’やB’>C’ または、 B’=C’=0であってもよい。   Note that the delay amount B ′ described above simulates the transmission delay amount B (transmission delay amount from the far-end terminal unit 120 to the near-end terminal unit 110) of the first embodiment, for example. On the other hand, the delay amount C ′ is, for example, the delay amount C of the first embodiment (a signal is transmitted from the near-end terminal unit 110 to the far-end terminal unit 120, and a sound representing it is output from the speaker 105. Time until the signal obtained by receiving the sound is further transmitted from the far-end terminal unit 120 to the near-end terminal unit 110). Therefore, it is desirable that B ′ <C ′ (for example, C ′ = 2 × B ′). However, this is not a limitation of the present invention, and B ′ = C ′, B ′> C ′ or B ′ = C ′ = 0.

出力部263から出力された模擬信号は、出力部132および信号処理部270の入力部271に入力される。出力部132は、送られた模擬信号(評価対象音響信号T、第1比較用信号)を「劣化信号D」のLchのデータ(重畳信号を含む第2チャネルのデータ)として出力する。 The simulation signal output from the output unit 263 is input to the output unit 132 and the input unit 271 of the signal processing unit 270. The output unit 132 outputs the transmitted simulation signal (evaluation target acoustic signal T 1 , first comparison signal) as Lch data (second channel data including a superimposed signal) of the “deterioration signal D 1 ”.

信号処理部270は、入力部271に入力された模擬信号と入力部272に入力された近端話者音響信号を用い、当該模擬信号に信号処理を行って重畳信号を得る。図5Bの例の場合、近端話者音響信号を時間調整処理部276で遅延させた信号に適応フィルタ275を適用して得られた信号と模擬信号とを加算部274で重畳することでエコーキャンセル処理を行い、雑音除去部278および乗算部277を有する場合には、さらにノイズキャンセル処理を行って、それによって重畳信号を得る。なお、ノイズキャンセル処理の方法は、例えば、近端話者および遠端話者のどちらの音響信号も存在しない状態で、図5Aの擬似雑音源268が送出する擬似雑音の定常雑音レベルを雑音推定部278で推定し、加算部274からの出力信号に対して、推定した定常雑音レベルの分だけ振幅が抑圧されるように、乗算部277でゲイン値を乗じるものである(例えば、阪内澄宇,羽田陽一,田中雅史,佐々木潤子,片岡章俊,“雑音抑圧及びエコー抑圧機能を備えた音響エコーキャンセラ”,電子情報通信学会論文誌 Vol.J87-A, No.4, pp.448-457 (2004年4月)等参照)。得られた重畳信号は出力部273から出力される。出力部273は重畳信号(第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する重畳信号)を出力部142に送る。出力部142は、送られた重畳信号(評価対象音響信号T)を「劣化信号D」のLchのデータ(重畳信号を含む第2チャネルのデータ)として出力する。 The signal processing unit 270 uses the simulated signal input to the input unit 271 and the near-end speaker acoustic signal input to the input unit 272 to perform signal processing on the simulated signal to obtain a superimposed signal. In the case of the example of FIG. 5B, the signal obtained by applying the adaptive filter 275 to the signal obtained by delaying the near-end speaker acoustic signal by the time adjustment processing unit 276 and the simulated signal are superimposed by the adding unit 274. When canceling processing is performed and the noise removing unit 278 and the multiplying unit 277 are included, noise canceling processing is further performed, thereby obtaining a superimposed signal. Note that the noise cancellation processing method is, for example, that noise estimation is performed on the steady noise level of the pseudo noise transmitted from the pseudo noise source 268 in FIG. 5A in the state where neither the near-end speaker nor the far-end speaker has an acoustic signal. The multiplication unit 277 multiplies the gain value by the multiplication unit 277 so that the amplitude is suppressed by the estimated steady noise level for the output signal from the addition unit 274. U, Yoichi Haneda, Masafumi Tanaka, Junko Sasaki, Akitoshi Kataoka, “Acoustic Echo Canceller with Noise Suppression and Echo Suppression”, IEICE Transactions Vol.J87-A, No.4, pp.448-457 (See April 2004)). The obtained superimposed signal is output from the output unit 273. The output unit 273 sends a superimposed signal (a superimposed signal derived from a processed signal obtained by performing signal processing on a signal based on the signal derived from the first acoustic signal and the second acoustic signal) to the output unit 142. The output unit 142 outputs the transmitted superimposed signal (evaluation target acoustic signal T 2 ) as Lch data (second channel data including the superimposed signal) of the “degraded signal D 2 ”.

また、時間調整処理部208は、入力された遠端話者音響信号を遅延量τ’だけ遅延させ、遅延させた遠端話者音響信号を出力部152に送る。本形態の遅延量τ’は、例えば、上述の遅延量B’に対応する。例えば、遅延量B’または当該遅延量B’の近似値もしくは補正値(関数値)を遅延量τ’とする。あるいは、遅延量τ’が遅延量C’に対応してもよい。例えば、τ’がC’/2またはC’/2の関数値であってもよい。あるいは、遅延量τ’が遅延量B’および遅延量C’に対応してもよい。出力部152は、時間調整処理部208で遅延させた遠端話者音響信号(基準音響信号、第2音響信号に基づく第2比較用信号)を「参照信号」のLchのデータ(基準音響信号を表す第2チャネルのデータ)として出力する。   Further, the time adjustment processing unit 208 delays the input far-end speaker sound signal by the delay amount τ ′, and sends the delayed far-end speaker sound signal to the output unit 152. The delay amount τ ′ in this embodiment corresponds to, for example, the delay amount B ′ described above. For example, the delay amount τ ′ is the delay amount B ′ or an approximate value or correction value (function value) of the delay amount B ′. Alternatively, the delay amount τ ′ may correspond to the delay amount C ′. For example, τ ′ may be a function value of C ′ / 2 or C ′ / 2. Alternatively, the delay amount τ ′ may correspond to the delay amount B ′ and the delay amount C ′. The output unit 152 converts the far-end speaker acoustic signal (reference acoustic signal, second comparison signal based on the second acoustic signal) delayed by the time adjustment processing unit 208 into Lch data (reference acoustic signal) of the “reference signal”. 2nd channel data representing

以上の処理によっても図3に例示するようなデータ構造を得ることができる。得られたデータ構造はデータ記憶部180に格納される。   The data structure as illustrated in FIG. 3 can also be obtained by the above processing. The obtained data structure is stored in the data storage unit 180.

[第2実施形態の変形例]
第2実施形態では、時間調整処理部208,264,266,276それぞれの遅延処理により、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似(図3の時間区間a−cと時間区間a−c’との一致または近似)させた。しかしながら、第1実施形態の変形例と同様、このような目的は他の手段によっても実現できる。例えば、遠端話者音響信号記憶部102から読み出された遠端話者音響信号を遅延させることなく「参照信号」のLchの基準音響信号として出力部152から出力し、近端話者音響信号記憶部101から読み出された近端話者音響信号を時間τ’だけ時間的に繰り上げたものを「参照信号」のRchの近端話者音響信号としてもよい。要は、
(1)「劣化信号D」のRchの近端話者音響信号(第1音響信号)が出力されてから、そのLchの評価対象音響信号T(重畳信号)に含まれる遠端話者音響信号成分(第1成分)が出力されるまでの時間と、「参照信号」のRchの近端話者音響信号(第1音響信号)が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分(第22成分)が出力されるまでの時間との一致または近似、および、
(2)「劣化信号D」のRchの近端話者音響信号(第1音響信号)が出力されてから、そのLchの評価対象音響信号Tに含まれる遠端話者音響信号成分(第21成分)が出力されるまでの時間と、「参照信号」のRchの近端話者音響信号(第1音響信号)が出力されてから、そのLchの基準音響信号に含まれる遠端話者音響信号成分(第22成分)が出力されるまでの時間との一致または近似、
の少なくとも一方を行う1個以上の時間調整処理部を備えていればよい。その他、評価試験の時の処理により、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似できるデータ構造であってもよい。要は、何らかの方法で、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが可能なデータ構造であればよい。さらに環境によっては、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を調整することなく、評価試験が行われてもよい。このような場合には、「参照信号」「劣化信号D」「劣化信号D」の間で、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させることが不可能なデータ構造であってもよい。
[Modification of Second Embodiment]
In the second embodiment, the near-end speaker acoustic signal (denoted between the “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ”) by the delay processing of each of the time adjustment processing units 208, 264, 266, 276. Rch) coincides with or approximates the time interval between the start of the far-end speaker acoustic signal component (Lch) (coincidence or approximation of the time interval ac and the time interval ac ′ in FIG. 3). ) However, like the modification of the first embodiment, such an object can be realized by other means. For example, the far-end speaker sound signal read from the far-end speaker sound signal storage unit 102 is output from the output unit 152 as the Lch standard sound signal of the “reference signal” without delay, and the near-end speaker sound signal is output. The near-end speaker sound signal of the Rch of the “reference signal” may be obtained by temporally raising the near-end speaker sound signal read from the signal storage unit 101 by the time τ ′. In short,
(1) After the Rch near-end speaker acoustic signal (first acoustic signal) of “deteriorated signal D 2 ” is output, the far-end speaker included in the evaluation target acoustic signal T 2 (superimposed signal) of the Lch Included in the reference sound signal of the Lch after the time until the sound signal component (first component) is output and the Rch near-end speaker sound signal (first sound signal) of the “reference signal” is output Match or approximate the time until the far-end speaker acoustic signal component (the 22nd component) is output, and
(2) After the Rch near-end speaker acoustic signal (first acoustic signal) of the “deteriorated signal D 1 ” is output, the far-end speaker acoustic signal component included in the evaluation target acoustic signal T 1 of the Lch ( The time until the (21st component) is output, and the far-end speech included in the Lch reference acoustic signal after the Rch near-end speaker acoustic signal (first acoustic signal) of the “reference signal” is output Match or approximate the time until the human acoustic signal component (the 22nd component) is output,
One or more time adjustment processing units that perform at least one of the above may be provided. In addition, by the processing at the time of the evaluation test, between the “reference signal”, the “degraded signal D 1 ”, and the “degraded signal D 2 ”, the near-end speaker acoustic signal (Rch) starts and the far-end speaker acoustic signal component A data structure that can match or approximate the time interval from the start of (Lch) may be used. The point is that the start of the near-end speaker acoustic signal (Rch) and the far-end speaker acoustic signal component (Lch) between the “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ” by some method. Any data structure capable of matching or approximating the time interval between the start and the start of the data may be used. Furthermore, depending on the environment, between the “reference signal”, the “degraded signal D 1 ”, and the “degraded signal D 2 ”, the start of the near-end speaker acoustic signal (Rch) and the start of the far-end speaker acoustic signal component (Lch) An evaluation test may be performed without adjusting the time interval between times. In such a case, between the “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ”, the near-end speaker acoustic signal (Rch) starts and the far-end speaker acoustic signal component (Lch). It may be a data structure in which it is impossible to match or approximate the time interval between the start time of and the start time.

[第3実施形態]
第3実施形態では、前述のように生成されたデータ構造を用いた品質評価方法を説明する。
[Third Embodiment]
In the third embodiment, a quality evaluation method using the data structure generated as described above will be described.

<音響品質評価装置>
図6に例示するように、本実施形態の音響品質評価装置3は、データ記憶部180、集計結果記憶部305、再生制御部301、表示制御部302、集計部303、制御部304、音響出力処理部310−n、表示部320−n、および入力部330−nを有する。ただし、n=1,・・・,Nであり、Nは1以上の整数(例えば、Nは1以上4以下)である。音響品質評価装置3は、例えば、表示装置(ディスプレイ等)および入力装置(キーボードやマウス等)を備えた前述のような1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
<Sound quality evaluation device>
As illustrated in FIG. 6, the sound quality evaluation apparatus 3 according to the present embodiment includes a data storage unit 180, a totaling result storage unit 305, a reproduction control unit 301, a display control unit 302, a totaling unit 303, a control unit 304, and a sound output. The processing unit 310-n, the display unit 320-n, and the input unit 330-n are included. However, n = 1,..., N, and N is an integer of 1 or more (for example, N is 1 or more and 4 or less). The sound quality evaluation apparatus 3 is an apparatus configured by, for example, one or more computers including a display device (display, etc.) and an input device (keyboard, mouse, etc.) executing a predetermined program. is there. Further, a part or all of the processing units may be configured using an electronic circuit that realizes a processing function independently.

<音響品質評価処理>
音響品質評価装置3は、前述したデータ構造を用い、制御部304の制御のもと、前述した拡声系通信システムでの会話MOS試験を模擬した評価試験を行う。
<Sound quality evaluation process>
The sound quality evaluation apparatus 3 uses the data structure described above and performs an evaluation test that simulates the conversation MOS test in the above-described loudspeaker communication system under the control of the control unit 304.

n=1,・・・,Nについて、音響出力処理部310−nの出力部311−nに両耳装着型音響再生装置340−nの一方のチャネルであるRch(第1チャネル:例えば右チャネル)が接続され、出力部312−nに両耳装着型音響再生装置340−nの他方のチャネルであるLch(第2チャネル:例えば左チャネル)が接続される。なお、両耳装着型音響再生装置340−nとは、一方のチャネルRchの音を出力する一方の耳専用のスピーカーと、他方のチャネルLchの音を出力する他方の耳専用のスピーカーと、を備えたステレオ再生可能な音響再生装置である。両耳装着型音響再生装置340−nの具体例は、ヘッドフォンやイヤホン等である。評価者350−nは、両耳装着型音響再生装置340−nを装着し、表示部320−nから出力される表示内容に従って、両耳装着型音響再生装置340−nから出力される音の主観評価を行い、評価結果を入力部330−nに入力する。なお、評価者350−nは、その利き耳(例えば、左耳)にチャネルLchの音を出力する側のスピーカーを装着し、利き耳ではない側の耳(例えば、右耳)にチャネルRchの音を出力する側のスピーカーを装着することが望ましい。以下、これらの処理を詳細に説明する。   For n = 1,..., N, the Rch (first channel: for example, the right channel) that is one channel of the binaural sound reproduction device 340-n is output to the output unit 311-n of the sound output processing unit 310-n. ) Is connected, and the Lch (second channel: for example, the left channel), which is the other channel of the binaural sound reproducing device 340-n, is connected to the output unit 312-n. The binaural-mounted sound reproducing device 340-n includes a speaker dedicated to one ear that outputs sound of one channel Rch and a speaker dedicated to the other ear that outputs sound of the other channel Lch. This is a stereo sound reproduction apparatus equipped with stereo reproduction. Specific examples of the binaural-mounted sound reproducing device 340-n include headphones and earphones. The evaluator 350-n wears the binaural-type sound reproduction device 340-n, and according to the display content output from the display unit 320-n, the sound output from the binaural-type sound reproduction device 340-n. Subjective evaluation is performed, and the evaluation result is input to the input unit 330-n. Note that the evaluator 350-n wears a speaker on the side that outputs the sound of the channel Lch in the dominant ear (for example, the left ear), and the channel Rch in the ear (for example, the right ear) that is not the dominant ear. It is desirable to attach a speaker that outputs sound. Hereinafter, these processes will be described in detail.

再生制御部301は、制御部304の制御に従い(制御内容は後述)、データ記憶部180から前述したデータ構造から「参照信号」「劣化信号D」「劣化信号D」の何れかを抽出し、音響出力処理部310−n(ただし、n=1,・・・,N)に送る。この際に、近端話者音響信号(Rch)の開始時と遠端話者音響信号成分(Lch)の開始時との間の時間区間を一致または近似させるための処理がなされてもよい。音響出力処理部310−nは、送られた信号に応じて以下の処理を行う。なお、「参照信号」の基準音響信号が表す音を「基準音」とよび、「劣化信号D」の評価対象音響信号Tが表す音、および「劣化信号D」の評価対象音響信号Tが表す音を「評価音」とよぶことにする。 The reproduction control unit 301 extracts any one of “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ” from the data structure described above from the data storage unit 180 in accordance with the control of the control unit 304 (the control content will be described later). And sent to the sound output processing unit 310-n (where n = 1,..., N). At this time, a process for matching or approximating the time interval between the start time of the near-end speaker sound signal (Rch) and the start time of the far-end speaker sound signal component (Lch) may be performed. The sound output processing unit 310-n performs the following processing according to the transmitted signal. Note that the sound represented by the reference acoustic signal of the “reference signal” is referred to as “reference sound”, the sound represented by the evaluation target acoustic signal T 1 of the “degraded signal D 1 ”, and the evaluation target acoustic signal of the “deteriorated signal D 2 ”. the sound T 2 represents will be referred to as "evaluation sound".

≪「参照信号」が送られた場合≫
「参照信号」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、「参照信号」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nの一方のチャネルであるRch(第1チャネル)に出力しつつ、「参照信号」の基準音響信号を出力部312−nから両耳装着型音響再生装置340−nの他方のチャネルであるLch(第2チャネル)に出力する(第1処理)。
≪When “reference signal” is sent≫
When the “reference signal” is transmitted, the sound output processing unit 310-n (where n = 1,..., N) transmits the near-end speaker sound signal (first sound signal) of the “reference signal”. While outputting from the output unit 311-n to the Rch (first channel) which is one channel of the binaural-mounted sound reproduction device 340-n, the reference acoustic signal of the “reference signal” is output from the output unit 312-n to both ears. Output to Lch (second channel) which is the other channel of the wearable sound reproducing device 340-n (first processing).

≪「劣化信号D」が送られた場合≫
「劣化信号D」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、「劣化信号D」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nのRch(第1チャネル)に出力しつつ、「劣化信号D」の評価対象音響信号T(第1音響信号に由来する信号と第2音響信号とに基づく評価音を表す重畳信号)を出力部312−nから両耳装着型音響再生装置340−nのLch(第2チャネル)に出力する(第2処理)。
≪When “deterioration signal D 1 ” is sent≫
When the “degraded signal D 1 ” is sent, the sound output processing unit 310-n (where n = 1,..., N), the near-end speaker acoustic signal ( first signal) of the “degraded signal D 1 ”. while outputting a sound signal) from the output unit 311-n to the Rch (first channel) of two earset sound reproducing apparatus 340-n, evaluated acoustic signal T 1 (first acoustic signal of "degraded signal D 1" Is output from the output unit 312-n to the Lch (second channel) of the binaural-type sound reproduction device 340-n (second processing). ).

≪「劣化信号D」が送られた場合≫
「劣化信号D」が送られた場合、音響出力処理部310−n(ただし、n=1,・・・,N)は、「劣化信号D」の近端話者音響信号(第1音響信号)を出力部311−nから両耳装着型音響再生装置340−nのRch(第1チャネル)に出力しつつ、「劣化信号D」の評価対象音響信号T(第1音響信号に由来する信号と第2音響信号とに基づく評価音を表す重畳信号。ただし、この重畳信号は、第1音響信号に由来する信号と第2音響信号とに基づく信号に信号処理を行って得られた処理信号に由来する。)を出力部312−nから両耳装着型音響再生装置340−nのLch(第2チャネル)に出力する(第2処理)。
«If the" deterioration signal D 2 "has been sent»
When the “degraded signal D 2 ” is sent, the sound output processing unit 310-n (where n = 1,..., N) transmits the near-end speaker acoustic signal (first signal) of the “degraded signal D 2 ”. (Acoustic signal) is output from the output unit 311-n to the Rch (first channel) of the binaural-mounted sound reproducing device 340-n, and the evaluation target acoustic signal T 2 (first acoustic signal) of the “deteriorated signal D 2 ” is output. A superimposed signal representing an evaluation sound based on the signal derived from the second acoustic signal and the second acoustic signal, which is obtained by performing signal processing on a signal derived from the signal derived from the first acoustic signal and the second acoustic signal. Is output from the output unit 312-n to the Lch (second channel) of the binaural-type sound reproducing device 340-n (second processing).

表示制御部302は、制御部304の制御に従い(制御内容は後述)、表示部320−n(ただし、n=1,・・・,N)に表示情報を送る。表示部320−nは、送られた表示情報に従い、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての2段階以上の度合いと、の組み合わせからなる3段階以上のカテゴリーを含む評価カテゴリーを表示する。評価者350−nは、この表示に従って両耳装着型音響再生装置340−nから出力された音を主観評価する。ここで「基準音」は、遠端話者から理想的な状態で受信した音響信号に相当する。近端話者からの直接音に相当する「近端話者音」と合わせて提示することで、拡声系通信システムの理想的な状態を模擬することができる。「近端話者音」を「基準音響信号」と同時に提示することで、近端話者の音声の回り込み(音響エコー)と、遠端話者の音声を区別しやすくなる。「評価音」を常に「基準音」と比較することで、評価対象とする通信システムがどれだけ理想的な状態に近いか、または異なる状態であるか、を客観的に、かつ主観的に評価することができる。「評価音」のみを提示して評価すると、遠端話者の言いよどみや、遠端話者の周囲騒音などが劣化要因として判断され、低く評価される可能性が高い。常に「基準音」と比較することで、通信システム以外の劣化要因が評価対象から排除され、ばらつきの少ない、的確な評価値を得ることができる。また、この評価カテゴリーは、基準音に対する評価音の劣化のみならず、評価音の聞き取りにくさ(聞き取り易さ)に対する評価基準を定めたものである。このように、評価音の基準音からの劣化度と聞き取りやすさの度合いを組み合わせた評価カテゴリーを表示することで、従来のDCR(劣化カテゴリ評価)のように劣化のみに着目した評価カテゴリーを表示する場合に比べ、どのような基準で評価を行えばよいかが明確になり、複数の要因が複雑に絡み合うような環境でも評価ばらつきを小さくすることができる。また、評価音の聞き取り「にくさ」についての評価基準(否定的な評価基準)を表示することで、評価音の聞き取り「易さ」についての評価基準(肯定的な評価基準)を表示する場合に比べて評価者350−nの選択が厳密になり、評価精度が向上する。これは生理学上の自然法則に基づく。   The display control unit 302 sends display information to the display unit 320-n (where n = 1,..., N) in accordance with the control of the control unit 304 (details of control will be described later). The display unit 320-n has three or more levels consisting of a combination of whether or not the difference between the reference sound and the evaluation sound is known and the degree of two or more levels of difficulty in hearing the evaluation sound according to the display information sent. The evaluation category including the category is displayed. The evaluator 350-n subjectively evaluates the sound output from the binaural sound reproduction device 340-n according to this display. Here, the “reference sound” corresponds to an acoustic signal received from the far-end speaker in an ideal state. An ideal state of a loudspeaker communication system can be simulated by presenting it together with a “near-end speaker sound” corresponding to a direct sound from the near-end speaker. By presenting the “near-end speaker sound” at the same time as the “reference acoustic signal”, it becomes easy to distinguish between the near-end speaker's voice wraparound (acoustic echo) and the far-end speaker's voice. By comparing "evaluation sound" with "reference sound" at all times, objectively and subjectively evaluate how close or different the communication system is to be evaluated is. can do. When only the “evaluation sound” is presented and evaluated, the far-end speaker's stagnation, the far-end speaker's ambient noise, etc. are judged as degradation factors and are likely to be evaluated low. By always comparing with the “reference sound”, deterioration factors other than the communication system are excluded from the evaluation target, and an accurate evaluation value with little variation can be obtained. This evaluation category defines not only the deterioration of the evaluation sound with respect to the reference sound but also the evaluation standard for difficulty in hearing the evaluation sound (easy to hear). In this way, by displaying an evaluation category that combines the degree of deterioration of the evaluation sound from the reference sound and the degree of ease of hearing, an evaluation category that focuses only on deterioration, such as conventional DCR (deterioration category evaluation), is displayed. Compared to the case, it becomes clear what criteria should be used for evaluation, and the evaluation variation can be reduced even in an environment where a plurality of factors are intertwined in a complicated manner. In addition, by displaying the evaluation standard (negative evaluation standard) for the evaluation sound listening “Nikusa”, the evaluation standard (positive evaluation standard) for the evaluation sound listening “ease” is displayed. In comparison with the above, the selection of the evaluator 350-n becomes strict and the evaluation accuracy is improved. This is based on the natural laws of physiology.

好ましくは、評価カテゴリーは、基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての3段階以上の度合いと、の組み合わせからなる4段階以上のカテゴリーを含む。評価音の聞き取りにくさについての3段階以上の度合いについての評価基準を定めることで、評価精度をより向上させることができる。特に、評価カテゴリーは、基準音と評価音との違いが分からないことを表す1段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての4段階の度合いとの組み合わせからなる4段階のカテゴリーとを含むことが望ましい。以下に評価カテゴリーの具体例を示す。
なお、「基準音と違いが分からない」「違いはあるが」「違いがあり」は「基準音と評価音との違いが分かるか否か」を表し、「聞き取りには問題がない」「少し聞き取りにくい」「聞き取りにくい」「非常に聞き取りにくい」は「評価音の聞き取りにくさについての度合い」を表す。この例の各評価カテゴリーには1から5の評価を表す値が対応付けられており、この値が大きいほど品質が高いことを表す。ここでは、「基準音」が理想的な状態であるとしてカテゴリーを設定したが、評価対象とする通信システムのノイズキャンセラ等の効果によって、「評価音」が「基準音」よりも評価が高くなる状態も考えられる。この場合は、さらに上位のカテゴリーとして「違いはあるが、聞き取りやすい」を含めてもよい。
Preferably, the evaluation category includes a category of four or more levels composed of a combination of whether or not a difference between the reference sound and the evaluation sound is known and a degree of three or more levels of difficulty in hearing the evaluation sound. The evaluation accuracy can be further improved by determining the evaluation criteria for the degree of three or more levels of difficulty in hearing the evaluation sound. In particular, the evaluation category is a one-step category indicating that the difference between the reference sound and the evaluation sound is not known, and a four-step degree indicating that the difference between the reference sound and the evaluation sound can be understood and the evaluation sound is difficult to hear. It is desirable to include a four-stage category consisting of Specific examples of evaluation categories are shown below.
In addition, “I don't know the difference from the reference sound”, “I have a difference” or “I have a difference” means “I can understand the difference between the reference sound and the evaluation sound”, and “There is no problem with listening” “Difficult to hear a little”, “Difficult to hear” and “Very difficult to hear” represent “degree of difficulty in hearing the evaluation sound”. Each evaluation category in this example is associated with a value representing an evaluation of 1 to 5, and the larger this value, the higher the quality. Here, the category is set assuming that the “reference sound” is in an ideal state, but the “evaluation sound” has a higher evaluation than the “reference sound” due to the effect of the noise canceller of the communication system to be evaluated. Is also possible. In this case, “there is a difference, but easy to hear” may be included as a higher category.

以下に従来のDCR(劣化カテゴリ評価)で用いられていた劣化のみに着目した評価カテゴリーを示す。表1の評価カテゴリーと比べて主観的・内面的な表現が多いことが分かる。
The following is an evaluation category focusing only on the degradation used in the conventional DCR (degradation category evaluation). It can be seen that there are more subjective and internal expressions than the evaluation categories in Table 1.

さらに、表示制御部302が出力する表示情報が、評価音の聞き取り易さの評価を指示するための情報を含み、表示部320−nが、さらに評価音の聞き取り易さの評価を指示するための表示(「何を評価するか」を表す表示)を行ってもよい。例えば、表示部320−nは「評価音の『女声(左側)』の聞き取り易さ、を評価してください」と表示してもよい。この例において左側とは「参照信号」「劣化信号D」「劣化信号D2」におけるLch(第2チャネル)側のスピーカーの出力を指している。上述のように、評価カテゴリーは、基準音と評価音との違いが分かるか否かと評価音の聞き取りにくさについての度合いとの組み合わせからなる。生理学上、人間は違いの有無には敏感であり、特に注意をしていなくても基準音と評価音との違いの有無を評価することができる。一方、聞き取り易さについては注意をしていないと適切な評価を行うことができない。このような自然法則に基づき、表示部320−nが、さらに評価音の聞き取り易さの評価を指示するための表示を行うことで、評価精度を向上できたり、評価ばらつきを低減できたりする。なお、何を評価するかを表す表示として「評価音の聞き取り『にくさ』の評価を指示するための表示」を行った場合、生理学上、評価者350−nは詳細な点に注目しすぎてしまい、「聞き取り易さ」への影響が小さな劣化をも評価してしまう傾向がある。何を評価するかを表す表示として「評価音の聞き取り『易さ』の評価を指示するための表示」することで、評価者350−nの評価が適切になり、評価精度を向上できたり、評価ばらつきを低減できたりする。 Furthermore, the display information output by the display control unit 302 includes information for instructing evaluation of the ease of hearing of the evaluation sound, and the display unit 320-n further instructs evaluation of the ease of hearing of the evaluation sound. (Display indicating “what to evaluate”) may be performed. For example, the display unit 320-n may display “Please rate the ease of hearing of the evaluation sound“ female voice (left side) ””. In this example, the left side indicates the output of the speaker on the Lch (second channel) side in the “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ”. As described above, the evaluation category includes a combination of whether or not the difference between the reference sound and the evaluation sound is known and the degree of difficulty in hearing the evaluation sound. Physiologically, humans are sensitive to the difference and can evaluate the difference between the reference sound and the evaluation sound without particular attention. On the other hand, appropriate evaluation cannot be performed unless attention is paid to the ease of hearing. Based on such a natural law, the display part 320-n can further improve the evaluation accuracy or reduce the evaluation variation by performing display for instructing the evaluation of the ease of hearing of the evaluation sound. In addition, when the “display for instructing the evaluation of listening to the evaluation sound“ Nikusa ”” is performed as a display indicating what is evaluated, the evaluator 350-n pays too much attention to details in terms of physiology. Therefore, there is a tendency to evaluate even a small deterioration having an influence on “easy to hear”. As a display indicating what is to be evaluated, “display for instructing evaluation of listening to“ ease of evaluation sound ”” makes evaluation of the evaluator 350-n appropriate and can improve evaluation accuracy, Evaluation variation can be reduced.

さらに、表示制御部302が出力する表示情報が、何に着目するかを表示するための情報を含み、表示部320−nが「何に着目するか」を表示してもよい。例えば、表示部320−nは、上述の「第1処理」の際に基準音に着目する旨の指示を表す表示を行い、「第2処理」の際に評価音に着目する旨の指示を表す表示を行ってもよい。例えば、表示部320−nは、「第1処理」の際に「基準音(1):『女声(左側)』に着目してください」との表示を行い、「劣化信号D」を出力する「第2処理」の際に「評価音(1):『女声(左側)』に着目してください」との表示を行い、「劣化信号D」を出力する「第2処理」の際に「評価音(2):『女声(左側)』に着目してください」との表示を行ってもよい。これにより、評価対象を明らかにし、評価者350−nを評価対象音響信号(遠端話者音響信号側)に着目させるとともに、評価者350−nを近端話者音響信号側に着目させないようにすることができる。また、音響出力処理部310−nから出力される信号に応じて、表示部320−nから表示される「何に着目するか」「何を評価するか」の表示が変わることで、評価対象音響信号の発生タイミングを視覚的に認識させることができる。 Further, the display information output by the display control unit 302 may include information for displaying what is focused on, and the display unit 320-n may display “what to focus on”. For example, the display unit 320-n performs a display indicating an instruction to pay attention to the reference sound at the time of the above-described “first process”, and an instruction to pay attention to the evaluation sound at the time of the “second process”. You may perform the display to represent. For example, the display unit 320-n displays “reference sound (1): pay attention to“ female voice (left side) ”during“ first processing ”and outputs“ deterioration signal D 1 ”. When “second processing” is performed, “evaluation sound (1): pay attention to“ female voice (left side) ”is displayed and“ deterioration signal D 2 ”is output. "Evaluation sound (2): Pay attention to" Female voice (left side) "" may be displayed. As a result, the evaluation target is clarified so that the evaluator 350-n is focused on the evaluation target acoustic signal (far-end speaker acoustic signal side) and the evaluator 350-n is not focused on the near-end speaker acoustic signal side. Can be. In addition, depending on the signal output from the sound output processing unit 310-n, the display of “what to focus on” and “what to evaluate” displayed from the display unit 320-n is changed. The generation timing of the acoustic signal can be visually recognized.

主観評価を行った評価者350−nは、評価カテゴリーから選択したカテゴリーを表す情報(評価結果を表す情報)である評価値I−nを入力部330−nに入力する。図7に表示部320−nが表示する表示画面321を例示する。この表示画面321は、「何に着目するか」を表示する着目内容提示部3211、「何を評価するか」を表示する評価指示提示部3212、評価カテゴリーを表示する評価カテゴリー提示部3213、評価を表す値「1」〜「5」(評価値I−n)の入力のためにタッチまたはクリックされるアイコン3214〜3218、入力確定のためにタッチまたはクリックされるアイコン3219を含む。評価者350−nは、着目内容提示部3211、評価指示提示部3212、評価カテゴリー提示部3213の表示に従い、両耳装着型音響再生装置340−nから出力された音を主観評価し、評価に対応するアイコン3214〜3218の何れかをタッチまたはクリックし、確定のためのアイコン3219をタッチまたはクリックする。アイコン3214〜3219がアクティブでアイコン3219がタッチまたはクリックされるまでは、評価者350−nはアイコン3214〜3218を何度も選び直すタッチまたはクリック操作が可能である。これにより、評価カテゴリーから選択されたカテゴリーを表す評価値I−nが入力部330−nに入力される。なお、評価条件を同一とするため、上述の評価試験は、すべての評価者350−n(ただし、n=1,・・・,N)によって同時に実行されることが望ましい。一定時間以上評価が確定しない評価者がいる場合は、その評価者に対して確定を促す画面表示と、他の評価者に対しては待たせる画面表示を行ってもよい。   The evaluator 350-n who performed the subjective evaluation inputs an evaluation value In, which is information representing the category selected from the evaluation categories (information representing the evaluation result), to the input unit 330-n. FIG. 7 illustrates a display screen 321 displayed by the display unit 320-n. The display screen 321 includes an attention content presentation unit 3211 that displays “what to focus on”, an evaluation instruction presentation unit 3212 that displays “what to evaluate”, an evaluation category presentation unit 3213 that displays an evaluation category, and an evaluation The icons 3214 to 3218 that are touched or clicked to input the values “1” to “5” (evaluation value In) that represent the values “3” and the icon 3219 that is touched or clicked to confirm the input are included. The evaluator 350-n subjectively evaluates the sound output from the binaural-equipped sound reproduction device 340-n according to the display of the attention content presentation unit 3211, the evaluation instruction presentation unit 3212, and the evaluation category presentation unit 3213, and evaluates it. One of the corresponding icons 3214 to 3218 is touched or clicked, and the icon 3219 for confirmation is touched or clicked. Until the icon 3214 to 3219 is active and the icon 3219 is touched or clicked, the evaluator 350-n can perform a touch or click operation to reselect the icons 3214 to 3218 many times. Thereby, the evaluation value In representing the category selected from the evaluation categories is input to the input unit 330-n. In addition, in order to make evaluation conditions the same, it is desirable that the above-described evaluation test is simultaneously executed by all the evaluators 350-n (where n = 1,..., N). When there is an evaluator who does not confirm the evaluation for a certain time or more, a screen display that prompts the evaluator to confirm and a screen display that waits for other evaluators may be displayed.

入力部330−nに入力された評価値I−nは集計部303に送られる。集計部303は、評価値I−nを集計し、それによって得られた集計結果を集計結果記憶部305に格納する。例えば、集計結果は、評価者350−nを表すID、評価試験に用いられた「劣化信号D」等の音響信号やその条件とともに格納される。評価値I−nの集計結果は、評価値I−nの集合であってもよいし、評価試験に用いられた音響信号ごとでの最大値、最小値、平均値、分散値等であってもよい。評価内容に疑いがある評価者350−nに対応する評価値I−nを除外してから求めた最大値、最小値、平均値、分散値等を集計結果としてもよい。その他、他の処理装置でさらに詳しい分析が行われてもよい。 The evaluation value In input to the input unit 330-n is sent to the counting unit 303. The tabulation unit 303 tabulates the evaluation value In and stores the tabulation result obtained thereby in the tabulation result storage unit 305. For example, the tabulation result is stored together with an ID representing the evaluator 350-n, an acoustic signal such as “deterioration signal D 2 ” used in the evaluation test, and its conditions. The aggregation result of the evaluation values In may be a set of the evaluation values In, or may be a maximum value, a minimum value, an average value, a variance value, etc. for each acoustic signal used in the evaluation test. Also good. The maximum value, the minimum value, the average value, the variance value, and the like obtained after excluding the evaluation value In corresponding to the evaluator 350-n whose suspicion is in the evaluation content may be used as the aggregation result. In addition, further detailed analysis may be performed by another processing apparatus.

≪制御部304の制御内容≫
次に、図8から図12を用い、制御部304の制御内容を例示する。これらの図の横軸は時間軸を表し、紙面の右に向かうほど後の時間を表す。これらの図の「Lch」の行は、両耳装着型音響再生装置340−nのLch側のスピーカーから出力させる音を表し、「Rch」の行は、両耳装着型音響再生装置340−nのRch側のスピーカーから出力させる音を表す。これらの図の「3211」の列は、着目内容提示部3211の提示内容(何に着目するか)を表し、「3212」の列は、評価指示提示部3212の提示内容(何を評価するか)を表し、「3213」の列は、評価カテゴリー提示部3213の提示内容(評価カテゴリー)を表す。
<< Control contents of control unit 304 >>
Next, the control contents of the control unit 304 will be illustrated using FIGS. 8 to 12. The horizontal axis of these figures represents the time axis, and represents the later time as it goes to the right of the page. In these figures, the “Lch” row represents the sound output from the speaker on the Lch side of the binaural-mounted sound reproducing device 340-n, and the “Rch” row represents the binaural-mounted sound reproducing device 340-n. Represents the sound output from the speaker on the Rch side. In these figures, the column “3211” represents the presentation content of the focus content presentation unit 3211 (what to focus on), and the column “3212” represents the content of the evaluation instruction presentation unit 3212 (what to evaluate). The column “3213” represents the presentation content (evaluation category) of the evaluation category presentation unit 3213.

≪図8の例≫
図8の例では、まず、再生制御部301がデータ記憶部180から「参照信号」を読み込み、それを音響出力処理部310−n(ただし、n=1,・・・,N)に送る。音響出力処理部310−nは、出力部312−nから「参照信号」の基準音響信号を出力し、出力部311−nから「参照信号」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置340−nのLchからは基準音響信号が表す「基準音」が出力され、Rchからは近端話者からの直接音に相当する「近端話者音」が出力される。この際、表示制御部302は、着目内容Fおよび評価カテゴリーを表す表示情報を表示部320−nに送る。なお、着目内容Fは、基準音(Lch)に着目する旨の指示を表す内容(例えば「基準音(1):「女声(左側)」に着目してください」)を意味する。また、評価カテゴリーは、前述の「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての2段階以上の度合いと、の組み合わせからなる3段階以上のカテゴリーを含む評価カテゴリー」である。表示部320−nは、着目内容Fを着目内容提示部3211に提示し、評価カテゴリーを評価カテゴリー提示部3213に提示する(ステップS1)。
≪Example of FIG. 8≫
In the example of FIG. 8, the reproduction control unit 301 first reads a “reference signal” from the data storage unit 180 and sends it to the sound output processing unit 310-n (where n = 1,..., N). The sound output processing unit 310-n outputs the reference sound signal of the “reference signal” from the output unit 312-n, and outputs the near-end speaker sound signal of the “reference signal” from the output unit 311-n. As a result, the “reference sound” represented by the reference acoustic signal is output from the Lch of the binaural-mounted sound reproduction device 340-n, and the “near-end speaker sound corresponding to the direct sound from the near-end speaker is output from the Rch. Is output. At this time, the display control unit 302 sends a display information indicating the attention content F 1 and evaluation categories on the display unit 320-n. Note that the focus content F 1 means content indicating an instruction to focus on the reference sound (Lch) (for example, “focus on the reference sound (1):“ female voice (left side) ”). In addition, the evaluation category includes an evaluation including three or more categories consisting of a combination of the above-mentioned “whether or not the difference between the reference sound and the evaluation sound is known and the degree of difficulty of hearing the evaluation sound in two or more levels. Category ". Display unit 320-n presents the focused content F 1 to the target content presentation unit 3211 presents the evaluation category rating category presentation unit 3213 (step S1).

次に、再生制御部301がデータ記憶部180から「劣化信号D」を読み込み、それを音響出力処理部310−n(ただし、n=1,・・・,N)に送る。音響出力処理部310−nは、出力部312−nから「劣化信号D」の評価対象音響信号Tを出力し、出力部311−nから「劣化信号D」の近端話者音響信号を出力する。これにより、両耳装着型音響再生装置340−nのLchからは「劣化信号D」の評価対象音響信号Tが表す「評価音」が出力され、Rchからは近端話者音響信号が表す「近端話者音」が出力される。この際、表示制御部302は、着目内容F、評価指示S、および、評価カテゴリーを表す表示情報を表示部320−nに送る。なお、着目内容Fは、評価音(Lch)に着目する旨の指示を表す内容(例えば「評価音(1):『女声(左側)』に着目してください」)を意味する。評価指示Sは、評価音(Lch)の聞き取り易さの評価の指示(例えば「評価音の『女声(左側)』の聞き取り易さ、を評価してください」)を意味する。表示部320−nは、着目内容Fを着目内容提示部3211に提示し、評価指示Sを評価指示提示部3212に提示し、評価カテゴリーを評価カテゴリー提示部3213に提示する(ステップS2)。 Next, the reproduction control unit 301 reads “deterioration signal D 2 ” from the data storage unit 180 and sends it to the sound output processing unit 310-n (where n = 1,..., N). Sound output processing unit 310-n outputs the evaluated acoustic signal T 2 of the "degraded signal D 2 'from the output unit 312-n, the near-end speaker sound" degraded signal D 2' from the output unit 311-n Output a signal. As a result, the “evaluation sound” represented by the evaluation target sound signal T 2 of the “deterioration signal D 2 ” is output from the Lch of the binaural-mounted sound reproduction device 340-n, and the near-end speaker sound signal is output from the Rch. A “near-end speaker sound” is output. At this time, the display control unit 302 sends the attention content F 2 , the evaluation instruction S 1 , and display information representing the evaluation category to the display unit 320-n. In addition, attention contents F 2, the contents (for example, "evaluation sound (1):" female voice (please focus on the left side), ""), which represents an instruction to focus on the evaluation sound (Lch) means. The evaluation instruction S 1 means an instruction for evaluating the ease of hearing of the evaluation sound (Lch) (for example, “evaluate the ease of hearing of the“ female voice (left side) ”of the evaluation sound”). Display unit 320-n presents the focused content F 2 to the target content presentation unit 3211 presents the evaluation instruction S 1 to the evaluation instruction presentation unit 3212 presents the evaluation category rating category presentation unit 3213 (step S2) .

次に、ステップS1をもう一度実行し(ステップS3)、さらにステップS2をもう一度実行する(ステップS4)。ステップS1、ステップS2の繰り返しを3回以上としてもよい。   Next, step S1 is executed once again (step S3), and step S2 is executed again (step S4). Step S1 and step S2 may be repeated three or more times.

その後、アイコン3214〜3219をアクティブにして、入力部330−nからの評価値I−nおよび確定の旨の入力を受け付ける(ステップS5)。   Thereafter, the icons 3214 to 3219 are activated, and the evaluation value In and the input of confirmation are received from the input unit 330-n (step S5).

さらに、ステップS1〜S5の「劣化信号D」を「劣化信号D」に置換し、「評価対象音響信号T」を「評価対象音響信号T」に置換した処理が実行されてもよい。また、評価カテゴリー提示部3213の評価カテゴリーの提示はステップS1〜S5を通して継続的に行われてもよいし、各ステップが終了するたびに評価カテゴリーの提示が消えてもよい。 Furthermore, even if the process in which “degraded signal D 2 ” in steps S1 to S5 is replaced with “degraded signal D 1 ” and “evaluation target acoustic signal T 2 ” is replaced with “evaluation target acoustic signal T 1 ” is executed. Good. In addition, the presentation of the evaluation category by the evaluation category presentation unit 3213 may be continuously performed through steps S1 to S5, or the presentation of the evaluation category may disappear every time each step is completed.

≪図9の例≫
図9の例では、「基準音」、評価対象音響信号Tが表す「評価音」、および評価対象音響信号Tが表す「評価音」のうち、対比を行う一組の音をランダムに選択し、選択した音を順番に出力する。
≪Example of FIG. 9≫
In the example of FIG. 9, among the “reference sound”, the “evaluation sound” represented by the evaluation target acoustic signal T 1 , and the “evaluation sound” represented by the evaluation target acoustic signal T 2 , a pair of sounds to be compared are randomly selected. Select and output the selected sounds in order.

以下に処理の具体例を示す。
まず再生制御部301は、「参照信号」「劣化信号D」「劣化信号D」から、対比する組をランダムに選択する。対比する組の例は、「参照信号」と「劣化信号D」とからなる組、「参照信号」と「劣化信号D」とからなる組、「劣化信号D」と「劣化信号D」とからなる組である。対比する組を構成する信号のうち、先に出力する信号を「第1出力信号」とよび、後に出力する信号を「第2出力信号」とよぶ。対比する組を構成する信号のうち何れを先に出力してもかまわない。例えば、「参照信号」と「劣化信号D」とからなる組を対比する場合、「参照信号」を「第1出力信号」とし、「劣化信号D」を「第2出力信号」としてもよいし、「参照信号」を「第2出力信号」とし、「劣化信号D」を「第1出力信号」としてもよい。
A specific example of processing is shown below.
First, the reproduction control unit 301 randomly selects a pair to be compared from “reference signal”, “degraded signal D 1 ”, and “degraded signal D 2 ”. Examples of sets to be compared are a set of “reference signal” and “degraded signal D 1 ”, a set of “reference signal” and “degraded signal D 2 ”, “degraded signal D 1 ”, and “degraded signal D”. 2 ”. Of the signals constituting the pair to be compared, a signal output first is called a “first output signal”, and a signal output later is called a “second output signal”. Any of the signals constituting the pair to be compared may be output first. For example, when comparing a set of “reference signal” and “degraded signal D 1 ”, “reference signal” may be “first output signal” and “degraded signal D 1 ” may be “second output signal”. Alternatively, the “reference signal” may be the “second output signal” and the “deterioration signal D 1 ” may be the “first output signal”.

次に、Lchから「第1出力信号」に対応する「基準音または評価音」が出力され、Rchから「第1出力信号」に対応する「近端話者音」が出力される(ステップS21)。「第1出力信号」が「参照信号」である場合のステップS21の処理は、前述のステップS1と同じである。「第1出力信号」が「劣化信号D」である場合のステップS21の処理は、評価指示Sを評価指示提示部3212に提示しない以外、前述のステップS2と同じである。「第1出力信号」が「劣化信号D」である場合のステップS21の処理は、前述のステップS2の処理において「劣化信号D」を「劣化信号D」に置換し、「評価対象音響信号T」を「評価対象音響信号T」に置換し、評価指示Sを評価指示提示部3212に提示しないこととした処理である。 Next, the “reference sound or evaluation sound” corresponding to the “first output signal” is output from the Lch, and the “near-end speaker sound” corresponding to the “first output signal” is output from the Rch (step S21). ). The process of step S21 when the “first output signal” is the “reference signal” is the same as the above-described step S1. Step S21 if the "first output signal" is "degraded signal D 2" except that it does not provide an evaluation instruction S 1 to the evaluation instruction presentation unit 3212 is the same as step S2 described above. When the “first output signal” is “degraded signal D 1 ”, the process of step S21 replaces “degraded signal D 2 ” with “degraded signal D 1 ” in the process of step S2 described above, This is a process in which the “acoustic signal T 2 ” is replaced with “evaluation target acoustic signal T 1 ” and the evaluation instruction S 1 is not presented to the evaluation instruction presentation unit 3212.

次にLchから「第2出力信号」に対応する「基準音または評価音」が出力され、Rchから「第2出力信号」に対応する「近端話者音」が出力される(ステップS22)。「第2出力信号」が「参照信号」である場合のステップS22の処理は、前述のステップS1に加え、評価指示Sを評価指示提示部3212に提示する処理を行うものである。「第2出力信号」が「劣化信号D」である場合のステップS21の処理は、前述のステップS2と同じである。「第2出力信号」が「劣化信号D」である場合のステップS21の処理は、前述のステップS2の処理において「劣化信号D」を「劣化信号D」に置換し、「評価対象音響信号T」を「評価対象音響信号T」に置換した処理である。 Next, the “reference sound or evaluation sound” corresponding to the “second output signal” is output from the Lch, and the “near-end speaker sound” corresponding to the “second output signal” is output from the Rch (step S22). . Processing in step S22 in case the "second output signal" is "reference signal" is intended to addition to the step S1 described above carries out a process of presenting the evaluation instruction S 1 to the evaluation instruction presentation unit 3212. The process of step S21 when the “second output signal” is “degraded signal D 2 ” is the same as step S2 described above. When the “second output signal” is “degraded signal D 1 ”, the process of step S21 is performed by replacing “degraded signal D 2 ” with “degraded signal D 1 ” in the process of step S2 described above. an acoustic signal T 2 "is a substituted processed" evaluated sound signals T 1 ".

最後に、評価値の入力とその確定が行われる(ステップS5)。   Finally, the evaluation value is input and confirmed (step S5).

その他、ステップS21,22の変形例として、Lchから出力されている音が「基準音」であるか「評価音」であるかを提示しないこととしてもよい。すなわち、着目内容Fおよび着目内容Fに代えて、Lchに着目する旨の指示を表す内容(例えば「『女声(左側)』に着目してください」)を提示してもよい。この場合、評価者350−nは提示されている音が「基準音」であるか「評価音」であるかを知らされることなく、主観評価を行うことになる。 In addition, as a modified example of steps S21 and S22, it may not indicate whether the sound output from the Lch is a “reference sound” or an “evaluation sound”. That is, instead of the focus content F 1 and the focus content F 2 , content indicating an instruction to focus on Lch (eg, “focus on“ female voice (left side) ”) may be presented. In this case, the evaluator 350-n performs the subjective evaluation without being notified whether the presented sound is the “reference sound” or the “evaluation sound”.

≪図10の例≫
図10の例では、1回目に「基準音」が出力され、2回目および3回目にそれぞれ「隠された基準音」または評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力される。ここで、2回目に「隠された基準音」が出力された場合、3回目には評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力される(パターン1)。一方、2回目に評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力された場合、3回目に「隠された基準音」が出力される(パターン2)。なお、「隠された基準音」とは、「基準音」であることを示さずに出力する「基準音」を意味する。また、パターン1とするかパターン2とするかはランダムに定められる。
≪Example of FIG. 10≫
In the example of FIG. 10, the “reference sound” is output at the first time, and the “evaluated sound” or the evaluation target sound signal T represented by the “hidden reference sound” or the evaluation target sound signal T 1 at the second time and the third time, respectively. The “evaluation sound” represented by 2 is output. Here, when the “hidden reference sound” is output for the second time, the “evaluation sound” represented by the evaluation target acoustic signal T 1 or the “evaluation sound” represented by the evaluation target acoustic signal T 2 is output for the third time. (Pattern 1). On the other hand, when the “evaluation sound” represented by the evaluation target acoustic signal T 1 or the “evaluation sound” represented by the evaluation target acoustic signal T 2 is output for the second time, the “hidden reference sound” is output for the third time. (Pattern 2). The “hidden reference sound” means a “reference sound” that is output without indicating that it is a “reference sound”. Whether to use pattern 1 or pattern 2 is determined randomly.

以下に処理の具体例を示す。   A specific example of processing is shown below.

まず、Lchから「参照信号」に対応する「基準音」が出力され、Rchから「参照信号」に対応する「近端話者音」が出力される(ステップS31)。ステップS31の処理は、前述のステップS21と同じである。   First, the “reference sound” corresponding to the “reference signal” is output from the Lch, and the “near-end speaker sound” corresponding to the “reference signal” is output from the Rch (step S31). The process in step S31 is the same as that in step S21 described above.

次に、再生制御部301は、パターン1とするかパターン2とするかをランダムに選択する。
パターン1が選択された場合、まず、Lchから「参照信号」に対応する「隠された基準音」が出力され、Rchから「参照信号」に対応する「近端話者音」が出力され(ステップS32)、次に、Lchから「劣化信号D」の評価対象音響信号Tが表す「評価音」もしくは「劣化信号D」の評価対象音響信号Tが表す「評価音」が出力され、Rchから「劣化信号D」もしくは「劣化信号D」に対応する「近端話者音」が出力される(ステップS33)。
一方、パターン2が選択された場合、Lchから評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力され、Rchから「劣化信号D」もしくは「劣化信号D」に対応する「近端話者音」が出力され(ステップS32)、次に、Lchから「参照信号」に対応する「隠された基準音」が出力され、Rchから「参照信号」に対応する「近端話者音」が出力される(ステップS33)。
Next, the playback control unit 301 randomly selects pattern 1 or pattern 2.
When the pattern 1 is selected, first, the “hidden reference sound” corresponding to the “reference signal” is output from the Lch, and the “near-end speaker sound” corresponding to the “reference signal” is output from the Rch ( step S32), then evaluated acoustic signal T 1 is represented "evaluated sound" or "degraded signal D 2" evaluated sound signal T 2 represents "evaluated sound" of the "degraded signal D 1 'from Lch output Then, “Near-end speaker sound” corresponding to “Deteriorated signal D 1 ” or “Deteriorated signal D 2 ” is output from Rch (step S 33).
On the other hand, when the pattern 2 is selected, the “evaluation sound” represented by the evaluation target acoustic signal T 1 or the “evaluation sound” represented by the evaluation target acoustic signal T 2 is output from the Lch, and the “deterioration signal D 1 ” or A “near-end speaker sound” corresponding to the “deterioration signal D 2 ” is output (step S32), and then a “hidden reference sound” corresponding to the “reference signal” is output from the Lch. A “near-end speaker sound” corresponding to the “reference signal” is output (step S33).

Lchから「参照信号」に対応する「隠された基準音」を出力し、Rchから「参照信号」に対応する「近端話者音」を出力する処理は、着目内容Fに代えて着目内容Fを着目内容提示部3211に提示し、評価指示Sを評価指示提示部3212に提示する以外は、前述のステップS1と同じである。また、Lchから評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」を出力し、Rchから「劣化信号D」もしくは「劣化信号D」に対応する「近端話者音」を出力する処理は、前述のステップS2の処理、またはステップS2の処理において「劣化信号D」を「劣化信号D」に置換し、「評価対象音響信号T」を「評価対象音響信号T」に置換した処理と同じである。 The process of outputting the “hidden reference sound” corresponding to the “reference signal” from the Lch and outputting the “near-end speaker sound” corresponding to the “reference signal” from the Rch is performed instead of the attention content F 2. This is the same as step S1 described above, except that the content F 1 is presented to the attention content presentation unit 3211 and the evaluation instruction S 1 is presented to the evaluation instruction presentation unit 3212. Further, “evaluation sound” represented by the evaluation target acoustic signal T 1 or “evaluation sound” represented by the evaluation target acoustic signal T 2 is output from the Lch, and corresponds to the “deterioration signal D 1 ” or “deterioration signal D 2 ” from the Rch. In the process of outputting the “near-end speaker sound” to be performed, “degraded signal D 2 ” is replaced with “degraded signal D 1 ” in the process of step S2 or the process of step S2, and “evaluation target acoustic signal T 2 ”is the same as the processing in which“ evaluation target acoustic signal T 1 ”is replaced.

最後に、評価値の入力とその確定が行われる(ステップS5)。ただし、評価者350−nは、ステップS32,S33で出力された音のうち、どちらが評価音かを判断し、評価音と判断した音に対してのみ評価値を入力する。評価音と判断されなかった音については自働的に「隠された基準音」と判断したとみなされ、隠された基準音に対する評価値「5」が付与される。また、評価者350−nが入力部330−nに指示入力を行うことにより、ステップS5の前に、ステップS31〜S33を所望の順序で何度でも実行できる構成であってもよい。   Finally, the evaluation value is input and confirmed (step S5). However, the evaluator 350-n determines which one of the sounds output in steps S32 and S33 is the evaluation sound, and inputs the evaluation value only for the sound determined to be the evaluation sound. A sound that is not judged as an evaluation sound is automatically regarded as a “hidden reference sound” and is given an evaluation value “5” for the hidden reference sound. Further, the evaluator 350-n may input instructions to the input unit 330-n so that steps S31 to S33 can be executed any number of times in a desired order before step S5.

≪図11の例≫
図11の例でも、1回目に「基準音」が出力され、2回目および3回目にそれぞれ、ランダムに選択されたパターン1またはパターン2に従い、「隠された基準音」または評価対象音響信号Tが表す「評価音」もしくは評価対象音響信号Tが表す「評価音」が出力される。ただし、2回目および3回目の出力時にそれぞれに対する評価値が入力され(ステップS132,S133)、最後に評価値の確定入力のみがなされる(ステップS105)。なお、評価者350−nは、ステップS132,S133で出力された音のうち、「隠された基準音」と判断したほうに評価値「5」を入力し、「評価音」と判断したほうに自らの評価値を入力する。その他の詳細は、図10の例と同じである。
≪Example of FIG. 11≫
In the example of FIG. 11, the “reference sound” is output at the first time, and the “hidden reference sound” or the evaluation target sound signal T according to the pattern 1 or pattern 2 selected at random for the second time and the third time, respectively. The “evaluation sound” represented by 1 or the “evaluation sound” represented by the evaluation target acoustic signal T 2 is output. However, the evaluation values for the second and third outputs are input (steps S132 and S133), and finally, the final determination value is input (step S105). Note that the evaluator 350-n inputs the evaluation value “5” to the one judged as “hidden reference sound” among the sounds outputted in steps S132 and S133, and judged as “evaluation sound”. Enter your own evaluation value in. Other details are the same as in the example of FIG.

≪図12の例≫
図12では、1回目に「基準音」が出力され(ステップS41)、2回目からx+1回目(xは3以上の整数(例えばxは14以下))に「評価音1」から「評価音x」が出力され(ステップS42−1〜S42−x)、評価値の入力とその確定が行われる(ステップS5)。なお、「評価音1」から「評価音x」は、評価対象音響信号Tが表す「評価音」および評価対象音響信号Tが表す「評価音」の少なくとも一方、1個の「隠された基準音」、1個以上の「アンカー音」を含む。なお、「アンカー音」とは悪い音響品質の基準となる音を表す。複数のアンカー音を含む場合は、段階的に悪くなる音響品質の基準を用いてよい。また、ステップS5では、ステップS42−1〜S42−xで出力された音それぞれの評価値が入力される。また、「評価音1」から「評価音x」の出力順序はランダムに定められる。ただし、評価者350−nが入力部330−nに指示入力を行うことにより、ステップS5の前に、ステップS42−1〜S42−xを所望の順序で何度でも実行できる構成であってもよい。その他は、図10の例と同様である。
<< Example of FIG. 12 >>
In FIG. 12, the “reference sound” is output for the first time (step S41), and “evaluation sound 1” to “evaluation sound x” for the second to x + 1th time (x is an integer of 3 or more (eg, x is 14 or less)). "Is output (steps S42-1 to S42-x), and an evaluation value is input and confirmed (step S5). The “evaluation sound 1” to “evaluation sound x” are at least one of “evaluation sound” represented by the evaluation target acoustic signal T 1 and “evaluation sound” represented by the evaluation target acoustic signal T 2. "Reference sound" and one or more "anchor sounds". The “anchor sound” represents a sound that is a reference for bad acoustic quality. When a plurality of anchor sounds are included, a sound quality standard that gradually deteriorates may be used. In step S5, the evaluation values of the sounds output in steps S42-1 to S42-x are input. Further, the output order of “evaluation sound 1” to “evaluation sound x” is determined randomly. However, even if the evaluator 350-n inputs an instruction to the input unit 330-n, the steps S42-1 to S42-x can be executed any number of times in a desired order before step S5. Good. Others are the same as the example of FIG.

[第4実施形態]
本発明者は、第3実施形態で得られる評価値(基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての5段階評価に基づくMOS値(表1に例示))と、PESQ(これらの基準音響信号および評価対象音響信号に対応するPESQ値)との関係が線形関係に近似できることを見出した。このようなことは従来知られていない(例えば、非特許文献1の「付図V−1/JJ−201.01<PESQ値と受聴MOS値の関係の定式化>」等参照)。本実施形態では、この知見に基づき、線形演算によってPESQから煩雑な主観評価や計算量の多い非線形演算を行うことなく、演算量の少ない線形演算でMOS値を推定できる。以下、詳細に説明する。
[Fourth Embodiment]
The inventor has obtained an evaluation value obtained in the third embodiment (a MOS value based on a five-step evaluation of the difference between the reference sound corresponding to the reference acoustic signal and the evaluation sound corresponding to the evaluation target acoustic signal (exemplified in Table 1). )) And PESQ (the PESQ values corresponding to these reference acoustic signals and evaluation target acoustic signals) can be approximated to a linear relationship. This has not been known in the past (see, for example, “Appendix V-1 / JJ-201.001 <Formulation of relationship between PESQ value and listening MOS value>” in Non-Patent Document 1). In the present embodiment, based on this knowledge, the MOS value can be estimated by a linear calculation with a small amount of calculation without performing complicated subjective evaluation and non-linear calculation with a large amount of calculation from the PESQ by linear calculation. Details will be described below.

図14は、第3実施形態で例示したように「参照信号」と「劣化信号」とを用いて評価試験を行って得られたMOS値(DMOS(Degradation MOS)値)と、それらに対応する「基準音響信号」と「評価対象音響信号」とから得られたPESQ値との関係を表したグラフである。縦軸はMOS値(DMOS値)を表し、横軸はPESQ値を表す。小さなダイヤ形のマークは主観評価試験による測定値を表し、破線直線上の大きな正方形のマークはそれらの線形関係に基づいた推定値を表す。この図に示すように、第3実施形態で得られたMOS値とそれに対応するPESQ値との関係は線形関係で近似できる。そのため、用意しておいた基準音響信号と評価対象音響信号とからなるリファレンス信号を用い、この線形関係を表す線形関数(一次関数)等を定式化しておけば、新たな基準音響信号と評価対象音響信号とからPESQ値を算出し、そのPESQ値をこの線形関数に代入してMOS値を算出できる。   FIG. 14 shows MOS values (DMOS (Degradation MOS) values) obtained by performing an evaluation test using “reference signals” and “degradation signals” as exemplified in the third embodiment, and the corresponding values. It is a graph showing the relationship between the PESQ value obtained from the “reference acoustic signal” and the “evaluation target acoustic signal”. The vertical axis represents the MOS value (DMOS value), and the horizontal axis represents the PESQ value. A small diamond mark represents a measured value obtained by a subjective evaluation test, and a large square mark on the broken line represents an estimated value based on the linear relationship. As shown in this figure, the relationship between the MOS value obtained in the third embodiment and the corresponding PESQ value can be approximated by a linear relationship. Therefore, if a reference function consisting of a prepared reference acoustic signal and an evaluation target acoustic signal is used and a linear function (linear function) representing this linear relationship is formulated, a new reference acoustic signal and an evaluation target The PESQ value is calculated from the acoustic signal, and the MOS value can be calculated by substituting the PESQ value into this linear function.

<構成>
図13に例示するように、本実施形態の音響品質評価装置4は、PESQ算出部41および線形変換部42を有する。音響品質評価装置4は、例えば、前述のような1個以上のコンピュータが所定のプログラムを実行することで構成される装置である。また、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。
<Configuration>
As illustrated in FIG. 13, the acoustic quality evaluation device 4 of this embodiment includes a PESQ calculation unit 41 and a linear conversion unit 42. The acoustic quality evaluation apparatus 4 is an apparatus configured by, for example, one or more computers as described above executing a predetermined program. Further, a part or all of the processing units may be configured using an electronic circuit that realizes a processing function independently.

<前処理>
音響品質評価処理の前処理として、基準音響信号と当該基準音響信号を含む信号に基づく評価対象音響信号との組をリファレンス信号として用い、基準音響信号(第2の基準音響信号)と当該基準音響信号を含む信号に基づく評価対象音響信号(第2の評価対象音響信号)とに対応するPESQ値(第2のPESQ値)と、当該基準音響信号に対応する基準音と当該評価対象音響信号に対応する評価音との違いについての5段階評価に基づくMOS値(第2のMOS値)と、の線形関係を求めておく。このとき基準音響信号と当該基準音響信号を含む信号に基づく評価対象音響信号の組については様々な組み合わせを行い、また評価者についても複数人で主観評価試験を実施し、リファレンス信号への依存性や評価者個人差への依存性を軽減する形で、線形関係を統計的に解析する。この解析結果として得た情報が、図14に示されるPESQ値(第2のPESQ値)とMOS値(第2のMOS値)との線形関係である。このような線形関係を表す情報は線形変換部42に設定される。「線形関係を表す情報」の例は、この線形関係を表す線形関数Fや、この線形関数Fを特定するパラメータ等である。線形関数Fの例は、PESQ値を入力としてそれに対応するMOS値を出力する関数であり、例えば、MOS値=α×PESQ値+βである。なお、αおよびβはパラメータである。
<Pretreatment>
As a pre-processing of the sound quality evaluation process, a set of a reference sound signal and an evaluation target sound signal based on a signal including the reference sound signal is used as a reference signal, and the reference sound signal (second reference sound signal) and the reference sound are used. PESQ value (second PESQ value) corresponding to the evaluation target acoustic signal (second evaluation target acoustic signal) based on the signal including the signal, the reference sound corresponding to the reference acoustic signal, and the evaluation target acoustic signal A linear relationship between the MOS value (second MOS value) based on the five-step evaluation of the difference from the corresponding evaluation sound is obtained in advance. At this time, various combinations of the reference acoustic signal and the evaluation target acoustic signal based on the signal including the reference acoustic signal are performed, and a subjective evaluation test is performed by a plurality of evaluators. And statistically analyze the linear relationship in a manner that reduces dependence on individual evaluator differences. Information obtained as a result of this analysis is a linear relationship between the PESQ value (second PESQ value) and the MOS value (second MOS value) shown in FIG. Information representing such a linear relationship is set in the linear conversion unit 42. Examples of “information representing a linear relationship” are a linear function F representing the linear relationship, a parameter specifying the linear function F, and the like. An example of the linear function F is a function for inputting a PESQ value and outputting a corresponding MOS value, for example, MOS value = α × PESQ value + β. Α and β are parameters.

なお、基準音響信号は、第1〜3実施形態で例示したような遠端話者音響信号であってもよいし、その他の音声信号であってもよいし、音楽や背景音等のその他の音響信号であってもよい。評価対象音響信号は、基準音響信号を含む信号に基づくものであればどのようなものでもよい。評価対象音響信号の例は、基準音響信号を含む信号の劣化信号であり、例えば、第1〜3実施形態で例示したような基準音響信号にエコー成分およびノイズ成分の少なくとも一方が重畳した信号である。   The reference sound signal may be a far-end speaker sound signal as exemplified in the first to third embodiments, may be another sound signal, or may be other music or background sound. It may be an acoustic signal. The evaluation target acoustic signal may be anything as long as it is based on a signal including a reference acoustic signal. An example of the evaluation target acoustic signal is a deterioration signal of a signal including a reference acoustic signal, for example, a signal in which at least one of an echo component and a noise component is superimposed on the reference acoustic signal as exemplified in the first to third embodiments. is there.

PESQ算出部41におけるPESQ値の算出方法は周知であり、例えば、「ITU-T Recommendation P.862」等に詳細に記載されている。「ITU-T Recommendation P.862」の記載における「original X(t)」が本発明の基準音響信号に、「degraded signal Y(t)」が本発明の評価対象音響信号に、それぞれ該当する。なお、通常のPESQ値の算出処理は、基準音響信号と評価対象音響信号との時間ずれを補正する処理が含まれる。   The calculation method of the PESQ value in the PESQ calculation unit 41 is well known, and is described in detail in “ITU-T Recommendation P.862”, for example. “Original X (t)” in the description of “ITU-T Recommendation P.862” corresponds to the reference acoustic signal of the present invention, and “degraded signal Y (t)” corresponds to the acoustic signal to be evaluated of the present invention. Note that the normal PESQ value calculation processing includes processing for correcting a time lag between the reference acoustic signal and the evaluation target acoustic signal.

基準音響信号に対応する基準音と評価対象音響信号に対応する評価音との違いについての5段階評価に基づくMOS値は、例えば、受聴された基準音と評価音との違いについて5段階評価(主観評価)の平均値である。5段階評価自体は5段階の評価カテゴリーを表す5つの値の何れかであるが、その平均値であるMOS値は1以上5以下の範囲に属する何れかの値である。「基準音と評価音との違いについて5段階評価」の内容に限定はない。このような5段階評価の例は、「基準音と評価音との違いが分かるか否かと、評価音の聞き取り易さおよび/または聞き取りにくさについての度合いと、の組み合わせからなる評価カテゴリーについての5段階評価」である。特に、このような5段階評価が「基準音と評価音との違いが分かるか否かと、評価音の聞き取りにくさについての4段階の度合いと、の組み合わせからなる評価カテゴリーについての5段階評価」である場合、より誤差の小さな線形関係が成り立つ。より好ましくは、このような5段階評価が、「基準音と評価音との違いが分からないことを表す1段階のカテゴリーと、基準音と評価音との違いが分かる旨と評価音の聞き取りにくさについての4段階の度合いとの組み合わせからなる4段階のカテゴリーと、を含む評価カテゴリーについての5段階評価」であることが望ましい。なお、「基準音と評価音との違いが分かるか否か」および「評価音の聞き取りにくさについての度合い」の具体例は、第3実施形態に例示した通りである。「評価音の聞き取り易さについての度合い」の具体例は、「聞き取りには問題がない」「少し聞き取り易い」「聞き取り易い」「非常に聞き取り易い」である。また、このような5段階評価に基づくMOS値は、「評価音の聞き取り易さの評価」を指示して得られた5段階評価に基づくものであることが望ましい。例えば、第3実施形態で例示したように、主観評価試験時に「評価音の『女声(左側)』の聞き取り易さ、を評価してください」等の内容が評価者に提示されて得られた5段階評価に基づくMOS値であることが望ましい。   The MOS value based on the five-step evaluation about the difference between the reference sound corresponding to the reference sound signal and the evaluation sound corresponding to the evaluation target sound signal is, for example, a five-step evaluation on the difference between the received reference sound and the evaluation sound ( This is the average value of subjective evaluation. The five-level evaluation itself is one of five values representing a five-level evaluation category, but the average MOS value is any value in the range of 1 to 5. There is no limitation on the content of “5-level evaluation of the difference between the reference sound and the evaluation sound”. An example of such a five-level evaluation is “for an evaluation category consisting of a combination of whether or not the difference between the reference sound and the evaluation sound is known and the degree of ease of hearing and / or difficulty in hearing the evaluation sound. It is a “5-level evaluation”. In particular, such a five-step evaluation is “a five-step evaluation for an evaluation category consisting of a combination of whether or not the difference between the reference sound and the evaluation sound is known and a four-step degree of difficulty in hearing the evaluation sound”. In this case, a linear relationship with smaller error is established. More preferably, such a five-step evaluation is “in order to understand the difference between the reference sound and the evaluation sound, and the one-step category indicating that the difference between the reference sound and the evaluation sound is unknown”. It is desirable to be a “5-level evaluation for an evaluation category” including a 4-level category consisting of a combination of the 4-level degree of the stiffness. Specific examples of “whether or not the difference between the reference sound and the evaluation sound is known” and “the degree of difficulty in hearing the evaluation sound” are as illustrated in the third embodiment. Specific examples of “degree of ease of hearing of evaluation sound” are “no problem in listening”, “a little easy to hear”, “easy to hear”, “very easy to hear”. Further, it is desirable that the MOS value based on such a five-step evaluation is based on the five-step evaluation obtained by instructing “evaluation of ease of hearing of evaluation sound”. For example, as exemplified in the third embodiment, contents such as “evaluate the ease of hearing of the evaluation sound“ female voice (left side) ”” were presented to the evaluator during the subjective evaluation test. A MOS value based on a five-step evaluation is desirable.

<音響品質評価処理>
以上の前提のもと、以下のように音響品質評価処理が行われる。まず、PESQ算出部41は、基準音響信号(第1の基準音響信号)と当該基準音響信号を含む信号に基づく評価対象音響信号(第1の評価対象音響信号)とを入力とし、当該基準音響信号と当該評価対象音響信号とに対するPESQ値(第1のPESQ値)を得て出力する。このPESQ値は線形変換部42に入力される。線形変換部42は、上述した線形関係に基づいて、入力されたPESQ値を線形変換してMOSの推定値(第1のMOS値)を得て出力する。例えば、線形変換部42は、PESQ値を前述の線形関数Fに代入して得られた結果をMOSの推定値として出力する。
<Sound quality evaluation process>
Based on the above assumptions, the sound quality evaluation process is performed as follows. First, the PESQ calculation unit 41 receives a reference acoustic signal (first reference acoustic signal) and an evaluation target acoustic signal (first evaluation target acoustic signal) based on a signal including the reference acoustic signal, and inputs the reference acoustic signal. A PESQ value (first PESQ value) for the signal and the evaluation target acoustic signal is obtained and output. This PESQ value is input to the linear conversion unit 42. The linear conversion unit 42 linearly converts the input PESQ value based on the linear relationship described above to obtain and output an estimated MOS value (first MOS value). For example, the linear conversion unit 42 outputs the result obtained by substituting the PESQ value into the above-described linear function F as the MOS estimated value.

[第4実施形態の変形例1]
図15に例示するように、この変形例の音響品質評価装置は、PESQ算出部41、線形変換部42、遠端話者音響信号記憶部102、およびデータ記憶部180を有する。PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出し、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号Tを読み出す(図3参照)。PESQ算出部41は、これらに対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。なお、PESQ算出部41が、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出すことに代えて、データ記憶部180から基準音響信号を読み出してもよい。
[Modification 1 of Fourth Embodiment]
As illustrated in FIG. 15, the sound quality evaluation apparatus of this modification includes a PESQ calculation unit 41, a linear conversion unit 42, a far-end speaker sound signal storage unit 102, and a data storage unit 180. The PESQ calculation unit 41 reads the far-end speaker acoustic signal from the far-end speaker acoustic signal storage unit 102 as a reference acoustic signal, and the evaluation target acoustic signal T 1 corresponding to the far-end speaker acoustic signal from the data storage unit 180. (See FIG. 3). The PESQ calculation unit 41 obtains and outputs PESQ values for these. The subsequent processing is the same as in the fourth embodiment. Note that the PESQ calculation unit 41 may read the reference sound signal from the data storage unit 180 instead of reading the far end speaker sound signal from the far end speaker sound signal storage unit 102 as the reference sound signal.

[第4実施形態の変形例2]
第4実施形態の変形例1の評価対象音響信号Tを評価対象音響信号Tに置換した形態であってもよい。すなわち、PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出し、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号Tを読み出す。PESQ算出部41は、これらに対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。
[Modification 2 of the fourth embodiment]
Fourth may be in the form obtained by substituting evaluated acoustic signal T 1 of the first modification of the embodiment in the evaluation target sound signal T 2. That is, the PESQ calculation unit 41 reads the far-end speaker acoustic signal as the reference acoustic signal from the far-end speaker acoustic signal storage unit 102, and the evaluation target acoustic signal corresponding to the far-end speaker acoustic signal from the data storage unit 180. read the T 2. The PESQ calculation unit 41 obtains and outputs PESQ values for these. The subsequent processing is the same as in the fourth embodiment.

[第4実施形態の変形例3]
図15に例示するように、この変形例の音響品質評価装置は、PESQ算出部41、線形変換部42、近端話者音響信号記憶部101、遠端話者音響信号記憶部102、データ記憶部180、および信号処理部621を含む。なお、信号処理部621は、何らかの「信号処理」を行う処理部である。「信号処理」の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。その他、「信号処理」が、エコーキャンセル処理もノイズキャンセル処理も含まない処理であってもよい。PESQ算出部41は、遠端話者音響信号記憶部102から遠端話者音響信号を基準音響信号として読み出す。信号処理部621は、データ記憶部180からこの遠端話者音響信号に対応する評価対象音響信号Tを読み出し、近端話者音響信号記憶部101から評価対象音響信号Tに対応する近端話者音響信号を読み出す(図3参照)。信号処理部621は、これらを用いて評価対象音響信号Tに信号処理を行い、それによって得られた信号を評価対象信号としてPESQ算出部41に送る。PESQ算出部41は、入力された信号に対するPESQ値を得て出力する。以降の処理は第4実施形態と同じである。
[Modification 3 of the fourth embodiment]
As illustrated in FIG. 15, the acoustic quality evaluation apparatus of this modification includes a PESQ calculation unit 41, a linear conversion unit 42, a near-end speaker acoustic signal storage unit 101, a far-end speaker acoustic signal storage unit 102, and a data storage. Unit 180 and signal processing unit 621. The signal processing unit 621 is a processing unit that performs some kind of “signal processing”. An example of “signal processing” is processing including at least one of echo cancellation processing and noise cancellation processing. In addition, the “signal processing” may be processing that does not include echo cancellation processing and noise cancellation processing. The PESQ calculation unit 41 reads the far-end speaker sound signal from the far-end speaker sound signal storage unit 102 as a reference sound signal. The signal processing unit 621 reads the evaluated acoustic signals T 1 corresponding from the data storage unit 180 to the far-end talker's sound signal, near corresponding to the evaluation target sound signal T 1 from the near end talker sound signal storage unit 101 An end speaker audio signal is read (see FIG. 3). The signal processing unit 621, these evaluated target sound signal T 1 to signal processing using, sends a signal obtained thereby to the PESQ calculation unit 41 as the evaluation target signal. The PESQ calculation unit 41 obtains and outputs a PESQ value for the input signal. The subsequent processing is the same as in the fourth embodiment.

[その他の変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、参照信号や劣化信号が音声以外の音響信号(音楽や背景音等)に基づいて得られたものであってもよい。また、参照信号や劣化信号が時系列信号でなくてもよい。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[Other variations]
The present invention is not limited to the embodiment described above. For example, the reference signal or the deterioration signal may be obtained based on an acoustic signal (music, background sound, etc.) other than voice. Further, the reference signal and the deteriorated signal may not be a time series signal. In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。   When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.

このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own recording device and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer. The processing according to the received program may be executed sequentially. The above-described processing may be executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. Good.

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。   In the above embodiment, the processing functions of the apparatus are realized by executing a predetermined program on a computer. However, at least a part of these processing functions may be realized by hardware.

1,2 データ生成装置
3〜6 音響品質評価装置
1, 2 Data generation devices 3-6 Sound quality evaluation device

Claims (8)

第1音響信号を両耳装着型音響再生装置の一方のチャネルである第1チャネルに出力しつつ、第2の基準音響信号に対応する基準音を表す信号を前記両耳装着型音響再生装置の他方のチャネルである第2チャネルに出力する第1処理と、前記第1音響信号を前記第1チャネルに出力しつつ、前記第1音響信号に由来する信号と前記第2の基準音響信号とを含む信号に基づく評価音を表す重畳信号である第2の評価対象音響信号を前記第2チャネルに出力する第2処理と、を行う音響出力処理部と、
前記基準音と前記評価音との違いについての5段階の評価カテゴリーを表示する表示部と、
前記評価カテゴリーから選択されたカテゴリーを表す情報の入力を受け付ける入力部と、
第1の基準音響信号と前記第1の基準音響信号を含む信号に基づく第1の評価対象音響信号とに対する第1のPESQ値を得るPESQ算出部と、
前記第2の基準音響信号と前記第2の評価対象音響信号とに対応する第2のPESQ値と、前記選択されたカテゴリーを表す情報から得られた、記基準音と前記評価音との違いについての5段階評価値を表す第2のMOS値と、の線形関係に基づいて、前記第1のPESQ値を線形変換して第1のMOS値を得て出力する線形変換部と、
を有する音響品質評価装置。
While outputting the first sound signal to the first channel, which is one channel of the binaural sound reproduction device, a signal representing the reference sound corresponding to the second reference sound signal is output from the binaural sound reproduction device. A first process for outputting to the second channel, which is the other channel, and a signal derived from the first acoustic signal and the second reference acoustic signal while outputting the first acoustic signal to the first channel. A second process of outputting a second evaluation target acoustic signal, which is a superimposed signal representing an evaluation sound based on the included signal, to the second channel;
A display unit for displaying a five-step evaluation category about the difference between the reference sound and the evaluation sound;
An input unit for receiving input of information representing a category selected from the evaluation category;
A PESQ calculation unit for obtaining a first PESQ value for a first reference acoustic signal and a first evaluation target acoustic signal based on a signal including the first reference acoustic signal;
Wherein the second PESQ value corresponding to a second reference sound signal and the previous SL second evaluation target sound signal, obtained from the information representing the selected category, the Review Ataion the previous SL reference tone based on the 5 and second MOS value that represents the stage evaluation value, the linear relationship of the differences between, the linear conversion unit you output the first PESQ value to obtain a first MOS value by linear transformation When,
A sound quality evaluation apparatus.
請求項1の音響品質評価装置であって、
前記5段階の評価カテゴリーは、前記基準音と前記評価音との違いが分かるか否かと、前記評価音の聞き取り易さおよび/または聞き取りにくさについての度合いと、の組み合わせからなる音響品質評価装置。
The acoustic quality evaluation apparatus according to claim 1,
Evaluation Category of the 5 stages, and whether or not the difference between the evaluation sound and the reference sound is found, the degree of hearing ease and / or hearing difficulty of the evaluated sound, a combination of an acoustic quality evaluation apparatus.
請求項1または2の音響品質評価装置であって、
前記5段階の評価カテゴリーは、前記基準音と前記評価音との違いが分かるか否かと、前記評価音の聞き取りにくさについての4段階の度合いと、の組み合わせからなる音響品質評価装置。
The sound quality evaluation apparatus according to claim 1 or 2,
The five-stage evaluation category is an acoustic quality evaluation apparatus comprising a combination of whether or not a difference between the reference sound and the evaluation sound is known and a four-stage degree of difficulty in hearing the evaluation sound.
請求項1から3の何れかの音響品質評価装置であって、
前記5段階の評価カテゴリーは、前記基準音と前記評価音との違いが分からないことを表す1段階のカテゴリーと、前記基準音と前記評価音との違いが分かる旨と前記評価音の聞き取りにくさについての4段階の度合いとの組み合わせからなる4段階のカテゴリーと、を含む音響品質評価装置。
The sound quality evaluation apparatus according to any one of claims 1 to 3,
The five-step evaluation category is a one-step category indicating that the difference between the reference sound and the evaluation sound is not known, and that the difference between the reference sound and the evaluation sound is understood and the evaluation sound is heard. A sound quality evaluation apparatus comprising: a four-stage category composed of a combination with four degrees of the degree.
請求項1から4の何れかの音響品質評価装置であって、
前記表示部は、前記評価音の聞き取り易さの評価を指示するための情報を表示する、音響品質評価装置。
The sound quality evaluation apparatus according to any one of claims 1 to 4,
The said display part is an acoustic quality evaluation apparatus which displays the information for instruct | indicating evaluation of the ease of hearing of the said evaluation sound.
請求項1の音響品質評価装置であって、  The acoustic quality evaluation apparatus according to claim 1,
αおよびβが定数であり、  α and β are constants,
前記線形変換部は、前記第1のPESQ値×α+βを行って得られる値を前記第1のMOS値として出力する、音響品質評価装置。  The linear conversion unit is an acoustic quality evaluation device that outputs a value obtained by performing the first PESQ value × α + β as the first MOS value.
第1音響信号を両耳装着型音響再生装置の一方のチャネルである第1チャネルに出力しつつ、第2の基準音響信号に対応する基準音を表す信号を前記両耳装着型音響再生装置の他方のチャネルである第2チャネルに出力する第1処理と、前記第1音響信号を前記第1チャネルに出力しつつ、前記第1音響信号に由来する信号と前記第2の基準音響信号とを含む信号に基づく評価音を表す重畳信号である第2の評価対象音響信号を前記第2チャネルに出力する第2処理と、を行う音響出力処理ステップと、
前記基準音と前記評価音との違いについての5段階の評価カテゴリーを表示する表示ステップと、
前記評価カテゴリーから選択されたカテゴリーを表す情報の入力を受け付ける入力ステップと、
第1の基準音響信号と前記第1の基準音響信号を含む信号に基づく第1の評価対象音響信号とに対する第1のPESQ値を得るPESQ算出ステップと、
前記第2の基準音響信号と前記第2の評価対象音響信号とに対応する第2のPESQ値と、前記選択されたカテゴリーを表す情報から得られた、記基準音と前記評価音との違いについての5段階評価値を表す第2のMOS値と、の線形関係に基づいて、前記第1のPESQ値を線形変換して第1のMOS値を得て出力する線形変換ステップと、
を有する音響品質評価方法。
While outputting the first sound signal to the first channel, which is one channel of the binaural sound reproduction device, a signal representing the reference sound corresponding to the second reference sound signal is output from the binaural sound reproduction device. A first process for outputting to the second channel, which is the other channel, and a signal derived from the first acoustic signal and the second reference acoustic signal while outputting the first acoustic signal to the first channel. A second process of outputting a second evaluation target acoustic signal, which is a superimposed signal representing an evaluation sound based on the included signal, to the second channel;
A display step for displaying a five-step evaluation category for the difference between the reference sound and the evaluation sound;
An input step for receiving input of information representing a category selected from the evaluation categories;
A PESQ calculation step for obtaining a first PESQ value for a first evaluation acoustic signal based on a first reference acoustic signal and a signal including the first reference acoustic signal;
Wherein the second PESQ value corresponding to a second reference sound signal and the previous SL second evaluation target sound signal, obtained from the information representing the selected category, the Review Ataion the previous SL reference tone 5 a second MOS value that represents the stage evaluation value, based on a linear relationship, linear transformation step you outputting the first PESQ value to obtain a first MOS value by linear transformation on the differences between the When,
A method for evaluating sound quality.
請求項1からの何れかの音響品質評価装置としてコンピュータを機能させるためのプログラム。 The program for functioning a computer as an acoustic quality evaluation apparatus in any one of Claim 1 to 6 .
JP2014170109A 2014-08-25 2014-08-25 Sound quality evaluation apparatus, sound quality evaluation method, and program Active JP6163468B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014170109A JP6163468B2 (en) 2014-08-25 2014-08-25 Sound quality evaluation apparatus, sound quality evaluation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014170109A JP6163468B2 (en) 2014-08-25 2014-08-25 Sound quality evaluation apparatus, sound quality evaluation method, and program

Publications (2)

Publication Number Publication Date
JP2016046695A JP2016046695A (en) 2016-04-04
JP6163468B2 true JP6163468B2 (en) 2017-07-12

Family

ID=55636861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014170109A Active JP6163468B2 (en) 2014-08-25 2014-08-25 Sound quality evaluation apparatus, sound quality evaluation method, and program

Country Status (1)

Country Link
JP (1) JP6163468B2 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328167A (en) * 2016-08-16 2017-01-11 成都市和平科技有限责任公司 Intelligent speech recognition robot and control system
JP6594840B2 (en) * 2016-10-12 2019-10-23 日本電信電話株式会社 Acoustic quality evaluation apparatus, acoustic quality evaluation method, data structure, and program
JP6434470B2 (en) * 2016-10-12 2018-12-05 日本電信電話株式会社 Evaluation test planning device, subjective evaluation device, method and program thereof
JP6571623B2 (en) * 2016-10-12 2019-09-04 日本電信電話株式会社 Sound quality evaluation apparatus, sound quality evaluation method, and program
CN108305618B (en) * 2018-01-17 2021-10-22 广东小天才科技有限公司 Voice acquisition and search method, intelligent pen, search terminal and storage medium
WO2020240768A1 (en) * 2019-05-30 2020-12-03 日本電信電話株式会社 In-automobile conversation evaluation value conversion device, in-automobile conversation evaluation value conversion method, and program
WO2021152759A1 (en) * 2020-01-30 2021-08-05 日本電信電話株式会社 Evaluation method, evaluation device, and program
CN111614842B (en) * 2020-05-14 2021-10-26 杭州当虹科技股份有限公司 PESQ-based objective voice communication quality evaluation method
CN112185421B (en) * 2020-09-29 2023-11-21 北京达佳互联信息技术有限公司 Sound quality detection method and device, electronic equipment and storage medium
CN113096681B (en) * 2021-04-08 2022-06-28 海信视像科技股份有限公司 Display device, multi-channel echo cancellation circuit and multi-channel echo cancellation method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3764394B2 (en) * 2002-02-08 2006-04-05 日本電信電話株式会社 Quality estimation method and apparatus
JP4341586B2 (en) * 2005-06-08 2009-10-07 Kddi株式会社 Call quality objective evaluation server, method and program

Also Published As

Publication number Publication date
JP2016046695A (en) 2016-04-04

Similar Documents

Publication Publication Date Title
JP6163468B2 (en) Sound quality evaluation apparatus, sound quality evaluation method, and program
EP3627860A1 (en) Audio conferencing using a distributed array of smartphones
EP1913708B1 (en) Determination of audio device quality
JP6703525B2 (en) Method and device for enhancing sound source
GB2495472B (en) Processing audio signals
CN112071328B (en) Audio noise reduction
JP6571623B2 (en) Sound quality evaluation apparatus, sound quality evaluation method, and program
US8693713B2 (en) Virtual audio environment for multidimensional conferencing
JP2011512694A (en) Method for controlling communication between at least two users of a communication system
EP3005362B1 (en) Apparatus and method for improving a perception of a sound signal
US10192566B1 (en) Noise reduction in an audio system
JP6363429B2 (en) Data structure, data generation apparatus, data generation method, and program
JP7238978B2 (en) Evaluation device, evaluation method, and program
JP6126053B2 (en) Sound quality evaluation apparatus, sound quality evaluation method, and program
JP6594840B2 (en) Acoustic quality evaluation apparatus, acoustic quality evaluation method, data structure, and program
Holub et al. Delay effect on conversational quality in telecommunication networks: Do we mind?
JP7310939B2 (en) Evaluation method, evaluation device, and program
JP2012094945A (en) Voice communication system and voice communication apparatus
US11924368B2 (en) Data correction apparatus, data correction method, and program
JP7184173B2 (en) SOUND QUALITY EVALUATION DEVICE, SOUND QUALITY EVALUATION METHOD, AND PROGRAM
Rund et al. Objective quality assessment for the acoustic zoom
JP7403436B2 (en) Acoustic signal synthesis device, program, and method for synthesizing multiple recorded acoustic signals of different sound fields
US20230098333A1 (en) Information processing apparatus, non-transitory computer readable medium, and information processing method
JP5698110B2 (en) Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program
Chon et al. Sound quality assessment of earphone: A subjective assessment procedure and an objective prediction model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170619

R150 Certificate of patent or registration of utility model

Ref document number: 6163468

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150