JP7310939B2 - 評価方法、評価装置、およびプログラム - Google Patents

評価方法、評価装置、およびプログラム Download PDF

Info

Publication number
JP7310939B2
JP7310939B2 JP2021574356A JP2021574356A JP7310939B2 JP 7310939 B2 JP7310939 B2 JP 7310939B2 JP 2021574356 A JP2021574356 A JP 2021574356A JP 2021574356 A JP2021574356 A JP 2021574356A JP 7310939 B2 JP7310939 B2 JP 7310939B2
Authority
JP
Japan
Prior art keywords
evaluation
acoustic
speaker
evaluation value
seat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021574356A
Other languages
English (en)
Other versions
JPWO2021152759A1 (ja
Inventor
祥子 栗原
登 原田
勝宏 福井
朗 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021152759A1 publication Critical patent/JPWO2021152759A1/ja
Application granted granted Critical
Publication of JP7310939B2 publication Critical patent/JP7310939B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/025Arrangements for fixing loudspeaker transducers, e.g. in a box, furniture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Description

特許法第30条第2項適用 (1)発行日 2019年8月21日 刊行物 日本音響学会2019年秋季研究発表会 講演論文集 1-2-10 (2)発行日 2019年8月27日 刊行物 2019年電子情報通信学会ソサイエティ大会 大会論文集 B-11-27
本発明は、自動車内での会話の音響品質を評価するための技術に関する。
通信技術の発達とともに、機器を持たずに通話できる手軽さから、会議システムやスマートフォンによるハンズフリー拡声通話などの拡声系通信システムを利用する機会が増えている。拡声系通信システムで問題となる音響エコーや周辺雑音を除去し、快適な通話環境を提供するために、音響エコーキャンセラ(AEC: Acoustic Echo Canceller)が利用されている。
音響エコーとは、近端から送信された音声が遠端のスピーカから出力され、遠端のマイクロホンが拾うことで発生する現象である。音響エコーキャンセラの効果が弱ければ音響エコーが消し残り、強すぎれば遠端からの送話音声までもが除去されてしまい、歪んだり消えたりして聞き取りにくくなる。音響エコーキャンセラの性能は音響エコーがどれだけ的確に消去されているかに依存することから、従来の音響エコーキャンセラの性能評価は、音響エコーの消去量に着目した客観評価が主流であった。客観評価は計算機処理で評価できるため手軽であるが、必ずしも実際の通話でユーザが体感する品質(「ユーザ体感品質」とも呼ぶ)とは一致しないという問題があった。
主観評価で音響エコーや音響エコーキャンセラによる処理音を評価するためには、音響エコーを知覚する必要があり、評価者本人が通話することで初めて評価可能となる。そのため、ハンズフリー拡声通話などの拡声系通信システムでは、双方向の会話試験による品質評価が推奨されてきた(非特許文献1参照)。一方、会話試験の実施にはノウハウが必要であり、手間やコストがかかる上、再現性が低いという問題がある。そのため、会話試験を簡略化し、片方向通話を対象とした受聴試験により主観評価を行う手法も提案されている。また、会話の音声を録音した音響信号から受聴試験による主観評価値を推定するPESQ(Perceptual Evaluation of Speech Quality)などの客観評価法も確立されている(非特許文献2参照)。
拡声系通信システムの一つの応用として、自動車内における乗員同士の会話をサポートするインカーコミュニケーション(ICC: In Car Communication)が利用され始めている(非特許文献3参照)。しかしながら、ICCの品質を適切に評価する規格はまだ策定されていない。
ICCは自動車内での会話をサポートする技術であるため、会話試験により品質を評価する必要がある。しかしながら、ICCでは走行中・走行中であれば走行中の速度の差・停止中など様々な利用状況が想定される。また、自動車内の座席のすべての組み合わせで試験を行わなければならない。例えば、図1に示すように3列に座席が配置された自動車90内での利用を想定した場合、運転席91と後部座席97の組み合わせであれば、運転席91から発せられた音声信号が1列目に設置されたマイクロホン1Fで収音され、3列目に設置されたスピーカ2Rから放音された放音信号を後部座席97で受聴し、後部座席97から発せられた音声信号が3列目に設置されたマイクロホン1Rで収音され、1列目に設置されたスピーカ2Fから放音された放音信号を運転席91で受聴する場合を想定した会話試験を行う。この会話試験を、ICCを用いた会話を行うことが想定されるすべての座席の組合せで行う必要がある。会話を行う座席の組合せごとに、収音された音響信号から消去しなければ(すなわち、エコーキャンセルしなければ)ならない信号が異なるためである。したがって、ICCの品質評価では、必要となる会話試験の回数が膨大となる。
この発明の目的は、上記のような技術的課題に鑑みて、ICCの品質評価で必要となる会話試験の回数を低減することができる技術を提供することである。
上記の課題を解決するために、この発明の一態様の評価方法は、複数の音響領域のいずれかに属する少なくとも3つの座席を有する自動車内において座席間で行われる会話の品質を評価する評価方法であって、音響領域ごとに少なくとも1個のスピーカと1個のマイクロホンとが配置され、第一の音響領域に配置された第一のマイクロホンにより収音された音声信号が第二の音響領域に配置された第二のスピーカから放音され、第一評価値取得部が、第一の音響領域に属する第一の座席の音源から発せられた第一音声信号が第一のマイクロホンにより収音され第二のスピーカから放音された音声信号と、第一音声信号が自動車内の空間を伝達して第二の音響領域に属する第二の座席に到来した音声信号とを加算した音声信号を評価対象音とし、第一音声信号を基準音として、第一の座席と第二の座席の間で行われる会話の評価値である第一評価値を取得し、第二評価値取得部が、第一の座席と第二の座席の間を除く第一の音響領域に属するいずれかの座席と第二の音響領域に属するいずれかの座席の間で行われる会話の評価値として前記第一評価値を取得する。
この発明によれば、少ない回数の会話試験で、もしくは、会話試験を行うことなく、ICCの品質評価を行うことができる。
図1は、ICCの利用環境の例を説明するための図である。 図2は、音響品質評価システムの機能構成を例示する図である。 図3は、音響品質評価方法の処理手順を例示する図である。 図4は、評価入力画面の表示内容を例示する図である。 図5は、主観評価値と客観評価値との関係を例示する図である。 図6は、実験結果を説明するための図である。 図7は、音響品質評価方法の処理手順を例示する図である。 図8は、変形例1の音響品質評価システムの機能構成を例示する図である。 図9は、ICCの音響品質評価の例を説明するための図である。 図10は、ICCの音響品質評価の例を説明するための図である。 図11は、変形例3の音響品質評価システムの機能構成を例示する図である。 図12は、変形例4の音響品質評価システムの機能構成を例示する図である。 図13は、変形例4のスピーカとマイクロホンの配置を説明するための図である。 図14A,14Bは、変形例4のスピーカとマイクロホンの配置を説明するための図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<拡声系通信システムでの音響品質評価試験>
まず、拡声系通信システムでの音響品質評価試験を概念的に説明する。この音響品質評価試験では、近端話者と遠端話者とが拡声系通信システムを通じて会話を行い、近端話者側に位置する評価者が当該拡声系通信システムの品質評価を行う。なお、拡声系通信システムとは、マイクロホンとスピーカとを備えた端末装置間で音響信号を送受信する通信システムであって、端末装置のスピーカから出力された音の少なくとも一部がその端末装置のマイクロホンで受音されるもの(音の回り込みが生じるもの)をいう。拡声系通信システムの一例は、音声会議システムやテレビ会議システム、そしてインカーコミュニケーションである。
拡声系通信システムでは、近端話者の音声が近端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で遠端話者側に伝送され、当該音響信号が表す音が遠端話者側のスピーカから出力される。また、遠端話者側の音が遠端話者側のマイクロホンで受音され、それに基づいて得られた音響信号がネットワーク経由で近端話者側に伝送され、当該音響信号が表す音が近端話者側のスピーカから出力される。ただし、遠端話者側のスピーカから出力された音の少なくとも一部は遠端話者側のマイクロホンでも受音される。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、遠端話者の音声に近端話者の音声の回り込み(音響エコー)が重畳されたものである。すなわち、遠端話者側のマイクロホンで受音される遠端話者側の音は、遠端話者の音声に基づく信号に近端話者の音声に基づく信号が遠端話者側の空間で劣化して重畳した信号に基づく。なお、近端話者が発話していないときは、近端話者の音声に基づく信号が重畳しないため遠端話者の音声が劣化することはない。また、遠端話者側の音の劣化は、遠端話者側の周囲騒音の重畳も要因となり得る。
近端話者側に伝送される音響信号は、遠端話者側のマイクロホンで受音された音を表す信号に所定の信号処理を行って得られた処理信号に由来するものであってもよいし、このような信号処理を行うことなく得られたものであってもよい。信号処理は、どのような処理であってもよい。信号処理の例は、エコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む処理である。なお、エコーキャンセル処理とは、エコーを低減させるための広義のエコーキャンセラによる処理を意味する。広義のエコーキャンセラによる処理とは、エコーを低減させるための処理全般を意味する。広義のエコーキャンセラによる処理は、例えば、適応フィルタを用いた狭義のエコーキャンセラのみによって実現されてもよいし、音声スイッチによって実現されてもよいし、エコーリダクションによって実現されてもよいし、これらの少なくとも一部の技術の組み合わせによって実現されてもよいし、さらにその他の技術との組み合わせによって実現されてもよい(下記参考文献1参照)。またノイズキャンセル処理とは、遠端端末のマイクロホンの周囲で発生する、遠端話者の音声以外のあらゆる環境雑音に起因する雑音成分を抑圧または除去する処理を意味する。環境雑音とは、例えば、オフィスの空調音、走行中の車内音、交差点での車の通行音、虫の音、キーボードのタッチ音、複数の人の声(ガヤガヤ音)などを指し、音の大/小、屋内/屋外は問わない(下記参考文献2参照)。
〔参考文献1〕知識ベース 知識の森、2群-6編-5章、“音響エコーキャンセラ”、電子情報通信学会、[online]、[平成31年3月5日検索]、インターネット<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_05.pdf>
〔参考文献2〕阪内澄宇,羽田陽一,田中雅史,佐々木潤子,片岡章俊,“雑音抑圧及びエコー抑圧機能を備えた音響エコーキャンセラ”,電子情報通信学会論文誌,Vol.J87-A,No.4,pp.448-457,2004年4月
<主観評価値:会話試験>
会話試験による主観評価は以下のように行う。評価者は、近端話者側のスピーカから出力される音響信号を受聴し、予め定めた所定数の段階に分類された評価カテゴリーから近端話者の主観に基づいて最も適合する評価カテゴリーを選択する。例えば、非特許文献1に挙げたITU-T Recommendation P.800では"Excellent", "Good", "Fair", "Poor", "Bad"の5段階の評価カテゴリーに分類し、各評価カテゴリーに順に5,4,3,2,1の評価値を割り当てることが提案されている。この主観評価を、複数の評価者が通話相手を入れ替えながらそれぞれ複数回行い、収集した評価値を集計することで音響品質の評価が行われる。
<主観評価値:受聴試験>
受聴試験による主観評価は以下のように行う。評価者は、ヘッドフォンやイヤホン等の両耳装着型音響再生装置を用い、遠端話者側での音の回り込みがないと仮定した場合の近端話者側のスピーカから出力される音(すなわち、基準音)を表す音響信号と、遠端話者側での音の回り込みがある場合の近端話者側のスピーカから出力される音(すなわち、評価対象音)を表す音響信号と、を交互に聴き比べ、通話品質を主観評価(オピニオン評価)する。この主観評価を、複数の評価者が基準音を表す音響信号と評価対象音を表す音響信号の複数の組に対して複数回行い、収集した評価値を集計することで音響品質の評価が行われる。
<客観評価値:PESQ>
PESQによる客観評価では、上述のように取得した基準音を表す音響信号と評価対象音を表す音響信号の組を入力とし、例えば非特許文献2に記載された算出方法に従ってPESQ値を算出する。非特許文献2に記載された“original signal X(t)”が基準音を表す音響信号に、“degraded signal Y(t)”が評価対象音を表す音響信号に、それぞれ該当する。
<インカーコミュニケーション:ICC>
ICCは拡声系通信システムの一つの応用であって、自動車内で各座席に座る乗員同士がマイクロホンとスピーカを通じて行う会話をサポートする技術である。各座席の近傍には少なくとも1個のマイクロホンと1個のスピーカを備える端末が配置され、各端末が自動車内に構築された音声通信網を通じて音声信号を送受信することで会話が行われる。すなわち、第一の座席の近傍に配置されたマイクロホンにより収音された音声信号が第二の座席の近傍に配置されたスピーカから放音され、第二の座席の近傍に配置されたマイクロホンにより収音された音声信号が第一の座席の近傍に配置されたスピーカから放音されることで、第一の座席の乗員と第二の座席の乗員との間の会話が行われる。なお、少なくとも1個のマイクロホンと1個のスピーカが配置され、少なくとも1個の音源(例えば自動車の乗員)が存在し得る空間を「音響領域」と呼ぶものとする。すなわち、ICCでは対象とする自動車内に、複数の音響領域が予め設定されており、各音響領域には少なくとも1個の座席が配置されている。
<音響品質評価システム>
実施形態の音響品質評価システムは、PESQによる客観評価値を会話試験による主観評価値に変換するための情報通信システムである。実施形態の音響品質評価システム10は、図2に示すように、近端話者が用いる近端端末1と、遠端話者が用いる遠端端末2と、評価値変換装置3とを含む。音響品質評価システム10には、近端話者と近端端末1とが存在する近端音響領域100と、遠端話者と遠端端末2とが存在する遠端音響領域200とが予め定められている。近端端末1は、少なくとも送話部11、受話部12、録音部13、表示部15、および入力部16を備え、さらに信号処理部14を備えてもよい。遠端端末2は、少なくとも送話部21、受話部22、および録音部23を備え、さらに信号処理部24を備えてもよい。評価値変換装置3は、主観評価値提示部31、主観評価値取得部32、客観評価値取得部33、分析部34、および変換部35を備える。この音響品質評価システム10が図3および図7に例示する各ステップの処理を行うことにより実施形態の音響品質評価方法が実現される。
以下の説明では、近端端末1を使用する近端話者が主観評価値のサンプルを与える評価者であり、遠端端末2を使用する遠端話者が主観評価の対象となる会話の通話相手とするが、同一の通話を近端話者と遠端話者とが同時に評価してもよい。この場合、近端話者と遠端話者はいずれも評価者であり、かつ、通話相手となる。このとき、近端端末1と遠端端末2とは同一の機能構成となり、遠端端末2が表示部および入力部をさらに備えることになる。また、以下の説明では、近端端末1と遠端端末2との二者間の通話の音響品質を評価することを前提とするが、遠端端末2が複数存在し、近端端末1と複数の遠端端末2との間で行われる三者以上の会議通話を評価対象としてもよい。
近端端末1と遠端端末2とは音声通信網4を介して接続される。評価値変換装置3は、近端端末1および遠端端末2と図示していないネットワークを介して接続される。ただし、音声通信網4が帯域制御等により音声用の通信経路とデータ用の通信経路とを論理的に分割可能であれば、音声通信網4を介して近端端末1および遠端端末2と評価値変換装置3とが接続されてもよい。音声通信網4は、接続される各装置が相互に通信可能なように構成された回線交換方式もしくはパケット交換方式の通信網であり、特に音声通信を想定して構成されたものである。音声通信網4は、具体的には、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)、専用線、公衆交換電話網、携帯電話通信網などで構成することができる。
近端端末1および遠端端末2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。近端端末1および遠端端末2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。近端端末1および遠端端末2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。近端端末1および遠端端末2は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。近端端末1および遠端端末2は、具体的には、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの音声送受信機能およびデータ通信機能を備えた情報処理装置である。
評価値変換装置3は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。評価値変換装置3は、例えば、中央演算処理装置の制御のもとで各処理を実行する。評価値変換装置3に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。評価値変換装置3は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。評価値変換装置3が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。評価値変換装置3は、具体的には、デスクトップ型やラックマウント型のサーバコンピュータなどのデータ通信機能およびデータ処理機能を備えた情報処理装置である。
実施形態の音響品質評価方法は、2段階の処理からなる。第1段階は、客観評価値を主観評価値に変換するために、客観評価値と主観評価値との関係を分析する処理である。第2段階は、第1段階で得た客観評価値と主観評価値との関係に基づいて、会話を録音した音響信号から算出した客観評価値を主観評価値へ変換する処理である。図3は、第1段階の関係分析処理の例を示す図であり、図7は、第2段階の評価値変換処理の例を示す図である。
<関係分析処理>
以下、図3を参照して、実施形態の音響品質評価方法のうち客観評価値と主観評価値の関係を分析する処理を説明する。
ステップS1において、近端端末1と遠端端末2とが音響品質の評価対象とする通話を開始する。まず、近端端末1が近端話者の操作に従って遠端端末2へ発信を行う。遠端端末2は遠端話者の操作に従って近端端末1からの着信に応答する。これにより、近端端末1と遠端端末2との間で通話が確立する。ここでは近端端末1から遠端端末2へ発信する例を示したが、遠端端末2から近端端末1へ発信することで通話を確立しても構わない。
通話が確立すると、近端話者の発話した音声が近端端末1のマイクロホンM1により音響信号に変換され、送話部11がその音響信号を遠端端末2の受話部22へ送信する。近端端末1が信号処理部14を備える場合、信号処理部14が遠端端末2へ送信される音響信号に対してエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む信号処理を行う。遠端端末2の受話部22は、近端端末1の送話部11から受信した音響信号を遠端端末2のスピーカS2から出力する。遠端話者の発話した音声は遠端端末2のマイクロホンM2により音響信号に変換されるが、このとき遠端端末2のスピーカS2から出力された近端話者の音声の回り込みが遠端話者の音声に重畳して音響信号に変換される。遠端端末2の送話部21は、音響信号を近端端末1の受話部12へ送信する。遠端端末2が信号処理部24を備える場合、信号処理部24が近端端末1へ送信される音響信号に対してエコーキャンセル処理およびノイズキャンセル処理の少なくとも一方を含む信号処理を行う。近端端末1の受話部12は、遠端端末2の送話部21から受信した音響信号を近端端末1のスピーカS1から出力する。このようにして、近端話者と遠端話者とは近端端末1と遠端端末2との間で確立した通話を介して会話を行う。
ステップS13において、近端端末1の録音部13は、近端端末1の受話部12がスピーカS1から出力する音響信号を録音し、評価対象音を表す音響信号(以下、「評価対象音響信号」と呼ぶ)として評価値変換装置3へ送信する。評価値変換装置3は、近端端末1の録音部13から受信した評価対象音響信号を客観評価値取得部33へ入力する。
ステップS23において、遠端端末2の録音部23は、遠端端末2のマイクロホンM3に入力された音を音響信号へ変換し、基準音を表す音響信号(以下、「基準音響信号」と呼ぶ)として評価値変換装置3へ送信する。評価値変換装置3は、遠端端末2の録音部23から受信した基準音響信号を客観評価値取得部33へ入力する。
録音部23は、近端端末1が備えてもよい。この場合、遠端端末2が存在する音響領域内にマイクロホンM3を配置し、マイクロホンM3から近端端末1が存在する音響領域へ敷設したオーディオケーブルを用いて、マイクロホンM3と近端端末1が備える録音部23を接続する。これにより、遠端話者が発話した音声を近端端末1が備える録音部23で直接録音することが可能となる。
ステップS15において、評価値変換装置3の主観評価値提示部31は、近端端末1の表示部15へ近端話者が音響品質の評価を入力する評価入力画面を表示させるための制御信号を送信する。近端端末1の表示部15は、受信した制御信号に従って評価入力画面を表示する。評価入力画面には、予め定めた複数の評価観点それぞれについて複数の段階に分類した評価カテゴリーが表示される。これらの評価カテゴリーには各評価観点での品質の高さに応じた評価値が割り当てられている。評価入力画面は、各評価観点について1つの評価カテゴリーのみが選択できるように設定されるものとする。
評価観点は、例えば、「相手の声の聞き取り易さ」「雑音感」「自分の声の戻り」の3つの観点を含む。「相手の声の聞き取り易さ」の評価観点に対しては、例えば「非常に聞き取りやすい」「聞き取りには問題がない」「少し聞き取りにくい」「聞き取りにくい」「非常に聞き取りにくい」の5段階の評価カテゴリーが設けられ、各評価カテゴリーには順に5,4,3,2,1の評価値が割り当てられる。「雑音感」の評価観点に対しては、例えば「雑音が全くない」「雑音が少しある」「雑音がある」「雑音がかなり重畳している」「雑音が非常に多く重畳している」の5段階の評価カテゴリーが設けられ、各評価カテゴリーには順に5,4,3,2,1の評価値が割り当てられる。「自分の声の戻り」の評価観点に対しては、例えば「自分の声の戻りが全くない」「自分の声の戻りが少しある」「自分の声の戻りがある」「自分の声の戻りが大きい」「自分の声の戻りが非常に大きい」の5段階の評価カテゴリーが設けられ、各評価カテゴリーには順に5,4,3,2,1の評価値が割り当てられる。上記の例で示した評価観点と評価カテゴリーと評価値の関係をまとめると、下記表のようになる。
Figure 0007310939000001
図4に、上記の例の評価カテゴリーに基づいて評価を入力するための評価入力画面の例を示す。評価入力画面130には、「相手の声の聞き取り易さ」の評価観点に対応するエリア131-1、「雑音感」の評価観点に対応するエリア131-2、および「自分の声の戻り」の評価観点に対応するエリア131-3が設けられる。エリア131-1には「相手の声の聞き取り易さ」を5段階に分類した評価カテゴリーを表すラベル132-1が表示され、各評価カテゴリーに対して一対一で5つのボタン133-1が設けられる。ボタン133-1は選択状態が切り替えられる機能を持ち、エリア131-1内で1つのみが選択できるように設定される。例えば、ボタン133-1はエリア131-1内でグループが設定されたオプションボタンである。エリア131-2およびエリア131-3についても同様にラベル132-2,132-3およびボタン133-2,133-3が設けられる。図4は評価入力画面のデザインの一例であり、操作の利便性等を鑑みて異なるデザインとしても構わない。
ステップS16において、近端話者は近端端末1のスピーカS1から出力される音声を受聴し、その音響品質を評価する。音響品質の評価は、表示部15に表示された評価入力画面において、各評価観点について、自らの主観に基づいて最も当てはまると考える評価カテゴリーを選択することで行う。図4の評価入力画面130の例であれば、「相手の声の聞き取り易さ」について最も当てはまる評価カテゴリーを選択し、そのラベル132-1に対応するボタン133-1を選択する。同様に、「雑音感」について最も当てはまる評価カテゴリーおよび「自分の声の戻り」について最も当てはまる評価カテゴリーにそれぞれ対応するボタン133-2,133-3を選択する。近端話者はすべての評価観点について評価カテゴリーを選択した後、確定ボタン134を押下する。近端端末1の入力部16は、評価入力画面130中の選択状態に従って、選択された各評価カテゴリーに割り当てられた評価値を評価値変換装置3へ送信する。評価値変換装置3は、近端端末1の入力部16から受信した各評価観点についての評価値を主観評価値取得部32へ入力する。
ステップS32において、評価値変換装置3の主観評価値取得部32は、近端端末1の入力部16から受信した各評価観点についての評価値に基づいて、音響品質に関する1つの主観評価値を決定する。具体的には、各評価観点についての評価値のうち最も低い評価値を音響品質に関する主観評価値として決定する。図4の例であれば、評価者は、「相手の声の聞き取り易さ」について「非常に聞き取りやすい」(評価値は5)、「雑音感」について「雑音がある」(評価値は3)、「自分の声の戻り」について「自分の声の戻りが少しある」(評価値は4)をそれぞれ選択しているため、主観評価値は最も低い評価値である“3”に決定する。主観評価値取得部32は、決定した主観評価値を分析部34へ出力する。
ステップS33において、評価値変換装置3の客観評価値取得部33は、録音部13から受信した評価対象音響信号と、録音部23から受信した基準音響信号とに対応する客観評価値を取得する。客観評価値は、例えば、非特許文献2に記載されたPESQ値である。PESQ値の算出処理は、評価対象音響信号と基準音響信号との時間ずれを補正する処理を含む。客観評価値取得部33は、算出した客観評価値を分析部34へ出力する。
ステップS34において、評価値変換装置3の分析部34は、主観評価値取得部32から受け取った主観評価値と、客観評価値取得部33から受け取った客観評価値との線形関係を分析する。このとき、分析に用いる主観評価値と客観評価値とを複数の評価者と複数の通話相手の様々な組み合わせによる会話から得ることで、基準音響信号や評価対象音響信号への依存性や評価者個人差への依存性を軽減するかたちで統計的に解析する。分析部34は、分析して得た線形関係を表す情報を変換部35へ設定する。ここで、線形関係を表す情報とは、所定の傾きaの直線を表す線形関数Fや、この線形関数Fを特定するパラメータ等である。
図5は、上述の方法により得た主観評価値と客観評価値との関係を表したグラフである。縦軸は会話試験による主観評価値(MOS: Mean Opinion Score)を表し、横軸は客観評価値(PESQ)を表す。ダイヤ型のマークは会話試験による測定値を表し、破線直線上の正方形のマークはそれらの線形関係に基づいた推定値(回帰分析で推定した値)を表す。この図に表すようにMOS値とPESQ値とは線形関係で近似できることがわかる。図5に示した回帰直線が表す線形関数Fは、所定の傾きaと切片bをもつ一次関数y=ax+bである。ただし、xはPESQ値を表し、yはMOS値を表す。aは1.3または1.3の近傍であり、bは-0.45または-0.45の近傍である。なお、αの近傍とは、α-δ1以上α-δ2以下の範囲に属する値を意味する。ただし、δ1, δ2は正値であり、δ12であってもよいし、δ1≠δ2であってもよい。δ1およびδ2の例は|α|の20%の値である。すなわち、aは1.04から1.56の範囲の値であり、bは-0.36から-0.54の範囲の値である。
主観評価値と客観評価値の線形関係を得るためには、主観評価値と客観評価値が同じ会話に対するものである必要がある。このとき、対象とする会話が長過ぎると主観評価値と客観評価値とが整合せず、適切な線形関係が得られない場合がある。これを回避するために、評価の対象とする会話を適切な長さに設定するとよい。適切な長さとは、例えば20秒程度としてもよいし、所望の規格に応じた長さとしてもよい。
従来の会話試験では5段階の評価カテゴリーで主観評価値を決定していたが、本実施形態では複数の評価観点それぞれについて複数の段階に分類した評価カテゴリーを用い、その最も低い評価値を主観評価値として決定した。近年ではスマートフォンや携帯電話など音響品質が低い通話環境が普及しており、音響品質が低い通話環境に慣れている評価者は音響品質に対する基準が低くなっているため、例えば相手の音声が聞き取れれば音響品質が良いなど、高い評価値を与える傾向が強い。そのため、従来の会話試験で主観評価を行った場合、高い評価値に偏り、適切な評価値が得られないという問題があった。本発明の発明者は、実施形態の音響品質評価システムのように、複数の評価観点を導入し、各評価観点で選択した評価値のうち最も低い評価値を主観評価値とすることで、この問題を回避できることを発見した。特に、ICCに係る評価は、自動車が停止している場合には雑音が少なく、走行している場合には走行音や環境雑音が多いと想定される。言い換えると、高い通話品質が想定される場合も低い通話品質が想定される場合もある。したがって、通話品質の高低によらず適切な評価値を取得する必要がある。特に上記のように評価値を構成することで、適切な主観評価値を取得できるという効果を奏することが想定される。
図6に、実施形態の音響品質評価システムによる評価試験の実験結果を示す。この試験では、4つの実験条件I~IVを設定し、各実験条件下で4名の評価者が通信相手を入れ替えながら4日間にわたって3回ずつの会話試験を行った。実験条件Iは、明らかに良い音であり、4~5の評価値が付くことが想定される(言い換えると、評価値1~2を付ける人はいないであろう)条件である。実験条件IIは、明らかに悪い音であり、1~2の評価値が付くことが想定される(言い換えると、評価値4~5を付ける人はいないであろう)条件である。実験条件IIIは、多くの人が普通と判断する音のうち比較的良い音であり、3~4の評価値が付くことが想定される(言い換えると、評価値1を付ける人はいないであろう)条件である。実験条件IVは、多くの人が普通と判断する音のうち比較的悪い音であり、2~3の評価値が付くことが想定される(言い換えると、評価値5を付ける人はいないであろう)条件である。このような実験条件それぞれで、従来の一般的な評価カテゴリー(「大変良い」「良い」「やや悪い」「悪い」「大変悪い」)と、実施形態の評価カテゴリー(3つの評価観点それぞれで5段階の評価カテゴリーを設定)とを用いて会話試験を行い、それぞれの評価値の平均を集計した。図6に示すように、実施形態の評価カテゴリーでは想定評価値の範囲内の評価値を得ることができたが、従来の評価カテゴリーでは、特に低い評価値が付くことが想定される実験条件IIやIVで、想定よりも高い評価値が付いていることがわかる。すなわち、従来の評価カテゴリーでは高い評価値を与える傾向がある評価者であっても、実施形態の評価カテゴリーを用いれば適切な評価値を得られることが、本実験により実証されたと言える。
<評価値変換処理>
以下、図7を参照して、実施形態の音響品質評価方法のうち客観評価値を主観評価値に変換する処理を説明する。なお、ステップS1からステップS33までの処理は、上述した関係分析処理と同様であるため、ここでは説明を省略する。
ステップS35において、評価値変換装置3の変換部35は、分析部34から予め設定された線形関係に基づいて、客観評価値取得部33から受け取った客観評価値を主観評価値に線形変換して主観評価値の推定値を得る。例えば、変換部35は、分析部34から予め設定された線形関数y=ax+bのxに客観評価値を代入して得られた結果を主観評価値の推定値として得る。変換部35は、得た主観評価値の推定値を評価値変換装置3の出力とする。
<変形例1>
図8に、実施形態の音響品質評価システムの変形例1を示す。変形例1の音響品質評価システムは、遠端話者が存在する音響領域と遠端端末2が存在する音響領域とが分離されていることを特徴とする。以下、実施形態の音響品質評価システムとの相違点を中心に説明する。遠端音響領域200には実施形態と同様に遠端端末2が存在するが、遠端話者は遠端音響領域200とは異なる第三音響領域300に存在する。遠端端末2が備えるスピーカS2とマイクロホンM2は実施形態と同様に遠端音響領域200に配置されるが、遠端話者の発話した音声を録音するマイクロホンM3は第三音響領域300に配置される。遠端話者はヘッドフォン等の密閉型スピーカS3を装着する。遠端音響領域200には、マイクロホンM3とオーディオケーブル等で接続されたスピーカS4と、密閉型スピーカS3とオーディオケーブル等で接続されたマイクロホンM4とが配置される。遠端端末2のスピーカS2から出力された近端話者の音声は、遠端音響領域200のマイクロホンM4により収音され、第三音響領域300の密閉型スピーカS3から放音されることで、遠端話者により聴取される。遠端話者が発話した音声は、第三音響領域300のマイクロホンM3により収音され、遠端音響領域200のスピーカS4から放音される。さらに、スピーカS4から放音された遠端話者の音声は遠端端末2のマイクロホンM2により音響信号に変換され、近端端末1のスピーカS1から放音されることで、近端話者により聴取される。このとき、客観評価に用いる評価対象音は近端端末1のスピーカS1から出力される際に録音され、基準音はマイクロホンM3に入力されたときに録音される。
実施形態のように、遠端話者側のスピーカS2と基準音を録音するためのマイクロホンM3が同じ音響領域に存在する場合、スピーカS2から出力された近端話者の音声の回り込みが基準音に重畳して録音されてしまうことや、遠端話者側の周囲騒音が基準音に重畳して録音されてしまうことがある。近端話者の音声の回り込みや周囲騒音のように遠端話者の音声信号に基づかない余計な音響信号は妨害音とも呼ばれ、基準音に妨害音が入り込んでいると客観評価値が正確に算出できない要因となる。変形例1のように、遠端話者が近端話者の音声を聴取するためのスピーカを密閉型とし、遠端端末とは異なる音響領域で基準音を録音することで、基準音に重畳する妨害音を低減することができる。これにより、より正確な客観評価値を取得することが可能となり、より適切な線形関係を得ることができる。
<変形例2>
ICCの音響品質を評価する方法について、図9を参照しながら説明する。ICCは自動車90に搭載されたマイクロホン1F,1Rとスピーカ2F,2Rを利用して、各座席に着席している人間の間で行われる会話をサポートする。例えば、マイクロホン1F(1R)で収音された音声信号は、エコーキャンセルやゲインコントロール等の信号処理をされた後、スピーカ2R(2F)から放音される。マイクロホン1は車内の座席列ごとに設置されてもよいし、座席ごとに設置されてもよい。図9に例示したように、1列目の前(例えばダッシュボード上やフロントミラー周辺)と、2列目と3列目の間(例えば中部座席と後部座席の間の床面もしくは天井面)にのみ設置されてもよい。
ICCの音響品質を評価する際には、座席間や列間で評価を行う。以下、座席間で評価を行う例として、運転席91と後部座席97との間で、評価者を用いることなく主観評価値を推定する方法を記載する。運転席91にマイクロホン3Fとスピーカ4Fを設置し、後部座席97にマイクロホン3Rとスピーカ4Rを設置する。各スピーカは座席に人間が着席した状態で口の位置に相当する位置に配置する。すなわち座席の左右中央かつ前よりに設置する。各マイクロホンは座席に人間が着席した状態で耳の位置に相当する位置に配置する。すなわち座席の前後中央かつ左よりもしくは右よりに設置する。例えば、スピーカ4Fは、評価者が運転席に着席したと想定したときに評価者の口に対応する位置に前方向へ放音する向きに設置され、マイクロホン3Fは、評価者が運転席に着席したと想定したときに評価者の左耳もしくは右耳に対応する位置に設置されることが望ましい。マイクロホンは各座席に2個以上が設置されてもよく、例えば評価者の左耳および右耳に対応する2か所に設置してもよい。
上述のようにマイクロホンとスピーカが配置された自動車90内において、予め録音された音声信号を後部座席97に設置されたスピーカ4Rから放音する。スピーカ4Rから放音された音声信号はマイクロホン1Rで収音され、エコーキャンセルやゲインコントロール等の信号処理がされた後、スピーカ2Fから放音される。スピーカ2Fから放音された音声信号は運転席91に設置されたマイクロホン3Fで収音される。予め録音された音声信号を基準音響信号とし、マイクロホン3Fで収音された音声信号を評価対象音響信号として、客観評価値を得る。こうして得られた客観評価値を予め求めた線形関数Fに基づいて変換することで、主観評価値を推定することができる。ここでは、運転席91と後部座席97の間における例を説明したが、座席や列をどのように組み合わせてもよい。
このように本発明を利用することで、ICCの品質評価を行う必要がある自動車の状況ごとに、評価者を用いることなく主観評価値を得ることができる。ここで、自動車の状況とは、自動車が停止中・走行中・走行中であれば速度の差や、窓の開閉状態、音楽等に代表される車内の雑音レベルなど、自動車に設置されたマイクロホンに収音される音に変動を与える要因を意図している。
<変形例3>
変形例2では、図2に示した音響品質評価システム10を用いてICCの音響品質を評価する方法を説明した。ここでは、評価対象音響信号が、ICCを経由して到来したものであることを想定していた。しかしながら、ICCでは、複数の音響領域が同一の自動車内に設定されるため、一方の音響領域に設置したスピーカから放音した音声信号が、ICCを経由せずに直接、他方の音響領域に設置したマイクロホンへ到来することがある。したがって、ICCの品質評価では、評価対象音響信号に他の音響経路で到来する音声信号が含まれることも想定する必要がある。また、変形例2では、第一の座席に着席した乗員から第二の座席に着席した乗員へ話しかける一方向のシングルトークを想定していた。しかしながら、ICCは自動車内における乗員同士の会話をサポートすることが目的であるため、第二の座席に着席した乗員から第一の座席に着席した乗員へも同時に話しかける双方向のダブルトークも想定する必要がある。すなわち、変形例3の音響品質評価システムでは、ICCを用いて行われる会話の一方向もしくは双方向の音声の品質を評価する。
図10に、変形例3で想定する音響経路を示す。ここでは、運転席91に近端話者(評価者)が着席し、後部座席97に遠端話者(通話相手)が着席することを想定する。図10に示す点線は、変形例2で想定した音響経路であり、スピーカ4Rから放音された基準音響信号が、ICCを経由してマイクロホン3Fに到来する音響経路である。図10に示す一点鎖線は、直接音の音響経路であり、スピーカ4Rから放音された基準音響信号が、ICCを経由せずに直接、マイクロホン3Fに到来する音響経路である。図10に示す破線は、ダブルトークを想定した音響経路であり、スピーカ4Fから放音された音声信号が、ICCを経由してスピーカ2Rから放音され、マイクロホン3Fに到来する音響経路である。ダブルトークを想定した音響経路では、スピーカ2Fから放音された音声信号がマイクロホン1Fで収音されることで発生するエコーを消し漏らした成分がスピーカ2Rから放音されることも想定する。
変形例3の音響品質評価システム20は、図11に示すように、実施形態の音響品質評価システム10において、遠端端末2が2つの模擬部25,26をさらに備え、評価値変換装置3が加算部36をさらに備える。模擬部25は、録音部23の出力する音響信号を入力とし、直接音の音響経路の伝達特性を反映するための所定の信号処理を施した模擬音響信号を評価値変換装置3へ送信する。模擬部26は、受話部22の出力する音響信号を入力とし、ダブルトークを想定した音響経路の伝達特性を反映するための所定の信号処理を施した模擬音響信号を評価値変換装置3へ送信する。評価値変換装置3は、録音部23から受信した音響信号と、模擬部25から受信した模擬音響信号と、模擬部26から受信した模擬音響信号とを加算部36へ入力する。加算部36は、入力された3つの音響信号を加算した音響信号を、評価対象音響信号として客観評価値取得部33へ入力する。客観評価値取得部33により取得された客観評価値は、そのまま評価値変換装置3の出力としてもよいし、変換部35により前述した線形変換を施して主観評価値の推定値を取得してもよい。
模擬部25,26は、音響信号や音声信号が入力されると、それぞれが対応する音響経路の伝達特性を反映する変換処理が行われた変換信号を出力する。この変換処理は、あらかじめ取得された座席間の伝達特性を反映させる信号処理でもよいし、座席間の距離や車内の雑音を考慮した信号減衰器(アッテネータ)のようなハードウェアでもよい。また、模擬部25,26は、空間中の音の伝搬速度を考慮して信号を遅延させる遅延器と組み合わせてもよい。自動車の座席間の距離が遅延差を無視できる程度であれば遅延器を用いず、前述したような伝達特性を反映する変換処理のみを行ってもよい。模擬部25と模擬部26は音響経路の伝達特性を反映するという点で共通の機能を持つ。そのため、それぞれが対応する音響経路の伝達特性が等しい(もしくは類似している)場合は、1個の模擬部のみを備えてそれぞれの入力信号に対して同じ変換処理を行うように構成してもよい。
変形例3の音響品質評価システム20は、近端音響領域と遠端音響領域とが同一の空間に存在することで発生する音響経路を模擬した成分を評価対象音響信号に含めて音響品質の評価を行う。このように構成することにより、例えば、同一の自動車内での会話をサポートするICCの品質評価を、高精度に行うことができる。
<変形例4>
図2に示した音響品質評価システム10や図9に示した音響品質評価システム20を用いてICCの音響品質を評価する場合、自動車内のすべての座席の組み合わせで評価を行う必要がある。しかしながら、同じ列にある座席間では音響的な条件が類似することが想定されるため、ある座席で取得した評価値を、その座席と同じ列の他の座席の評価値として利用してもよい。例えば、図1に例示した3列に座席が配置された自動車90内での評価を想定した場合、運転席91と後部座席97との間で取得した評価値を、運転席91と後部座席95との間、運転席91と後部座席96との間、助手席92と後部座席95との間、助手席92と後部座席96との間、および助手席92と後部座席97との間、それぞれの評価値として用いることができる。これにより、実際に評価値を取得する座席の組み合わせが少なくなり、音響品質評価試験に必要なコストを低減することができる。
変形例4の音響品質評価システム30は、図12に示すように、実施形態の音響品質評価システム10において、評価値変換装置3が評価値再利用部37をさらに備える。変形例4の構成は変形例3へ適用することも可能である。すなわち、図11に示す変形例3の音響品質評価システム20において、図12と同様にして、評価値変換装置3が評価値再利用部37をさらに備えてもよい。
評価値再利用部37は、異なる音響領域に属する第一の座席と第二の座席との間で取得した主観評価値の推定値を、変換部35から受け取る。このとき、音響領域は自動車内の座席の列ごとに設定されていることを想定する。例えば、図1に例示した自動車90内での評価に用いる場合、運転席91と助手席92は第一の音響領域に属し、中部座席93,94は第二の音響領域に属し、後部座席95,96,97は第三の音響領域に属するように設定する。評価値再利用部37は、その主観評価値の推定値を、第一の座席と同じ音響領域に属するいずれかの座席と第二の座席と同じ音響領域に属するいずれかの座席との間(ただし、第一の座席と第二の座席との間を除く)で行われる会話の評価値として取得する。例えば、図1に例示した自動車90内で、すでに運転席91と後部座席97との間で主観評価値の推定値を取得済みであれば、その主観評価値の推定値を、運転席91と後部座席95,96のいずれかとの間、または、助手席92と後部座席95,96,97のいずれかとの間の主観評価値の推定値として取得する。
変形例4において、実際に評価値を取得する座席の組み合わせは、最も距離が離れた座席間であることが望ましい。例えば、図1に例示した自動車90であれば、運転席91と後部座席97との間、もしくは、助手席92と後部座席95との間で実際に評価を行うとよい。ただし、変形例4の構成は、最も距離が離れた(すなわち、最も条件が悪い)座席の組み合わせで実際に評価を行う場合に限定されるものではなく、距離が近い(すなわち、比較的条件が良い)座席間で実際の評価を行った場合でも有効である。
変形例4の構成は、自動車内に配置されるスピーカおよびマイクロホンが、自動車の直進方向を軸として左右対称に配置される場合に、特に有効である。例えば、図13に示すように、自動車90の直進方向の中心線に沿って、各列の中央にマイクロホン1A,1B,1Cとスピーカ2A,2B,2Cを配置すればよい。また、例えば、図14Aに示すように、自動車90の直進方向の中心線に沿って、各列の中央にマイクロホン1A,1B,1Cを配置し、各座席につき2個のスピーカを左右両端後ろ寄りに配置すればよい(例えば、運転席91なら右側後方にスピーカ2A1を、左側後方にスピーカ2A2を配置している)。また、例えば、図14Bに示すように、自動車90の直進方向の中心線に沿って、各列の中央にマイクロホン1A,1B,1Cを配置し、各列の左右両端前寄りに1個ずつのスピーカを配置すればよい(例えば、1列目なら右側窓際前方にスピーカ2A1を、左側窓際前方にスピーカ2A2を配置している)。ただし、変形例4の構成は、スピーカとマイクロホンを左右対称に配置した場合に限定されるものではなく、左右対称ではない配置とした場合でも有効である。
<変形例5>
変形例3で示したような、ダブルトークが行われた際の評価の適切性を判定する手法について説明する。
運転席91に近端話者が着席し、後部座席97に遠端話者が着席することを想定した際に、ダブルトークを行った時における音響経路のうち、後部座席97に配置されたスピーカ4Rから放音された音響信号がマイクロホン1Rに集音され、前述したようなエコーキャンセルやハウリング抑圧のような信号処理を施し、スピーカ2Fから放音される信号(以下、「遠端話者信号」と記載する)が通る音響経路と、運転席91に配置されたスピーカ4Fから放音された音響信号がマイクロホン1Fに収音され、前述したようなエコーキャンセルやハウリング抑圧のような信号処理を施し、スピーカ2Rから放音される信号(以下、「近端話者信号」と記載する)が通る音響経路について注目する。ダブルトークが行われる際、例えばスピーカ2Fから放音された遠端話者信号がマイクロホン1Fに収音され、エコーが発生する場合がある。前述するように音響品質評価システムはこの際に行われるエコーキャンセルの精度も評価の対象とするが、より適切に評価するためにはスピーカ2Fから放音された遠端話者信号の音圧も考慮されるべきである。例えば、スピーカ2Fから発せられた音響信号がマイクロホン1Fに到来するまでに減衰することを考慮すると、スピーカ2Fから弱い音圧で遠端話者信号が放音された方が高く評価されてしまう。つまり、音圧が不適切であった場合に得られた評価値は適切とは言えない。
そこで、図示しない音圧測定部と適切性判定部を追加し、音圧測定部で音圧を測定し、スピーカ2Fから放音される音圧が所定の閾値以上である場合に得られた評価値のみ適切な評価であると判定してもよい。音圧が所定の閾値以下である場合、音圧が所定の閾値以上になるように制御する音圧制御部をさらに備えてもよい。この閾値は、例えば電話会議装置の評価を行う際に用いられる64~70dbsplの値を用いてもよいし、評価対象とする自動車毎に、例えばスピーカ2Fとマイクロホン1Fと運転席91それぞれの距離若しくは伝達特性に基づいて設計してもよい。
なお、遠端話者信号がエコーの要因となる例を説明したが、近端話者信号がエコーの要因となる場合にも本変形例を用いてもよい。
さらに、遠端話者信号自体の適切性を判定するようにしてもよい。すなわち、スピーカ4Rから放音されマイクロホン1Rに収音された音響信号と、スピーカ2Fから放音される前の音響信号2つの間で客観評価を行い、所定の値以上であった場合の評価のみ適切であると判定してもよい。客観評価にかえ、単に二乗誤差のような指標値を用いてもよい。
なお、本変形例の実装においては、変形例3のようにスピーカ4Rや4Fから放音された音響信号にかえて、配置された人間(話者と評価者)から発せられた音声信号を用いてもよい。この場合、主観評価値を取得することができるため、主観評価値と客観評価値に基づいた変換は不要であることは言うまでもない。
上述の実施形態および変形例の音響品質評価システムによれば、客観評価値を主観評価値へ変換するための線形関係を得られるだけの最低限の会話試験を行えばよく、少ない回数の会話試験により拡声系通信システムの品質評価を行うことが可能となる。また、線形関係が既知であれば会話試験を行うことなく品質評価を行うことができる。特に、ICCのように利用状況や通信経路が多様となる拡声系通信システムではテストケースが膨大になることが想定されるが、少ない回数の会話試験もしくは会話試験を行うことなく品質評価を行うことができ、品質評価に要するコストが低減することが期待できる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 複数の音響領域のいずれかに属する少なくとも3つの座席を有する自動車内において座席間で行われる会話の品質を評価する評価方法であって、
    前記音響領域ごとに少なくとも1個のスピーカと1個のマイクロホンとが配置され、
    第一の音響領域に配置された第一のマイクロホンにより収音された音声信号が第二の音響領域に配置された第二のスピーカから放音され、
    第一評価値取得部が、前記第一の音響領域に属する第一の座席の音源から発せられた第一音声信号が前記第一のマイクロホンにより収音され前記第二のスピーカから放音された音声信号と、前記第一音声信号が前記自動車内の空間を伝達して前記第二の音響領域に属する第二の座席に到来した音声信号とを加算した音声信号を評価対象音とし、前記第一音声信号を基準音として、前記第一の座席と前記第二の座席の間で行われる会話の評価値である第一評価値を取得し、
    第二評価値取得部が、前記第一の座席と前記第二の座席の間を除く前記第一の音響領域に属するいずれかの座席と前記第二の音響領域に属するいずれかの座席の間で行われる会話の評価値として前記第一評価値を取得する、
    評価方法。
  2. 請求項1に記載の評価方法であって、
    前記音響領域は、前記自動車における座席の列ごとに設定されている、
    評価方法。
  3. 請求項2に記載の評価方法であって、
    前記音響領域は、スピーカおよびマイクロホンのいずれかまたは両方が前記自動車の直進方向に対して左右対称に配置されている、
    評価方法。
  4. 複数の音響領域のいずれかに属する少なくとも3つの座席を有する自動車内において座席間で行われる会話の品質を評価する評価装置であって、
    前記音響領域ごとに少なくとも1個のスピーカと1個のマイクロホンとが配置され、
    第一の音響領域に配置された第一のマイクロホンにより収音された音声信号が第二の音響領域に配置された第二のスピーカから放音され、
    前記第一の音響領域に属する第一の座席の音源から発せられた第一音声信号が前記第一のマイクロホンにより収音され前記第二のスピーカから放音された音声信号と、前記第一音声信号が前記自動車内の空間を伝達して前記第二の音響領域に属する第二の座席に到来した音声信号とを加算した音声信号を評価対象音とし、前記第一音声信号を基準音として、前記第一の座席と前記第二の座席の間で行われる会話の評価値である第一評価値を取得する第一評価値取得部と、
    前記第一の座席と前記第二の座席の間を除く前記第一の音響領域に属するいずれかの座席と前記第二の音響領域に属するいずれかの座席の間で行われる会話の評価値として前記第一評価値を取得する第二評価値取得部と、
    を有する評価装置。
  5. 請求項4に記載の評価装置としてコンピュータを機能させるためのプログラム。
JP2021574356A 2020-01-30 2020-01-30 評価方法、評価装置、およびプログラム Active JP7310939B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/003338 WO2021152759A1 (ja) 2020-01-30 2020-01-30 評価方法、評価装置、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021152759A1 JPWO2021152759A1 (ja) 2021-08-05
JP7310939B2 true JP7310939B2 (ja) 2023-07-19

Family

ID=77078797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021574356A Active JP7310939B2 (ja) 2020-01-30 2020-01-30 評価方法、評価装置、およびプログラム

Country Status (3)

Country Link
US (1) US20230076338A1 (ja)
JP (1) JP7310939B2 (ja)
WO (1) WO2021152759A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11749297B2 (en) * 2020-02-13 2023-09-05 Nippon Telegraph And Telephone Corporation Audio quality estimation apparatus, audio quality estimation method and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017038727A1 (ja) 2015-08-28 2017-03-09 旭化成株式会社 伝達装置、伝達システム、伝達方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6163468B2 (ja) * 2014-08-25 2017-07-12 日本電信電話株式会社 音響品質評価装置、音響品質評価方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017038727A1 (ja) 2015-08-28 2017-03-09 旭化成株式会社 伝達装置、伝達システム、伝達方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2021152759A1 (ja) 2021-08-05
US20230076338A1 (en) 2023-03-09
WO2021152759A1 (ja) 2021-08-05

Similar Documents

Publication Publication Date Title
JP6266849B1 (ja) 共有された音響空間における強められた会話のコミュニケーションに関するフィードバックキャンセレーション
US11297178B2 (en) Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
JP6163468B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
JP7238978B2 (ja) 評価装置、評価方法、およびプログラム
JP6571623B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
JP7310939B2 (ja) 評価方法、評価装置、およびプログラム
WO2020017284A1 (ja) 集音拡声装置、その方法、およびプログラム
JP6363429B2 (ja) データ構造、データ生成装置、データ生成方法、およびプログラム
WO2020027061A1 (ja) 会話サポートシステム、その方法、およびプログラム
US7515703B1 (en) Method and system for determining conference call embellishment tones and transmission of same
JP7184173B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
JP7184174B2 (ja) データ補正装置、データ補正方法、およびプログラム
JPH09130306A (ja) 拡声通話装置およびエコーキャンセラ
Müsch Subjective rating and PESQ prediction of listener echo and duplex impairments
Möller et al. Extending the e-model for capturing noise reduction and echo canceller impairments
JP6126053B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
Kurihara et al. Subjective Quality Estimation Using PESQ For Hands-Free Terminals
JP6594840B2 (ja) 音響品質評価装置、音響品質評価方法、データ構造、およびプログラム
Möller et al. Prediction of Background Noise Degradations in Fullband Speech Communication Scenarios
Rumsey Sound field control
Gierlich Car Hands-Free Testing and Optimization: An Overview
Gros et al. The impact of real environments on transmitted speech quality judgments
Maebashi et al. Aural effects of an acoustic echo canceller with shorter tap length than reverberation time

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220727

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20220727

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230619

R150 Certificate of patent or registration of utility model

Ref document number: 7310939

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150