JP2005531990A

JP2005531990A - 音声品質を評価する方法

Info

Publication number: JP2005531990A
Application number: JP2004517987A
Authority: JP
Inventors: ドー−スクキム，
Original assignee: ルーセントテクノロジーズインコーポレーテッド; ドー−スクキム，
Priority date: 2002-07-01
Filing date: 2003-06-27
Publication date: 2005-10-20
Anticipated expiration: 2023-06-27
Also published as: WO2004003499A3; JP4301514B2; EP1518096A2; CN1307611C; WO2004003499A2; AU2003253742A8; CN1550000A; US20040002857A1; KR20050012712A; US7308403B2; AU2003253742A1; KR101052432B1; EP1518096B1

Abstract

【課題】音声品質評価される音声信号をひずませることによって、表音内容、話し方、または個々の話者の相違を説明する客観的音声品質評価の方法を提供すること。
【解決手段】音声信号のひずんだバージョンを使用することによって、音声品質を評価するときに、異なる表音内容、異なる個々の話者、および異なる話し方を補償することが可能である。音声信号をひずませることによって客観的音声品質評価が低下する量は、具体的には音声信号のひずんだバージョンのひずみの量が厳密であるとき、異なる音声信号について同様に維持される。ひずんだ音声信号と当初のひずんでいない音声信号との客観的音声信号評価を比較して、発声依存明瞭度を補償する音声品質評価を得る。

Description

本発明は、一般に、通信システムに関し、具体的には、音声品質評価に関する。

無線通信システムの性能は、とりわけ、音声品質の観点から測定することができる。当技術分野では、音声品質を評価する２つの技法が存在する。第１の技法は、主観的技法である（これ以後「主観的音声品質評価」と呼ぶ）。主観的音声品質評価では、聴取者を使用して、処理された音声の音声品質を評価する。この場合、処理された音声は、受信器において処理された伝送後の音声信号である。この技法は、個人の知覚に基づくので主観的であり、人間による音声品質評価は、通常、表音内容、話し方、または個々の話者の相違を考慮に入れる。主観的音声品質評価は、コストがかかり、時間がかかることがある。

第２の技法は、客観的技法である（これ以後「客観的音声品質評価」と呼ぶ）。客観的音声品質評価は、個人の知覚に基づいていない。ほとんどの客観的音声品質評価の技法は、既知の元の音声、または処理された音声から推定された、再構築された元の音声に基づく。しかし、これらの客観的技法は、表音内容、話し方、または個々の話者の相違を考慮に入れない。

したがって、表音内容、話し方、または個々の話者の相違を考慮に入れて客観的に音声品質を評価することが求められている。

本発明は、音声品質評価される音声信号をひずませることによって、表音内容、話し方、または個々の話者の相違を明らかにする客観的音声品質評価の方法である。音声信号のひずんだバージョンを使用することによって、音声品質を評価する際に、異なる表音内容、異なる個々の話者、および異なる話し方を補償することが可能である。音声信号をひずませることによって客観的音声品質評価が低下する量は、特に音声信号のひずんだバージョンのひずみ量が厳密であるとき、異なる音声信号について同様に維持される。発声に依存する明瞭度について補償された音声品質評価を得るために、ひずんだ音声信号についての客観的音声品質評価と元のひずんでいない音声信号についての客観的音声品質評価とを比較する。一実施形態では、比較は、ひずんだ音声信号とひずんでいない音声信号との客観的音声品質評価の相違に相当する。
本発明の特徴、態様、および利点は、以下の記述、添付の請求項、および付随する図面に関してより良く理解されるであろう。

本発明は、処理された音声をひずませることによって、表音内容、話し方、または個々の話者の相違を明らかにする客観的音声品質評価方法である。客観的音声品質評価は、同じ主観的音声品質スコアを有する異なる音声信号について異なる値をもたらす傾向がある。これらの値が異なる理由は、変調スペクトル領域におけるスペクトル内容の分布が異なるためである。処理された音声信号のひずんだバージョンを使用することによって、異なる表音内容、異なる個々の話者、および異なる話し方を補償することが可能である。音声信号をひずませることによって客観的音声品質評価が低下する量は、特にひずみが厳密であるとき、異なる音声信号について同様に維持される。発声に依存明瞭度について補償された音声品質評価を得るために、ひずんだ音声信号と元のひずんでいない音声信号との客観的音声信号評価を比較する。

図１は、本発明による発声依存明瞭度を補償する客観的音声品質評価構成１０を示す。客観的音声品質評価構成１０は、複数の客観的音声品質評価モジュール１２、１４と、ひずみモジュール１６と、発声固有バイアス補償モジュール１８とを備える。音声信号ｓ（ｔ）が、入力としてひずみモジュール１６および客観的音声品質評価モジュール１２に提供される。ひずみモジュール１６において、音声信号ｓ（ｔ）をひずませて、変調雑音基準単位（ｍｏｄｕｌａｔｅｄＮｏｉｓｅＲｅｆｅｒｅｎｃｅＵｎｉｔＭＮＲＵ）音声信号ｓ’（ｔ）を生成する。すなわち、ひずみモジュール１６は、入力信号ｓ（ｔ）の雑音バージョンを生成する。次いで、ＭＮＲＵ音声信号ｓ’（ｔ）は、入力として客観的音声品質評価モジュール１４に提供される。

客観的音声品質評価モジュール１２、１４において、音声信号ｓ（ｔ）およびＭＮＲＵ音声信号ｓ’（ｔ）を処理して、客観的音声品質評価ＳＱ（ｓ（ｔ））およびＳＱ（ｓ’（ｔ））を得る。客観的音声品質評価モジュール１２、１４は、あらゆる入力音声信号に対して実施される処理のタイプについて本質的に同一である。すなわち、両方の客観的音声品質評価モジュール１２、１４が、同じ入力音声信号を受信する場合、両方のモジュール１２、１４の出力信号は、ほぼ同一である。他の実施形態では、客観的音声品質評価モジュール１２、１４は、互いに異なる方式で音声信号ｓ（ｔ）およびｓ’（ｔ）を処理することが可能であることに留意されたい。客観的音声信号評価モジュールは、当技術分野では周知である。そのようなモジュールの例について、以下で記述する。

次いで、客観的音声品質評価ＳＱ（ｓ（ｔ））とＳＱ（ｓ’（ｔ））とを比較して、発声依存明瞭度を補償する音声品質評価ＳＱ_{ｃｏｍｐｅｎｓａｔｅｄ}を獲得する。一実施形態では、音声品質評価ＳＱ_{ｃｏｍｐｅｎｓａｔｅｄ}は、客観的音声品質評価ＳＱ（ｓ（ｔ））とＳＱ（ｓ’（ｔ））との相違を使用して決定される。たとえば、ＳＱ_{ｃｏｍｐｅｎｓａｔｅｄ}は、ＳＱ（ｓ（ｔ））からＳＱ（ｓ’（ｔ））を減算したもの、またはＳＱ（ｓ’（ｔ））からＳＱ（ｓ（ｔ））を減算したものに等しい。他の実施形態では、音声品質評価ＳＱ_{ｃｏｍｐｅｎｓａｔｅｄ}は、客観的音声品質評価ＳＱ（ｓ（ｔ））とＳＱ（ｓ’（ｔ））との比に基づいて決定される。たとえば、

であり、上式で、μは、小さい一定値である。

前述したように、客観的音声品質評価モジュール１２、１４は、当技術分野では周知である。図２は、本発明による音声の聴覚明瞭度分析モジュールを使用する客観的音声品質評価モジュール１２、１４の実施形態２０を示す。図２に示すように、客観的品質評価モジュール２０は、蝸牛フィルタバンク２２と、包絡線分析モジュール２４と、明瞭度分析モジュール２６とを備える。客観的品質評価モジュール２０において、音声信号ｓ（ｔ）が、入力として蝸牛フィルタバンク２２に提供される。蝸牛フィルタバンク２２は、周辺聴覚システムの第１段階に従って音声信号ｓ（ｔ）を処理するための複数の蝸牛フィルタｈ_ｉ（ｔ）を備える。ここでｉ＝１，２，・・・，Ｎ_ｃは、特定の蝸牛フィルタ・チャネルを表し、Ｎ_ｃは、蝸牛フィルタ・チャネルの全数を表す。具体的には、蝸牛フィルタバンク２２は、複数の臨界帯域信号ｓ_ｉ（ｔ）を生成するように音声信号ｓ（ｔ）をろ波する。臨界帯域信号ｓ_ｉ（ｔ）は、ｓ（ｔ）とｈ_ｉ（ｔ）との積に等しい。

複数の臨界帯域信号ｓ_ｉ（ｔ）は、入力として包絡線分析モジュール２４に提供される。包絡線分析モジュール２４において、複数の臨界帯域信号ｓ_ｉ（ｔ）を処理して、複数の包絡線ａ_ｉ（ｔ）を得る。ここで、

であり、

は、ｓ_ｉ（ｔ）のヒルベルト変換である。

次いで、複数の包絡線ａ_ｉ（ｔ）は、入力として明瞭度分析モジュール２６に提供される。明瞭度分析モジュール２６において、複数の包絡線ａ_ｉ（ｔ）を処理して、音声信号ｓ（ｔ）の音声品質評価を得る。具体的には、明瞭度分析モジュール２６は、人間の明瞭発音システムから生成された信号に関連付けられた電力（これ以後「明瞭発音電力Ｐ_Ａ（ｍ，ｉ）」と呼ぶ）を、人間の明瞭発音システムから生成されない信号に関連付けられた電力（これ以後「非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）」と呼ぶ）と比較する。次いで、そのような比較を使用して、音声品質評価を実施する。

図３は、明瞭度分析モジュール２６において、本発明の一実施形態による複数の包絡線ａ_ｉ（ｔ）を処理するためのフローチャート３００を示す。工程３１０において、複数の包絡線ａ_ｉ（ｔ）のそれぞれのフレームｍに対してフーリエ変換を実施して、変調スペクトルＡ_ｉ（ｍ，ｆ）を生成する。ｆは周波数である。

図４は、電力対周波数の観点から変調スペクトルＡ_ｉ（ｍ，ｆ）を示す例４０である。例４０では、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）は、周波数２〜１２．５Ｈｚに関連付けられた電力であり、非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）は、１２．５Ｈｚより高い周波数に関連付けられた電力である。２Ｈｚ未満の周波数に関連する電力Ｐ_Ｎ０（ｍ，ｉ）は、臨界帯域信号ａ_ｉ（ｔ）のフレームｍのＤＣ成分である。この例では、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）は、人間の明瞭発音速度が２〜１２．５Ｈｚであるということに基づいて、周波数２〜１２．５Ｈｚに関連付けられた電力として選択される。明瞭発音電力Ｐ_Ａ（ｍ，ｉ）に関連付けられた周波数範囲と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）に関連付けられた周波数範囲（これ以後それぞれ「明瞭発音周波数範囲」および「非明瞭発音周波数範囲」と呼ぶ）とは、隣接する重複しない周波数範囲である。本願の目的のため、「明瞭発音電力Ｐ_Ａ（ｍ，ｉ）」という用語は、人間が明瞭な発音の周波数範囲または上述した周波数範囲２〜１２．５Ｈｚに限定すべきではないことを理解されたい。同様に、「非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）」という用語は、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）に関連付けられた周波数範囲より高い周波数範囲に限定すべきではない。非明瞭発音周波数範囲は、明瞭発音周波数範囲と重複するまたはしない可能性があり、もしくは明瞭発音周波数範囲と隣接するまたはしない可能性がある。非明瞭発音周波数の範囲は、臨界帯域信号ａ_ｉ（ｔ）のフレームｍのＤＣ成分に関連付けられた周波数など、明瞭発音周波数範囲の最低周波数より小さい周波数を含む可能性もある。

工程３２０において、各変調スペクトルＡ_ｉ（ｍ，ｆ）について、明瞭度分析モジュール２６は、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）との比較を実施する。明瞭度分析モジュール２６のこの実施形態では、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）との比較は、明瞭発音対非明瞭発音の比ＡＮＲ（ｍ，ｉ）である。ＡＮＲは、以下の式によって定義される。

上式で、εは、ある程度小さい一定値である。明瞭発音電力Ｐ_Ａ（ｍ，ｉ）と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）との他の比較が可能である。たとえば、比較は、式（１）の逆数とすることが可能であり、または、比較は、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）との差とすることが可能である。議論を簡単にするために、フローチャート３００によって示した明瞭度分析モジュール２６の実施形態について、式（１）のＡＮＲ（ｍ，ｉ）を使用する比較に関して議論する。しかし、これは決して、本発明を限定すると解釈すべきではない。

工程３３０において、ＡＮＲ（ｍ，ｉ）を使用して、フレームｍについて局部音声品質ＬＳＱ（ｍ）を決定する。局部音声品質ＬＳＱ（ｍ）は、ＤＣ成分電力Ｐ_Ｎ０（ｍ，ｉ）に基く重み付けファクタＲ（ｍ、ｉ）と、すべてのチャネルｉにわたる明瞭発音対非明瞭発音の比ＡＮＲ（ｍ，ｉ）を使用して決定される。具体的には、局部音声品質ＬＳＱ（ｍ）は、以下の式を使用して決定される。

上式で

であり、ｋは、周波数インデックスである。

工程３４０において、音声信号ｓ（ｔ）の全音声品質ＳＱが、フレームｍについての局部音声品質ＬＳＱ（ｍ）および対数電力Ｐ_ｓ（ｍ）を使用して決定される。具体的には、音声品質ＳＱは、以下の式を使用して決定される。

上式で、

であり、ＬはＬ_ｐノルム（ｎｏｒｍ）、Ｔは音声信号ｓ（ｔ）におけるフレームの全数、λは任意の値、Ｐ_ｔｈは、可聴信号と沈黙とを識別する閾値である。一実施形態では、λは奇数値であることが好ましい。

明瞭度分析モジュール２６の出力は、すべてのフレームｍにわたる音声品質ＳＱの評価である。すなわち、音声品質ＳＱは、音声信号ｓ（ｔ）に対する音声品質評価である。
本発明について、ある実施形態を参照してかなり詳細に記述してきたが、他の形態も可能である。したがって、本発明の精神および範囲は、本明細書に包含される実施形態の記述に限定すべきではない。

本発明による発声依存明瞭度を補償する客観的音声品質評価構成を示す図である。本発明による音声の聴覚明瞭度分析モジュールを使用する客観的音声品質評価の実施形態を示す図である。明瞭度分析モジュールにおいて、本発明の一実施形態による複数の包絡線ａ_ｉ（ｔ）を処理するためのフローチャートである。電力対周波数の観点から、変調スペクトルＡ_ｉ（ｍ，ｆ）を例示する図である。

Claims

音声品質を評価する方法であって、
第１音声信号および第２音声信号についての第１音声品質評価および第２音声品質評価を決定する工程であって、前記第１音声信号が、前記第２音声信号のひずんだバージョンである工程と、
前記第１音声品質と前記第２音声品質とを比較して、補償された音声品質評価を得る工程とを含む方法。
前記第１音声品質評価および前記第２音声品質評価を決定する前に、前記第２音声信号をひずませて、前記第１音声信号を生成する工程をさらに含む、請求項１に記載の方法。
前記第１音声品質および前記第２音声品質が、客観的音声品質評価のための同一技法を使用して評価される、請求項１に記載の方法。
前記補償された音声品質評価が、前記第１音声品質と前記第２音声品質との差に相当する、請求項１に記載の方法。
前記補償された音声品質評価が、前記第１音声品質と前記第２音声品質との比に相当する、請求項１に記載の方法。
前記第１音声品質および前記第２音声品質が、音声の聴覚明瞭度分析を使用して評価される、請求項１に記載の方法。
前記第２音声品質または前記第１音声品質を評価する工程が、
前記音声信号またはひずんだ音声信号について明瞭発音電力と非明瞭発音電力とを比較する工程であって、明瞭発音電力および非明瞭発音電力が、前記音声信号または前記ひずんだ音声信号の明瞭発音周波数に関連付けられた電力および非明瞭発音周波数に関連付けられた電力である工程と、
前記比較に基づいて、前記第２音声品質または前記第１音声品質を評価する工程とを含む、請求項１に記載の方法。
前記明瞭発音周波数が、約２〜１２．５Ｈｚである、請求項７に記載の方法。
前記明瞭発音周波数が、人間の明瞭発音速度にほぼ対応する、請求項７に記載の方法。
前記非明瞭発音周波数が、明瞭発音周波数よりおおよそ高い、請求項７に記載の方法。
前記明瞭発音電力と前記非明瞭発音電力との前記比較が、前記明瞭発音電力と前記非明瞭発音電力との比である、請求項７に記載の方法。
前記比が、前記明瞭発音電力および小さい定数を含む分母と、前記非明瞭発音電力と小さい定数との和を含む分子とを含む、請求項１０に記載の方法。
前記明瞭発音電力と前記非明瞭発音電力との比較が、前記明瞭発音電力と前記非明瞭発音電力との差である、請求項７に記載の方法。
前記第１音声品質または前記第２音声品質を評価する工程が、
前記比較を使用して局部音声品質を決定する工程を含む、請求項７に記載の方法。
前記局部音声品質が、ＤＣ成分電力に基づく重み付けファクタを使用してさらに決定される、請求項７に記載の方法。
前記第１音声品質または前記第２音声品質が、前記局部音声品質を使用して決定される、請求項９に記載の方法。
明瞭発音電力と非明瞭発音電力とを比較する前記工程が、
複数の臨界帯域信号から得られた複数の包絡線のそれぞれに対してフーリエ変換を実施する工程を含む、請求項７に記載の方法。
明瞭発音電力と非明瞭発音電力とを比較する前記工程が、
複数の臨界帯域信号を得るために、前記音声信号をろ波する工程を含む、請求項７に記載の方法。
明瞭発音電力と非明瞭発音電力とを比較する前記工程が、
複数の変調スペクトルを得るために、前記複数の臨界帯域信号について包絡線分析を実施する工程を含む、請求項１８に記載の方法。
明瞭発音電力と非明瞭発音電力とを比較する前記工程が、
前記複数の変調スペクトルのそれぞれに対してフーリエ変換を実施する工程を含む、請求項１８に記載の方法。