JP4551215B2

JP4551215B2 - 音声の聴覚明瞭度分析を実施する方法

Info

Publication number: JP4551215B2
Application number: JP2004517988A
Authority: JP
Inventors: ドー−スクキム，
Original assignee: アルカテル−ルーセントユーエスエーインコーポレーテッド; ドー−スクキム，
Priority date: 2002-07-01
Filing date: 2003-06-27
Publication date: 2010-09-22
Anticipated expiration: 2023-06-27
Also published as: KR20050012711A; AU2003253743A1; KR101048278B1; EP1518223A1; WO2004003889A1; US7165025B2; CN1550001A; US20040002852A1; JP2005531811A

Description

本発明は、一般に、通信システムに関し、具体的には、音声品質評価に関する。

無線通信システムの性能は、とりわけ、音声品質の観点から測定することができる。当技術分野では、主観的音声品質評価が、最も信頼性がありかつ一般に許容された音声の品質を評価するための方法である。主観的音声品質評価では、聴取者を使用して、処理された音声の音声品質を評価する。この場合、処理された音声とは、受信器において復号されるなどして、処理された伝送音声信号である。この技法は、個々の人間の知覚に基づくので主観的である。しかし、主観的音声品質評価は、統計的に信頼性のある結果を得るために、十分に多数の音声サンプルおよび聴取者を必要とするので、コストがかかり、時間がかかる技法である。

客観的音声品質評価は、音声品質を評価するもう１つの技法である。主観的音声品質評価とは異なり、客観的音声品質評価は、個人の知覚に基づいていない。客観的音声品質評価は、２つのタイプの一方とすることが可能である。客観的音声品質評価の第１のタイプは、既知の元の音声に基づく。客観的音声品質評価のこの第１のタイプでは、移動局が、既知の元の音声から符号化するなどして、導出された音声信号を送信する。送信された音声信号は、受信され、処理され、その後記録される。音声品質知覚評価（ＰＥＳＱ）などの周知の音声評価技法を使用して、処理されて記録された音声信号を既知の元の音声と比較し、音声品質を決定する。元の音声信号が既知でない場合、または送信音声信号が既知の元の音声から導出されていない場合、客観的音声品質評価のこの第１のタイプを使用することはできない。

客観的音声品質評価の第２のタイプは、既知の元の音声に基づいていない。客観的音声品質評価のこの第２のタイプのほとんどの実施形態は、処理された音声から元の音声を推定し、次いで、周知の音声評価技法を使用して、推定された元の音声を処理された音声と比較する。しかし、処理された音声中のひずみが増大するにつれて、推定された元の音声の品質が低下し、客観的音声品質評価の第２のタイプのこれらの実施形態の信頼性は低下する。

したがって、既知の元の音声または推定された元の音声を使用しない客観的音声品質評価技法が求められている。

本発明は、音声品質評価に使用する音声の聴覚明瞭度分析技法である。本発明の明瞭度分析技法は、音声信号の明瞭発音周波数範囲に関連付けられた電力と非明瞭発音周波数範囲に関連付けられた電力との比較に基づく。元の音声も元の音声の推定も、明瞭度分析では使用されない。明瞭度分析は、音声信号の明瞭発音電力と非明瞭発音電力とを比較する工程と、比較に基づいて音声品質を評価する工程とを含み、明瞭発音電力および非明瞭発音電力は、音声信号の明瞭発音周波数範囲に関連付けられた電力および非明瞭発音周波数範囲に関連付けられた電力である。一実施形態では、明瞭発音電力と非明瞭発音電力との比較は、比であり、明瞭発音電力は、２〜１２．５Ｈｚの周波数に関連付けられた電力であり、非明瞭発音電力は、１２．５Ｈｚより高い周波数に関連付けられた電力である。
本発明の特徴、態様、および利点は、以下の記述、添付の請求項、および付随する図面に関してより良く理解されるであろう。

本発明により、既知の元の音声または推定された元の音声を使用しない客観的音声品質評価技法が提供される。

本発明は、音声品質評価に使用する音声の聴覚明瞭度分析技法である。本発明の明瞭度分析技法は、音声信号の明瞭発音周波数範囲に関連付けられた電力と非明瞭発音周波数範囲に関連付けられた電力との比較に基づく。元の音声も元の音声の推定も、明瞭度分析では使用されない。明瞭度分析は、音声信号の明瞭発音電力と非明瞭発音電力とを比較する工程と、比較に基づいて音声品質を評価する工程とを含み、明瞭発音電力および非明瞭発音電力は、音声信号の明瞭発音周波数範囲に関連付けられた電力および非明瞭発音周波数範囲に関連付けられた電力である。

図１は、本発明による明瞭度分析を使用する音声品質評価構成１０を示す。音声品質評価構成１０は、蝸牛フィルタバンク１２と、包絡線分析モジュール１４と、明瞭度分析モジュール１６とを備える。音声品質評価構成１０において、音声信号ｓ（ｔ）が、入力として蝸牛フィルタバンク１２に提供される。蝸牛フィルタバンク１２は、周辺聴覚システムの第１段階に従って音声信号ｓ（ｔ）を処理するための複数の蝸牛フィルタｈ_ｉ（ｔ）を備える。ｉ＝１，２，・・・，Ｎ_ｃは、特定の蝸牛フィルタ・チャネルを表し、Ｎ_ｃは、蝸牛フィルタ・チャネルの全数を表す。具体的には、蝸牛フィルタバンク１２は、複数の臨界帯域信号ｓ_ｉ（ｔ）を生成するために音声信号ｓ（ｔ）をろ波する。臨界帯域信号ｓ_ｉ（ｔ）は、ｓ（ｔ）とｈ_ｉ（ｔ）との積に等しい。

複数の臨界帯域信号ｓ_ｉ（ｔ）は、入力として包絡線分析モジュール１４に提供される。包絡線分析モジュール１４において、複数の臨界帯域信号ｓ_ｉ（ｔ）を処理して、複数の包絡線ａ_ｉ（ｔ）を得る。ただし、

であり、

は、ｓ_ｉ（ｔ）のヒルベルト変換である。

次いで、複数の包絡線ａ_ｉ（ｔ）は、入力として明瞭度分析モジュール１６に提供される。明瞭度分析モジュール１６において、複数の包絡線ａ_ｉ（ｔ）を処理して、音声信号ｓ（ｔ）の音声品質評価を得る。具体的には、明瞭度分析モジュール１６は、人間の明瞭発音システムから生成された信号に関連付けられた電力（これ以後「明瞭発音電力Ｐ_Ａ（ｍ，ｉ）」と呼ぶ）を、人間の明瞭発音システムから生成されない信号に関連付けられた電力（これ以後「非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）」と呼ぶ）と比較する。次いで、そのような比較を使用して、音声品質評価を実施する。

図２は、明瞭度分析モジュール１６において、本発明の一実施形態による複数の包絡線ａ_ｉ（ｔ）を処理するためのフローチャート２００を示す。工程２１０において、複数の包絡線ａ_ｉ（ｔ）のそれぞれについてのフレームｍに対してフーリエ変換を実施して、変調スペクトルＡ_ｉ（ｍ，ｆ）を生成する。ｆは周波数である。

図３は、電力対周波数の観点から変調スペクトルＡ_ｉ（ｍ，ｆ）を示す例３０である。例３０では、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）は、周波数２〜１２．５Ｈｚに関連付けられた電力であり、非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）は、１２．５Ｈｚより高い周波数に関連付けられた電力である。２Ｈｚ未満の周波数に関連する電力Ｐ_Ｎ０（ｍ，ｉ）は、臨界帯域幅信号ａ_ｉ（ｔ）のフレームｍのＤＣ成分である。この例では、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）は、人間の明瞭発音速度が２〜１２．５Ｈｚであるということに基づいて、周波数２〜１２．５Ｈｚに関連付けられた電力として選択される。明瞭発音電力Ｐ_Ａ（ｍ，ｉ）に関連付けられた周波数範囲と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）に関連付けられた周波数範囲（これ以後それぞれ「明瞭発音周波数範囲」および「非明瞭発音周波数範囲」と呼ぶ）とは隣接した、重複しない周波数範囲である。本願の目的のため、「明瞭発音電力Ｐ_Ａ（ｍ，ｉ）」という用語は、人間の明瞭な発音の周波数範囲または上述した周波数範囲２〜１２．５Ｈｚに限定すべきではないことを理解されたい。同様に、「非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）」という用語は、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）に関連付けられた周波数範囲より高い周波数範囲に限定すべきではない。非明瞭発音周波数範囲は、明瞭発音周波数範囲と重複するまたはしない可能性があり、もしくは明瞭発音周波数範囲と隣接するまたはしない可能性がある。非明瞭発音周波数範囲は、臨界帯域信号ａ_ｉ（ｔ）のフレームｍのＤＣ成分に関連付けられた周波数など、明瞭発音周波数範囲の最低周波数より低い周波数を含む可能性もある。

工程２２０において、各変調スペクトルＡ_ｉ（ｍ，ｆ）について、明瞭度分析モジュール１６は、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）との比較を実施する。明瞭度分析モジュール１６のこの実施形態では、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）との比較は、明瞭発音対非明瞭発音の比ＡＮＲ（ｍ，ｉ）である。ＡＮＲは、以下の式によって定義される。

上式で、εは、ある程度小さい一定値である。明瞭発音電力Ｐ_Ａ（ｍ，ｉ）と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）との他の比較が可能である。たとえば、比較は、式（１）の逆数とすることが可能であり、または、比較は、明瞭発音電力Ｐ_Ａ（ｍ，ｉ）と非明瞭発音電力Ｐ_ＮＡ（ｍ，ｉ）との差とすることが可能である。議論を簡単にするために、フローチャート２００によって示した明瞭度分析モジュール１６の実施形態について、式（１）のＡＮＲ（ｍ，ｉ）を使用する比較に関して議論する。しかし、これは決して、本発明を限定すると解釈すべきではない。

工程２３０において、ＡＮＲ（ｍ，ｉ）を使用して、フレームｍについて局部音声品質ＬＳＱ（ｍ）を決定する。局部音声品質ＬＳＱ（ｍ）は、ＤＣ成分電力Ｐ_Ｎ０（ｍ，ｉ）に基づく重み付けファクタＲ（ｍ、ｉ）と、すべてのチャネルｉにわたる明瞭発音対非明瞭発音の比ＡＮＲ（ｍ，ｉ）とを使用して決定される。具体的には、局部音声品質ＬＳＱ（ｍ）は、以下の式を使用して決定される。

上式で

であり、ｋは、周波数インデックスである。

工程２４０において、音声信号ｓ（ｔ）の全音声品質ＳＱが、フレームｍについての局部音声品質ＬＳＱ（ｍ）および対数電力Ｐ_ｓ（ｍ）を使用して決定される。具体的には、音声品質ＳＱは、以下の式を使用して決定される。

上式で、

であり、ＬはＬ_ｐノルム（ｎｏｒｍ）、Ｔは音声信号ｓ（ｔ）におけるフレームの全数、λは任意の値、Ｐ_ｔｈは、可聴信号と沈黙とを識別する閾値である。一実施形態では、λは奇数値であることが好ましい。

明瞭度分析モジュール１６の出力は、すべてのフレームｍに対する音声品質ＳＱの評価である。すなわち、音声品質ＳＱは、音声信号ｓ（ｔ）に対する音声品質評価である。

本発明について、ある実施形態を参照してかなり詳細に記述してきたが、他の形態も可能である。したがって、本発明の精神および範囲は、本明細書に包含される実施形態の記述に限定すべきではない。

本発明による明瞭度分析を使用する音声品質評価構成を示す図である。本発明の一実施形態による、明瞭度分析モジュールにおいて、複数の包絡線ａ_ｉ（ｔ）を処理するためのフローチャートの図である。電力対周波数の観点から、変調スペクトルＡ_ｉ（ｍ，ｆ）を例示する図である。

Claims

音声の聴覚明瞭度分析を実施する方法であって、
音声信号ｓ（ｔ）について明瞭発音電力（Ｐ_Ａ）と非明瞭発音電力（Ｐ_ＮＡ）とを比較する工程を含み、前記明瞭発音電力および前記非明瞭発音電力が、前記音声信号の明瞭発音周波数に関連付けられた電力および前記音声信号の非明瞭発音周波数に関連付けられた電力であり、前記明瞭発音周波数および前記非明瞭発音周波数は各々、前記音声信号（ｓ（ｔ））をフィルタリングし処理することで得られる複数の臨界帯域信号から得られた複数の包絡線（ａ _ｉ（ｔ））のそれぞれのフレーム（ｍ）にフーリエ変換を実施して生成された変調スペクトル（Ａ _ｉ（ｍ，ｆ））の周波数（ｆ）に対応し、さらに、
前記明瞭発音電力と前記非明瞭発音電力との前記比較に基づいて、音声品質を評価する工程とを含み、
音声品質を評価する前記工程が、
前記明瞭発音電力と前記非明瞭発音電力との前記比較を使用して、前記音声信号における複数のフレームｍの各々に対する局部音声品質（ＬＳＱ（ｍ））を決定する工程を含み、

であり、ここで、Ｒ（ｍ，ｉ）は、フレームｍ、チャネルｉに対する重み付けファクタである、方法。
前記明瞭発音周波数が、約２〜１２．５Ｈｚである、請求項１に記載の方法。
前記明瞭発音周波数が、人間の明瞭発音速度に対応する、請求項１に記載の方法。
前記非明瞭発音周波数が、前記明瞭発音周波数より高い、請求項１に記載の方法。
前記明瞭発音電力と前記非明瞭発音電力との前記比較が、前記明瞭発音電力と前記非明瞭発音電力との比（ＡＮＲ（ｍ、ｉ））である、請求項１に記載の方法。
前記比が、前記明瞭発音電力および小さい定数εを含む分子と、非明瞭発音電力と前記小さい定数εとの和を含む分母とを含み、

である、請求項５に記載の方法。
前記明瞭発音電力と前記非明瞭発音電力との前記比較が、前記明瞭発音電力と前記非明瞭発音電力との差である、請求項１に記載の方法。
前記局部音声品質が、ＤＣ成分電力（Ｐ_Ｎ０（ｍ，ｉ））に基づいて重み付けファクタ（Ｒ（ｍ，ｉ））を使用してさらに決定され、

であり、ここでｋは周波数インデックスである、請求項１に記載の方法。
全体の音声品質（ＳＱ）が、前記局部音声品質を使用して決定され、

であり、ここでＴは音声信号ｓ（ｔ）におけるフレームｍの全数、λは任意の値、そして、Ｐ_ｔｈは可聴信号と沈黙とを識別する閾値である、請求項８に記載の方法。
前記全体の音声品質が、対数電力Ｐ_ｓを使用してさらに決定される、請求項９に記載の方法。
全体の音声品質が、対数電力Ｐ_ｓを使用して決定される、請求項１に記載の方法。
前記比較する工程が、
複数の包絡線ａ_ｉ（ｔ）の各々のフレームｍ上の複数の臨界帯域信号から得られる複数の包絡線のそれぞれに対してフーリエ変換を実施して、変調スペクトル（Ａ_ｉ（ｍ，ｆ））（ｆは周波数）を生成する工程を含む、請求項１に記載の方法。
前記比較する工程が、
それぞれのチャネルｉに対する複数の臨界帯域信号（Ｓ_ｉ（ｔ））を得るために、前記音声信号（ｓ（ｔ））をろ波する工程を含み、前記臨界帯域信号（Ｓ_ｉ（ｔ））はｓ（ｔ）×ｈ_ｉ（ｔ）に等しく、ここでｈ_ｉ（ｔ）は蝸牛フィルタである、請求項１に記載の方法。
前記比較する工程が、
複数の変調スペクトル（Ａ_ｉ（ｍ，ｆ））（ｆは周波数）を得るために、前記複数の臨界帯域信号に対して包絡線分析を実施する工程を含む、請求項１３に記載の方法。
前記比較する工程が、
前記複数の変調スペクトルのそれぞれに対してフーリエ変換を実施する工程を含む、請求項１４に記載の方法。