JP2005292841A

JP2005292841A - リアルタイムの客観的音声アナライザ

Info

Publication number: JP2005292841A
Application number: JP2005108161A
Authority: JP
Inventors: Cao Binshi; カオビンシ; Doh-Suk Kim; キムドー−スク; A Tarraf Ahmed; エー．タラフアーメッド
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 2004-04-05
Filing date: 2005-04-05
Publication date: 2005-10-20
Also published as: CN1681004A; KR20060045423A; US20050228655A1; EP1585111A1

Abstract

【課題】リアルタイムの客観的音声解析のための方法と装置を提供すること。
【解決手段】上記装置に、少なくとも１つの第１の信号を受信し、その少なくとも１つの第１の信号に基づき、音声品質についての少なくとも１つの非侵入型の評価を示す少なくとも１つの第２の信号を提供する音声品質アナライザを含める。
【選択図】図２

Description

本発明は一般に、ネットワーク・システムに関し、より詳細には、ネットワーク内の音声信号に関する。

音声信号は、例えばＰＯＴＳ（ＰｌａｉｎＯｌｄＴｅｌｅｐｈｏｎｅＳｙｓｔｅｍ、一般電話システム）、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を使用するインターネットベースのネットワーク、無線通信システムなど、様々なネットワーク・システムによって送信される。一般に、元の音声信号、例えば第１のユーザの音声によって生成された音響信号、がネットワーク・システムを介して第２のユーザの耳に伝えられるとき、その信号は多数の装置によって処理される。例えば、無線通信ネットワークでは、元の音声信号が、第１のモバイル・ユニット、第１の基地局、ネットワーク・ハブ、第２の基地局、第２のモバイル・ユニット、その他の中間装置などによって処理されてはじめて、第２のユーザはその処理された音声信号を聞くことができる。

ネットワーク内の各装置、ならびに処理された音声信号を伝送する有線および／または無線のチャネルは、処理された音声信号を修正する可能性がある。修正の中には、望ましいものがある。例えば、様々なフィルタを使用して、処理された音声信号から不要ノイズを除去すること、処理された音声信号に快適ノイズを追加して不自然な無音を除去すること、処理された音声信号を圧縮して、送信されるデータの総量を削減することなどである。処理された音声信号の修正の中には、望ましくないものもある。例えば、処理された音声信号がネットワークを通過するとき、送信エラーが発生することがある。このエラーによって、処理された音声信号中にギャップや不要ノイズなどが生じる恐れがある。
ネットワーク・システムによって元の音声信号が処理されることによって、望ましいものか望ましくないものかにかかわらず、処理された音声信号の品質が低下する恐れがある。人間の知覚に基づく主観的技術を用いて、処理された音声信号の品質を評価することができる。例えば、ネットワーク・システムで元の音声サンプルのデータベースを処理し、処理された音声信号を一組の聴取者に提供し、その聴取者が処理された音声信号を１〜５のランクに基づいて評価することができる。しかし、主観的技術は時間がかかり費用もかかる。主観的テスト方法で費用がかかり、かつ／または時間がかかる状況には、例えば、音声データベースを収集すること、大きなリスニング・チームを募り、報酬を支払って音声品質についての統計的に有意な評価を得ること、防音室その他の設備を準備することなどが含まれる。

客観的方法を用いて、処理された音声信号の品質を評価することもできる。一般に侵入型（ｉｎｔｒｕｓｉｖｅ）の方法と呼ばれている、処理された音声の品質についての代表的な客観的評価法においては、元の音声信号がネットワーク・システムによって処理され、次いで元の音声のサンプルと処理された音声のサンプルの両方がコンピュータに提供される。次に、コンピュータは、元の音声信号と処理された音声信号とを比較して、処理された音声信号の品質を評価する。しかし、元の音声信号が使用できない場合は、処理された音声信号の品質を評価するために、従来からの侵入型の客観的方法を使用することはできない。失われた元の音声信号の代わりに、推定された元の音声信号を使用することもできるが、処理された音声信号の歪みが大きくなるほど、推定された元の音声信号の品質は低下する。
米国特許出願第１０／１８６８４０号

１つまたは複数の上記問題についての有効な対策を提供すること。

本発明の一実施形態では、リアルタイムの客観的音声解析のための装置が提供される。この装置は音声品質アナライザを含む。音声品質アナライザは、少なくとも１つの第１の信号を受信し、受信した第１の信号に基づいて、音声品質についての少なくとも１つの非侵入型の（ｎｏｎ−ｉｎｔｒｕｓｉｖｅ）評価を示す少なくとも１つの第２の信号を提供する。

本発明の他の実施形態では、リアルタイムの客観的音声解析のための方法が提供される。この方法は、少なくとも１つの処理された音声信号を示す少なくとも１つの第１の信号を受信する工程と、受信した少なくとも１つの第１の信号に基づき、その少なくとも１つの処理された音声信号の音声品質を非侵入型で決定する工程と、その少なくとも１つの処理された音声信号の決定された音声品質を示す少なくとも１つの第２の信号を提供する工程とを含む。
本発明は、以下の説明を添付の図面と併せて読むことによって理解できるはずである。図面中、類似の参照番号は類似の要素を示す。

本発明に関して、様々な修正形態および代替形態が実施可能であるが、本明細書では、例示として、本発明の特定の実施形態を図示し詳細に説明する。しかし、特定の実施形態についての本明細書の説明によって、本発明が、開示した特定の形態に限定されることを意図するものではなく、逆に、本発明が、添付の特許請求の範囲によって定義された本発明の趣旨および範囲に含まれるあらゆる修正形態、均等物、および代替実施形態を包含することを意図するものであることを理解されたい。

本発明の例示的な実施形態を以下に記す。説明を分かりやすくするために、この詳細な説明では、必ずしも実際の実装に関するあらゆる機能を説明している訳ではない。当然のことながら、実際の実施形態の開発にあたっては、例えばシステムに関する制約やビジネスに関する制約への適合など、実装ごとに異なる各開発者固有の目標を達成するために、各実装固有の多くの決定が必要になることが理解されよう。さらに、このような開発作業は、たとえ複雑で時間のかかる作業であったとしても、本開示の利益を享受する当業者にとっては、定型的な業務にすぎないことが理解されよう。

図１は、無線通信ネットワーク１００の例示的実施形態を示す。本発明は、無線通信ネットワーク１００の例示的実施形態に関して説明しているが、当業者であれば、本発明が図１に示されるような無線通信ネットワークに限定されるものではないことを理解されたい。代替実施形態では、ＰＯＴＳ（一般電話システム）、ＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）などを使用するインターネットベースのネットワークなど、他のネットワークの中で本発明を実施することができる。さらに、無線通信ネットワーク１００の構造や動作については、一般に当業者にはよく知られているので、説明を分かりやすくするために、本明細書では、無線通信ネットワーク１００の、本発明の理解に役立つ構造および動作に関する面だけを説明する。

無線通信ネットワーク１００は、無線通信チャネル１１５を介して基地局１１０に信号を送信し、そこから信号を受信できる第１のモバイル・ユニット１０５を含む。基地局１１０は、ネットワーク１２０に通信で結合されている。様々な代替実施形態において、基地局１１０は、無線通信リンク、有線通信リンクなど、任意の望ましい方法によってネットワーク１２０と通信で結合することができる。ネットワーク１２０は、任意の望ましい方法で相互接続できるルータ、スイッチ、フィルタ、シグナル・プロセッサなどの装置を含むことができる。ネットワーク１２０は、少なくとも１つの基地局１２５とも通信で結合される。この基地局は、無線通信チャネル１３５を介して、モバイル・ユニット１３０に信号を送信し、かつ／またはそこから信号を受信することができる。

動作に際して、元の音声信号１４０がモバイル・ユニット１０５に提供される。例えば、第１のユーザは、モバイル・ユニット１０５に内蔵されたマイクロホン（図示せず）に話しかけることができる。モバイル・ユニット１０５は、元の音声信号１４０を処理して、処理された音声信号１４５を形成し、その音声信号が基地局１１０に送信される。処理された音声信号１４５は、基地局１１０から、ネットワーク１２０、基地局１２５、無線通信チャネル１３５、他の中間装置および／またはチャネルなどを経由してモバイル・ユニット１３０に送信することができる。次いで、モバイル・ユニット１３０は、処理された音声信号１４５に基づいて、第２のユーザに音響信号を提供することができる。

処理された音声信号１４５は、モバイル・ユニット１０５、１３０、基地局１１０、１２５、ネットワーク１２０、無線通信チャネル１１５、１３５、他の中間装置および／またはチャネルなどによって修正されることがある。その結果として、処理された音声信号１４５は元の音声信号１４０と異なっている可能性がある。一般に、元の音声信号１４０の修正は、処理された音声信号１４５の音声品質を低下させる傾向がある。例えば、処理された音声信号１４５は、元の音声信号１４０には存在しないスパイク・ノイズ１５０を含むことがある。ただし、処理された音声信号１４５の音声品質の低下が比較的小さいときには、人間の耳には容易に感知できないこともあり、したがって心配する必要がないこともある。

したがって、音声品質アナライザ１５５を提供することによって、処理された音声信号１４５の音声品質を非侵入型の音声品質評価技術を使用して評価する。当技術分野における一般的な使用に従って、「非侵入型（ｎｏｎ−ｉｎｔｒｕｓｉｖｅ）」という用語は、本明細書では元々の音声信号を使用せずに実施できる音声品質評価技術を意味するものと理解される。図１に示した実施形態では、音声品質アナライザ１５５は、処理された音声信号１４５を示す信号を基地局１２５から受信し、受信した信号に基づいて、処理された音声信号１４５の音声品質を評価することができる。しかし、少なくとも一部には、この音声品質アナライザ１５５が非侵入型の音声品質評価技術を使用しているので、音声品質アナライザ１５５は、処理された音声信号１４５を示す信号を無線通信ネットワーク１００の任意の部分から受信することができる。例えば、一実施形態では、音声品質アナライザ１５５は、処理された音声信号１４５を示す信号をネットワーク１２０の一部から受信することができる。

図１に示した例示的実施形態では、音声品質アナライザ１５５は、処理された音声信号１４５の経路の外部にある。しかし、本発明は、処理された音声信号１４５の経路の外部にある音声品質アナライザ１５５に限定されるものではない。代替実施形態では、実質的に音声品質アナライザ１５５は、処理された音声信号１４５の経路内に配置することができる。例えば、音声品質アナライザ１５５を基地局１２５とモバイル・ユニット１３０の間に直列に設置することができる。他の代替実施形態では、音声品質アナライザ１５５を無線通信ネットワーク１００の任意の部分に並列に配置することもできる。さらに、非侵入型の技術を使用して２台以上の音声品質アナライザ１５５を配置することによって、無線通信ネットワーク１００内の選択された場所における、処理された音声信号１４５の音声品質を評価することもできる。

一実施形態では、音声品質アナライザ１５５は、処理された音声信号１４５の、非侵入型で評価された音声品質に基づいて、基地局１２５にフィードバックを提供することができる。例えば、音声品質アナライザ１５５は、処理された音声信号１４５の音声品質がノイズ・スパイク１５０の存在によって低下したと判断し、処理された音声信号１４５中のノイズ・スパイク１５０の振幅を、フィルタ処理を適用して抑えるのが望ましいことを指示する信号を基地局１２５に提供することができる。しかし、当業者であれば、本発明がフィルタ処理の適用に限定されるものではなく、代替実施形態では、音声品質アナライザ１５５によって提供されるフィードバックに応答して、任意の望ましい装置が任意の望ましい信号処理技術を使用して、処理された音声信号１４５の望ましくない部分の影響を低減させることができることを理解されたい。

図２は、音声品質アナライザ１５５の例示的な実施形態を示す。音声品質アナラザ１５５は、図１に示した処理された音声信号１４５など、１つまたは複数の処理された音声信号を、１つまたは複数の入力ライン２００（１〜ｎ）を介して受信することができる。一実施形態では、入力ライン２００（１〜ｎ）はＴ１ラインであり、これらの各Ｔ１ラインは、例えばシスコ・メディア・ゲートウェイ（ＣｉｓｃｏＭｅｄｉａＧａｔｅｗａｙ）ＭＸＧに結合されたＯＣ３−Ｔ１コンバータなど、ゲートウェイ装置（図示せず）に結合されたコンバータから得ることができる。一般に、１本のＴ１ラインは、約２４通話回線を通す。しかし、当業者であれば、入力ライン２００（１〜ｎ）はＴ１ラインに限定されるものではなく、代替実施形態では、任意の望ましい数の通話チャネルを通す、任意の望ましい種類のラインであってよいことを理解されたい。

入力ライン２００（１〜ｎ）は、処理された音声信号を、例えばＰＣＭＣＩＡインタフェースなどのインタフェース２０５に提供する。インタフェース２０５は、処理された音声信号を示す１つまたは複数の信号を、１つまたは複数のデジタル・シグナル・プロセッサ（ＤＳＰ）２１０（１−ｍ）に提供することができる。例示の実施形態では、デジタル・シグナル・プロセッサ２１０は、基板２１５上に配置された個別のチップ上に形成される。しかし、本発明は、単一の基板２１５上に配置された１つまたは複数のデジタル・シグナル・プロセッサ２１０（１〜ｍ）に限定されるものではない。代替実施形態では、基板２１５が提供されないこともある。他の代替実施形態では、デジタル・シグナル・プロセッサ２１０（１〜ｍ）を複数の基板２１５上に配置することもできる。

デジタル・シグナル・プロセッサ２１０（１〜ｍ）は、処理された音声信号１４５の音声品質を評価するための非侵入型の方法を実装する。一実施形態では、デジタル・シグナル・プロセッサ２１０（１〜ｍ）は、ＡＮＩＱＵＥ（ＡｕｄｉｔｏｒｙＮｏｎ−ＩｎｔｒｕｓｉｖｅＱｕａｌｉｔｙＥｓｔｉｍａｔｉｏｎ、非侵入型の聴覚品質評価）アルゴリズムを実装する。この聴覚調音解析技術（ａｕｄｉｔｏｒｙ−ａｒｔｉｃｕｌａｔｏｒｙａｎａｌｙｓｉｓｔｅｃｈｎｉｑｕｅ）は、調音周波数範囲のパワーと非調音周波数範囲のパワーを比較して音声信号の音声品質を評価する。例えば、ＡＮＩＱＵＥアルゴリズムは、約２〜１２．５Ｈｚの調音周波数範囲のパワーと約１２．５Ｈｚより上の非調音周波数範囲のパワーとを比較することによって、処理された音声信号の音声品質を評価する。非侵入型ＡＮＩＱＵＥアルゴリズムの例示的実施形態は、例えばＫｉｍによる「Ａｕｄｉｔｏｒｙ−ＡｒｔｉｃｕｌａｔｏｒｙＡｎａｌｙｓｉｓｆｏｒＳｐｅｅｃｈＱｕａｌｉｔｙＡｓｓｅｓｓｍｅｎｔ」と題する、２００２年７月１日出願の米国特許出願第１０／１８６８４０号に記載されており、この参照によりその全体を本明細書に組み込む。

ＡＮＩＱＵＥアルゴリズムの複雑さは、選択可能モード・ボコーダからＡＮＩＱＵＥアルゴリズムを実装するために使用されるＣソース・コードまでにＷＭＯＰＳ（ＷｅｉｇｈｔｅｄＭｉｌｌｉｏｎＯｐｅｒａｔｉｏｎｓＰｅｒＳｅｃｏｎｄ）計算ルーチンを採用することによって評価できる。評価結果によれば、ＡＮＩＱＵＥアルゴリズムは約２１７ＷＭＯＰＳの複雑さを有する。しかし、当業者であれば当然理解すべきことであるが、この評価はアルゴリズムの個々の実装に依存する。例えば、ＡＮＩＱＵＥアルゴリズムの複雑さの評価は、高速フーリエ変換点のポイント数を４０９６から２０４８に削減すること、フィルタリング処理中に４要素同時乗算および累算演算を使用すること、ソース・コードを最適化することなどによって、１２２ＷＭＯＰＳ以下に低減させることができる。

一実施形態では、音声品質アナライザ１５５は、１６個のデジタル・シグナル・プロセッサ２１０（１〜ｍ）を含む。各デジタル・シグナル・プロセッサ２１０（１〜ｍ）に実装された非侵入型音声品質評価技術で約８０ＭＩＰＳ（ＭｉｌｌｉｏｎＩｎｓｔｒｕｃｔｉｏｎｓｐｅｒＳｅｃｏｎｄ）の演算速度が使用された場合、この数値はＡＮＩＱＵＥアルゴリズムに関して上で論じた１２２ＷＭＯＰＳよりいくぶん低めの値ではあるが、音声品質アナライザ１５５のこの実装は、ほぼ６４通話チャネルを同時に処理することができる。しかし、当業者であれば、音声品質アナライザ１５５によって同時に処理できる通話チャネル数についてのこの評価が例示的なものであり、本発明を制限することを意図したものでないことを理解されたい。

デジタル・シグナル・プロセッサ２１０（１〜ｍ）は、処理された音声信号についての評価された音声品質を示す１つまたは複数の信号を、例えばＰＣＭＣＩＡインタフェースなどのインタフェース２１７に提供する。一実施形態では、インタフェース２１７は、処理された音声信号についての評価された音声品質を示す１つまたは複数の信号をコンピュータ２２０に提供することができる。例えば、インタフェース２１７は、信号をラップトップ・コンピュータ２２０に提供することができる。次いで、コンピュータ２２０は、音声品質アナライザ１５５によって解析された、１つまたは複数の通信チャネル上の処理された音声信号についての、評価された音声品質を示す情報を表示することができる。例えば、コンピュータ２２０は、グラフィカル・ユーザ・インタフェース２２５を使用してこの情報を表示することができる。

図３Ａは、グラフィカル・ユーザ・インタフェース２２５の例示的一実施形態である。図示の実施形態では、グラフィカル・ユーザ・インタフェース２２５は、列３００に通信チャネルを示す情報（例えば、チャネル番号など）を、列３０５に評価された音声品質を示す情報（例えば、１〜５の音声品質ランクなど）を、列３１０に処理された音声信号の時間および／または継続時間を示す情報（例えば、タイム・スタンプなど）を、また列３２０にユーザ起動ボタン３１５を表示する。ユーザ起動ボタン３１５を使用すると、ユーザが、処理された音声信号の波形の一部、例えば図３Ｂに示された例示的波形３３０を見ることを可能にすることができる。しかし、当業者であれば、本発明が図３Ａに示された情報に限定されるものではなく、代替実施形態では、任意の所望の情報をグラフィカル・ユーザ・インタフェース２２５に表示できることを理解されよう。

図２に戻って、上記のように、音声品質アナライザ１５５は、音声品質の非侵入型の評価に基づいてフィードバックを提供することができる。したがって、一実施形態では、コンピュータ２２０は無線通信ネットワーク１００に通信で結ばれており、処理された音声信号に適用できる修正を示す信号を提供することができる。この信号は、無線通信ネットワーク１００内の１つまたは複数の装置に提供することが可能で、その信号を使用して、各装置が、処理された音声信号を修正することができる。あるいは、コンピュータ２２０が、処理された音声信号を修正することもできる。例えば、コンピュータ２２０は、ユーザが、処理された音声信号に対する様々な音声編集ツールを選択し、かつ／または利用することを可能にすることができる。音声編集ツールは、例えば時間および／または周波数フィルタリング、圧縮、補間、フェージング、正規化、エンベローピング（ｅｎｖｅｌｏｐｉｎｇ）などを含むことができる。

上記の音声品質アナライザ１５５は、１つまたは複数の処理された音声信号の音声品質を非侵入型で、すなわち元の音声信号を使用せずに評価できるので、この音声品質アナライザ１５５は、稼動中のネットワークや元の音声信号を使用することができない他のシステムの音声品質を評価するために使用することができる。さらに、音声品質アナライザ１５５は、所定のテスト信号を用いて駆動する必要がなく、また音声品質を客観的に評価できるので、この音声品質アナライザ１５５は、従来の主観的方法と比べて、ネットワークの音声品質を評価するための時間とコストを削減することができる。

上で開示した特定の実施形態は、単に例示のために示したものである。したがって、本発明は、本明細書の教示の利益を有する当業者には明らかな、異なってはいても均等な方法で修正し実施することができる。さらに、本明細書に示した詳細な構造または設計は、添付の特許請求の範囲に記載した以外の制限を意図するものではない。したがって、上で開示した特定の実施形態を改変または修正できることは明らかであり、そのような変形形態はすべて本発明の範囲および趣旨に含まれるものと見なされる。したがって、本明細書が求める保護は、添付の特許請求の範囲に記載されている。

本発明の一実施形態による、音声品質アナライザを含む通信ネットワークを示す図である。本発明の一実施形態による、音声品質アナライザ、例えば図１に示した音声品質アナライザの例示的一実施形態を示す図である。本発明の一実施形態による、図２に示した音声品質アナライザが提供する情報を表示するために使用できるグラフィカル・ユーザ・インタフェースの例示的一実施形態を示す図である。本発明の一実施形態による、図３Ａに示したグラフィカル・ユーザ・インタフェースを使用して見ることができる、処理された音声信号の波形の例示的一部分を示す図である。

Claims

少なくとも１つの第１の信号を受信し、前記少なくとも１つの第１の信号に基づき、音声品質についての少なくとも１つの非侵入型の評価を示す少なくとも１つの第２の信号を提供する音声品質アナライザを含む装置。
前記少なくとも１つの第１の信号が、少なくとも１つの処理された音声信号を含む、請求項１に記載の装置。
前記少なくとも１つの処理された音声信号を受信し、前記少なくとも１つの処理された音声信号に基づく前記少なくとも１つの第１の信号を提供する第１のインタフェースと、
前記少なくとも１つの第２の信号を受信し、前記少なくとも１つの第２の信号に基づく少なくとも１つの第３の信号を提供する第２のインタフェースであって、前記第２のインタフェースが前記少なくとも１つの第３の信号をコンピュータに提供できるインタフェースと
を含む、請求項２に記載の装置。
前記コンピュータが、
前記少なくとも１つの第１の信号の前記音声品質についての前記少なくとも１つの非侵入型の評価を示す情報を表示し、かつ
前記評価された音声品質に基づき、前記処理された音声信号に対する少なくとも１つの修正を決定する
ように構成された、請求項３に記載の装置。
前記音声品質アナライザが少なくとも１つのデジタル信号処理回路を含み、前記デジタル信号処理回路が、少なくとも１つの第１の信号を受信すると共に、前記少なくとも１つの第１の信号に基づき、少なくとも１つの処理された音声信号の少なくとも１つの音声品質を評価するように構成された、請求項１に記載の装置。
前記音声品質アナライザが非侵入型の聴覚調音解析技術を実装する、請求項１に記載の装置。
少なくとも１つの処理された音声信号を示す少なくとも１つの第１の信号を受信する工程と、
前記少なくとも１つの第１の信号に基づき、前記少なくとも１つの処理された音声信号の音声品質を非侵入型で決定する工程と、
前記少なくとも１つの処理された音声信号の前記音声品質を示す少なくとも１つの第２の信号を提供する工程と
を含む方法。
通信チャネル、前記評価された音声品質、前記処理された音声信号に関する時間、および前記処理された音声信号の継続時間のうちの少なくとも１つを示す情報を表示する工程を含む、請求項７に記載の方法。
前記決定された音声品質に基づき、前記処理された音声信号に対する少なくとも１つの修正を決定する工程を含む、請求項７に記載の方法。
前記音声品質を非侵入型で決定する工程が、前記処理された音声信号の調音周波数範囲のパワーと前記処理された音声信号の非調音周波数範囲のパワーとを比較する工程を含む非侵入型の聴覚調音解析技術を使用して前記音声品質を決定することを含む、請求項７に記載の方法。