JP2014142627A

JP2014142627A - 音声識別方法および装置

Info

Publication number: JP2014142627A
Application number: JP2013266716A
Authority: JP
Inventors: 洪睿 ▲蒋▼; Hon Grui Jiang; Xiyong Wang; ▲細▼勇王; Junbin Liang; 俊斌梁; ▲偉▼▲軍▼ ▲鄭▼; wei jun Zheng; Junyang Zhou; 均▲揚▼ 周
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2013-01-24
Filing date: 2013-12-25
Publication date: 2014-08-07
Anticipated expiration: 2033-12-25
Also published as: EP2760018B1; CN103065631B; EP2760018A1; CN103065631A; US20140207460A1; JP6099556B2; US9607619B2; WO2014114049A1

Abstract

【課題】音声識別方法および装置を提供する。
【解決手段】本発明の諸実施形態は音声識別方法であって：音声データを取得する段階と；前記音声データに従って第一の信頼値を取得する段階と；前記音声データに従ってノイズ・シナリオを取得する段階と；前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得する段階と；前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理する段階とを含む、方法を提供する。装置も提供される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法および装置はノイズ環境のもとでの音声識別率を大幅に改善する。
【選択図】図５

Description

本発明の諸実施形態は音声処理技術の分野に、詳細には音声識別方法および装置に関する。

ユーザーは一般に、携帯電話のような端末装置上の音声補助ソフトウェアを使って音声識別を実行する。音声補助のようなソフトウェアを使って音声識別を実行するプロセスは、ユーザーが音声データを得るために音声補助ソフトウェアを起動し、音声データがノイズ削減処理のためにノイズ削減モジュールに送られ、ノイズ削減処理後の音声データが音声識別エンジンに送られ、音声識別エンジンが識別結果を音声補助に返すというものであり、誤判定を減らすために、音声補助は信頼閾値に従って識別結果の正しさを判定し、次いで識別結果を表示する。

現在のところ、音声補助のようなソフトウェアの使用効果は一般にオフィスのような静穏な環境においてよりよくなる。しかしながら、ノイズ環境（たとえば乗物環境）においては使用効果は貧弱である。業界では、音声識別率は一般に、ソフトウェア・ノイズ削減方法を使って改善されるが、改善効果は顕著ではなく、時に識別率が下がることさえある。

本技術的解決策は、音声識別率を改善し、同時にユーザー体験を改善するために使われる音声識別方法および装置を提供する。

第一の側面では、音声識別方法が提供される。本方法は：音声データを取得し；前記音声データに従って第一の信頼値を取得し；前記音声データに従ってノイズ・シナリオを取得し；前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得し；前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理することを含む。

第一の側面を参照しつつ、第一の側面の第一の可能な実装様式では、前記ノイズ・シナリオは具体的には：ノイズ型およびノイズ大きさを含む。

第一の側面の第一の可能な実装様式を参照しつつ、第一の側面の第二の可能な実装様式では、前記ノイズ・シナリオは前記ノイズ型を含み、前記音声データに従ってノイズ・シナリオを取得することは、具体的には：前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し；前記ノイズの周波数ケプストラム係数およびあらかじめ確立されたノイズ型モデルに従って前記音声データのノイズ型を取得することを含む。

第一の側面の第二の可能な実装様式を参照しつつ、第一の側面の第三の可能な実装様式では、ノイズ型モデルを確立する方法が具体的に：ノイズ・データを取得し；前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し；EMアルゴリズムに従って前記周波数ケプストラム係数を処理し；前記ノイズ型モデルを確立することを含む。

第一の側面の第三の可能な実装様式または第一の側面の第二の可能な実装様式を参照しつつ、第一の側面の第四の可能な実装様式では、前記ノイズ型モデルはガウス混合モデルである。

第一の側面の第一の可能な実装様式を参照しつつ、第一の側面の第五の可能な実装様式では、前記ノイズ・シナリオはノイズ大きさを含み、前記音声データに従ってノイズ・シナリオを取得することは、具体的には：前記音声データに従って、前記音声データの特徴パラメータを取得し；前記特徴パラメータに従って音声活動検出を実行し；前記音声活動検出の結果に従って前記ノイズ大きさを取得することを含む。

第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式を参照しつつ、第一の側面の第六の可能な実装様式では、前記ノイズ大きさは具体的には：信号対雑音比およびノイズ・エネルギー・レベルを含む。

第一の側面または第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式または第一の側面の第六の可能な実装様式を参照しつつ、第一の側面の第七の可能な実装様式では、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得することは、具体的には：前記ノイズ・シナリオと、信頼値の調整値あらかじめ記憶されている経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し；前記信頼値の前記調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得することを含む。ここで、前記調整は：増加させること、減少させることおよび不変のままであることを含む。

第一の側面または第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式または第一の側面の第六の可能な実装様式または第一の側面の第七の可能な実装様式を参照しつつ、第一の側面の第八の可能な実装様式では、前記第二の信頼値が前記信頼閾値より小さい場合にユーザーが促される。

第二の側面では、音声識別装置が提供される。本装置は：音声データを取得するよう構成された取得ユニットと；前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得するよう構成された第一信頼値ユニットと；前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニットと；前記ノイズ・シナリオ・ユニットの前記ノイズ・シナリオおよび前記第一信頼値ユニットの前記第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得するよう構成された第二信頼値ユニットと；前記第二信頼値ユニットによって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニットとを含む。

第二の側面を参照しつつ、第二の側面の第一の可能な実装様式では、当該装置はさらに：ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニットをさらに含む。

第二の側面の第一の可能な実装様式を参照しつつ、第二の側面の第二の可能な実装様式では、前記ノイズ・シナリオ・ユニットは具体的には：前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニットを含む。

第二の側面または第二の側面の第一の可能な実装様式または第二の側面の第二の可能な実装様式を参照しつつ、第二の側面の第三の可能な実装様式では、前記ノイズ・シナリオ・ユニットはさらに：前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従って前記ノイズ大きさを取得するよう構成されたノイズ大きさユニットを含む。

第二の側面または第二の側面の第一の可能な実装様式または第二の側面の第二の可能な実装様式または第二の側面の第三の可能な実装様式を参照しつつ、第二の側面の第四の可能な実装様式では、当該装置はさらに：信頼閾値と、信頼値の調整値の経験的データとを記憶するよう構成された記憶ユニットを含む。

第二の側面の第四の可能な実装様式を参照しつつ、第二の側面の第五の可能な実装様式では、前記第二信頼値ユニットは、具体的には、
前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し；
前記信頼値の前記調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得するよう構成されており、
ここで、前記調整は：増加、減少および不変のままであることを含む。

第三の側面では、モバイル端末が提供される。本モバイル端末はプロセッサおよびマイクロホンを含み、前記マイクロホンは音声データを取得するよう構成されており、前記プロセッサは、前記音声データに従って第一の信頼値を取得し、前記音声データに従ってノイズ・シナリオを取得し、前記第一の信頼値に従って、前記ノイズ・シナリオに対応する第二の信頼値を取得し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている。

第三の側面を参照しつつ、第三の側面の第一の可能な実装様式では、前記モバイル端末はさらに、信頼値の調整値の経験的データと、信頼閾値とを記憶するよう構成されたメモリを含む。

第三の側面の第一の可能な実装様式を参照しつつ、第三の側面の第二の可能な実装様式では、前記プロセッサは具体的には、前記音声データに従って前記第一の信頼値を取得し；前記音声データに従って前記ノイズ・シナリオを取得し；前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し；前記信頼値の前記調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得し；前記第二の信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている。

本発明の技術的解決策は、音声識別方法および装置を提供する。本方法および装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法および装置はノイズ環境のもとでの音声識別率を大幅に改善する。

本発明の実施形態におけるまたは従来技術における技術的解決策をより明瞭に記述するために、以下では実施形態を記述するために必要とされる付属の図面を簡単に紹介しておく。明らかだが、以下の記述における付属の図面は単に本発明のいくつかの実施形態を示すものであり、当業者は創造的な努力なしでもこれら付属の図面に基づいて他の図面を導出することがありうる。
本発明の実施形態１に基づく音声識別方法のフローチャートである。本発明の実施形態１に基づく音声識別方法の別の実装様式のフローチャートである。本発明の実施形態２に基づく音声識別方法の別の実装様式のフローチャートである。本発明の実施形態３に基づく音声識別方法の別の実装様式のフローチャートである。本発明の実施形態４に基づく音声識別装置の概略的な構造図である。本発明の実施形態４に基づく音声識別装置の別の可能な概略構造図である。本発明の実施形態４に基づく音声識別装置の別の可能な概略構造図である。本発明の実施形態４に基づく音声識別装置の別の可能な概略構造図である。本発明の実施形態５に基づくモバイル端末の概略構造図である。本発明の実施形態５に基づくモバイル端末の別の可能な概略構造図である。本発明のある実施形態に基づく携帯電話の概略構造図である。

本発明の実施形態の目的、技術的解決策および利点を一層明確にするため、以下では、本発明の実施形態における付属の図面を参照しつつ、本発明の実施形態における技術的解決策を明確かつ完備に記述する。明らかだが、記述される実施形態は本発明の全実施形態ではなく単に一部である。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られる他のすべての実施形態が本発明の実施形態の保護範囲にはいる。

本発明の実施形態において使われる用語は単に具体的な実施形態を記述することを意図したものであり、本発明を限定することを意図したものではない。本発明の実施形態および請求項において使われる単数形は、文脈が明らかに他の意味を表すのでない限り、複数形をも含むことを意図している。明細書において使用される「および／または」の用語は一つまたは複数の付随する挙げられる項目の任意のものまたはあらゆる可能な組み合わせを指す。明細書において採用されている用語「含む」は特徴、整数、段階、動作、要素および／またはコンポーネントの存在を特定するが、他の特徴、整数、段階、動作、コンポーネント、要素およびそれらの組み合わせの存在または追加を排除するものではないことも理解しておくべきである。

本発明の実施形態において、装置は携帯電話、携帯情報端末（PDA: Personal Digital Assistant）、タブレット・コンピュータ、ポータブル・デバイス（たとえばポータブル・コンピュータ）、乗物搭載デバイスおよびATM機（Automatic Teller Machine［現金自動預入支払機］）といったデバイスを含むがこれに限られない。本発明の実施形態ではこれらに限定されるものではない。

図１は、本発明の実施形態１に基づく音声識別方法のフローチャートである。

図１に示されるように、本発明の実施形態１は音声識別方法を提供する。本方法は具体的には下記を含みうる。

S100：音声データを取得
ユーザーが、該ユーザーによって入力される音声データをマイクロホンを通じて取得するために装置上の音声補助のようなソフトウェアを起動する。音声データは該ユーザーによって入力されなくてもよく、機械によって入力されてもよく、情報を含む任意のデータを含んでいてもよいことを理解しておくべきである。

S101：音声データに従って第一の信頼値を取得
第一の信頼値は、特定の個人による特定の命題の正当性についての信じられる度合いをいい、本発明の本実施形態では、装置などによる音声データの識別結果の正当性の度合いである。すなわち、第一の信頼値は、音声識別結果の信憑性の度合いを示すために使われる数値である。たとえば、ユーザーによって入力された音声データは音声データ識別プロセス中の「Give Zhang San calling」であり、返される第一の信頼値は：文信頼度N1（「Give Zhang San calling」の全体的な信頼度）、前置コマンド語信頼度N2（「give」が前置コマンド語、すなわち「give」の第一の信頼値がN2）、人名信頼度N3（「Zhang San」が名前、すなわち「Zhang San」の信頼値がN3）および後置コマンド語信頼度N4（「calling」が後置コマンド語、すなわち「calling」の信頼値がN4）を含む。通例、文信頼度N1はN2、N3およびN4を統合することによって得られる。ある実験では、試験により、ユーザーによって入力された音声データ「Give Zhang San calling」の第一の信頼値がそれぞれN1＝62、N2＝50、N3＝48およびN4＝80であることが得られている。

第一および第二といった用語が本発明の実施形態においてさまざまな信頼値を記述するために採用されることがあるが、信頼値はこれらの用語に限定されないことを理解しておくべきである。これらの用語は信頼値を互いから区別するために使われているだけである。たとえば、本発明の実施形態の範囲から外れることなく、第一の信頼値が第二の信頼値と呼ばれてもよいし、第二の信頼値が第一の信頼値と呼ばれてもよい。第一の信頼値および第二位の信頼値はいずれも信頼値である。

S102：音声データに従ってノイズ・シナリオを取得
ユーザーによって入力された音声データに従って、ノイズ・シナリオが取得される。ノイズ・シナリオは、ユーザーが音声データを入力するときのノイズ状態である。すなわち、ノイズ・シナリオは、ユーザーが音声データを、道路上のノイズ環境、オフィス内のノイズ環境または乗物上のノイズ環境のいずれにおいて入力しているかおよびユーザーが位置している対応する環境におけるノイズが大きいか小さいかとして理解されてもよい。

ステップS102はステップS101の前であってもよいし、ステップS102はステップS101の後であってもよいし、あるいはステップ102とステップS101が同時に実行されてもよいことは理解しておくべきである。本発明の実施形態においてこれらに限定されるものではない。

S103：第一の信頼値に従ってノイズ・シナリオに対応する第二の信頼値を取得
第二の信頼値は得られた第一の信頼値に基づいて得られる。第二の信頼値は、ユーザーによって入力された音声データに基づいて直接得られるのではなく、第一の信頼値に基づいて得られる。音声データのノイズ・シナリオが得られたのちに、そのノイズ・シナリオに対応する第二の信頼値が、第一の信頼値に従って得られてもよい。

S104：第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、音声データを処理
あらかじめ記憶されている信頼閾値は、第二の信頼値が受け入れられるかどうかを評価するための指標として使われる。第二の信頼値が信頼閾値より大きければ、識別結果は正しいと考えられ、第二の信頼値が信頼閾値より小さければ、識別結果は正しくないと考えられ、該結果を信じることができない。

第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、音声データの識別結果は正しい、すなわち対応する音声データを処理するために正しいと考えられる。たとえば、ステップS103において得られた第二の信頼値N3が48であり、ステップS104においてあらかじめ記憶されている信頼閾値が40であるとすると、第二の信頼値は信頼閾値より大きく、音声データの識別結果は正しい。さらに、説明のために例を与えておく。音声データが「Give Zhang San calling」〔セン・サンに電話する〕、「Send Zhang San a short message」〔セン・サンにショートメッセージを送る〕および「Open an application program」〔アプリケーション・プログラムを開く〕のようなコマンド語を含む音声データであるとき、音声識別はコマンド語識別に属し、装置は、電話をかける、ショートメッセージを送信する、アプリケーション・プログラムを開くといった対応するコマンドを実行する。音声データがテキスト口述識別に属する場合には、識別結果テキストが表示される。すなわち、第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、音声データが処理される。

本発明の技術的解決策は、音声識別方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。

任意的に、
図２は、本発明の実施形態１に基づく音声識別方法の別の実装様式のフローチャートである。

図２に示されるように、本方法はさらに以下を含む。

S1041：第二の信頼値が信頼閾値より小さい場合、ユーザーに促す
第二の信頼値が信頼閾値より小さい場合は、音声データの識別結果が正しくないと考えられ、ユーザーが促される。たとえば、ステップS103で得られた第二の信頼値N3が48で、ステップS104におけるあらかじめ記憶されている信頼閾値が50であれば、第二の信頼値は信頼閾値より小さく、音声データの識別結果は正しくない。さらに、説明のために例を与えておく。音声データが「Give Zhang San calling」〔セン・サンに電話する〕であるとき、装置は音声データの識別結果が正しくないと判定し、システムはユーザーにもう一度話すよう促すおよび／またはユーザーに障害を通知する。すなわち、第二の信頼値が信頼閾値より小さい場合には、ユーザーは再入力するまたは障害を正すよう促される。

図３は、本発明の実施形態２に基づく音声識別方法の別の実装様式のフローチャートである。

本発明の実施形態２は本発明の実施形態１をベースとして記述される。図３に示されるように、実施形態１のステップS102では、ノイズ・シナリオは具体的に：ノイズ型およびノイズ大きさを含む。

ノイズ型は、音声データを入力しているときにユーザーが位置しているノイズ環境をいう。すなわち、それは、ユーザーが道路上のノイズ環境、オフィス内のノイズ環境または乗物上のノイズ環境のいずれにいるかとして理解されてもよい。

ノイズ大きさは、音声データを入力しているときにユーザーが位置しているノイズ環境におけるノイズの大きさを表す。任意的に、ノイズ大きさは：信号対雑音比およびノイズ・エネルギー・レベルを含む。信号対雑音比は、音声データ・パワーとノイズ・データ・パワーの比であり、通例デシベルで表される。一般に、より高い信号対雑音比はより小さなノイズ・データ・パワーを示し、より低い信号対雑音比はより大きなノイズ・データ・パワーを示す。ノイズ・エネルギー・レベルは、ユーザーの音声データにおけるノイズ・データのエネルギーの大きさを反映するために使用される。信号対雑音比およびノイズ・エネルギー・レベルは組み合わされてノイズ大きさを示す。

ノイズ・シナリオはノイズ型を含む。実施形態１のステップS102において、音声データに従ってノイズ・シナリオを取得することは具体的には下記を含む。

S1021：音声データに従って、音声データ中のノイズの周波数ケプストラム係数を取得
ユーザーによって入力される音声データに従って、音声データ・フレームおよびノイズ・データ・フレームが音声活動検出（VAD: voice activity detection）を通じて決定され、ノイズ・データ・フレームが取得されたのち、ノイズ・データ・フレームの周波数ケプストラム係数が取得される。mel（メル）は主観的なピッチの単位であり、Hz（ヘルツ）は客観的なピッチの単位である。mel周波数は人間の耳の聴覚特徴に基づいて提案されており、Hz周波数と非線形な対応をもつ。周波数ケプストラム係数（MFCC: Mel Frequency Cepstrum Coefficient）はメル周波数上でのケプストラム係数であり、良好な識別パフォーマンスをもち、音声識別、声紋認識および言語識別のような分野に広く応用される。

S1022：ノイズの周波数ケプストラム係数およびあらかじめ確立されているノイズ型モデルに従って、音声データのノイズ型を取得
周波数ケプストラム係数はそれぞれ事前に確立されている各ノイズ型モデルに計算のために代入され、あるノイズ型モデルの計算結果値が最大であれば、ユーザーは、音声データを入力するときに、そのノイズ型の環境に位置していたと考えられる。すなわち、音声データのノイズ型が取得される。

ステップS1022におけるあらかじめ確立されているノイズ型モデルはガウス混合モデルである。

ガウス密度関数推定はパラメータ化されたモデルであり、二つの型を含む。すなわち、単一ガウス・モデル（SGM: Single Gaussian Model）およびガウス混合モデル（GMM: Gaussian mixture model）である。ガウス・モデルは有効なクラスタリング・モデルであり、これは、異なるガウス確率密度関数パラメータに応じて、確立された各ガウス・モデルを型として考えてもよい。標本値xが入力されるとき、ガウス確率密度関数を使って値が計算され、次いで、閾値を通じて、その標本値が確立されたガウス・モデルに属するかどうかが判定される。GMMは、分割がより細かい複数のモデルを有し、複雑なオブジェクトの分割に適用可能であり、複雑なオブジェクト・モデルの確立に広く適用される。たとえば、音声識別では、GMMは種々のノイズ型の分類およびモデル確立に使われる。

本発明の本実施形態では、あるノイズ型のGMMを確立するプロセスは：同じ型のノイズ・データの複数の群を入力し、該ノイズ・データに従ってGMMモデルを反復的にトレーニングし、最終的にそのノイズ型のGMMを得ることであってもよい。

ガウス混合モデルは次の公式で表してもよい。

ガウス・モデルN(x;μ,Σ)は次の公式によって表されてもよい。

ここで、NはGMMモデルの混合の次数である。すなわち、N個のガウス・モデルによって組み合わされる。α_iはi番目のガウス・モデルの重みであり、μは平均値であり、Σは共分散行列である。理論では、空間における任意の形がモデル確立のためにGMMモデルを使用しうる。ガウス・モデルの出力は0から1までの間の小数なので、計算の簡単のため、一般に、結果から自然対数（ln）が得られ、0より小さな浮動小数点数となる。

S1022におけるあらかじめ確立されたノイズ型モデルを確立する方法は下記を含む：
ノイズ・データを取得する。同じ型のノイズ、たとえば乗物上のノイズ、街路ノイズおよびオフィス・ノイズの複数の群を取得する。それがノイズ・データの型のGMM、すなわちノイズ・データの当該型のノイズ型モデルを確立するために使われる。本発明において、別の型のノイズ・データが取得されてもよく、ノイズ・データの各型について対応するノイズ型モデルが確立されることは理解しておくべきである。本発明の本実施形態においてはそれに限定されるものではない；
ノイズ・データに従って、ノイズ・データの周波数ケプストラム係数を取得する。ノイズ・データからノイズの周波数ケプストラム係数を抽出する。mel（メル）は主観的なピッチの単位であり、Hz（ヘルツ）は客観的なピッチの単位である。mel周波数は人間の耳の聴覚特徴に基づいて提案されており、Hz周波数と非線形な対応をもつ。周波数ケプストラム係数（MFCC: Mel Frequency Cepstrum Coefficient）はメル周波数上でのケプストラム係数であり、良好な識別パフォーマンスをもち、音声識別、声紋認識および言語識別のような分野に広く応用される；
EMアルゴリズムに従って周波数ケプストラム係数を処理し、ノイズ型モデルを確立する。統計学では、観測不能な潜在変数に依存する確率モデルにおけるパラメータの最大尤度推定を探索するために、EMアルゴリズム（expectation-maximization algorithm［期待値最大化アルゴリズム］）が使用される。統計計算では、期待値最大化（EM）アルゴリズムは、GMMが観測不能な潜在変数（latent variable）に依存する場合に、パラメータの最大尤度推定または最大事後推定を探索する。

EMアルゴリズムでは、計算は交互に二つのステップにおいて実行される。第一のステップは、期待値（E）を計算するものである。未知パラメータの期待値を推定し、現在のパラメータ推定を与える。第二のステップは、最大化（M）を実行するものである。データの尤度を最大にするよう分布パラメータを再推定し、未知変数の期待される推定を与える。全体として、EMアルゴリズムの手順は次のようになる。１．分布パラメータを初期化する。２．収束するまで繰り返す。簡単にいうと、EMアルゴリズムは、二つのパラメータAおよびBが推定によって知られており、両者がいずれも開始状態では未知であるとして、Aの情報が知られれば、Bの情報が得られることがあり、逆にBの情報が知られればAの情報が得られることがあるというものである。まずAにある初期値を与え、それによりBの推定値を得て、次いでBの現在の値からAの値を再推定すると考えてもよい。このプロセスは収束するまで続けられる。EMアルゴリズムは、不完全なデータ・セットからパラメータについての最大尤度推定を実行し、きわめて単純かつ実際的な学習アルゴリズムである。EおよびMの二つのステップを交互に使うことにより、EMアルゴリズムは徐々にモデルのパラメータを修正し、それによりパラメータおよびトレーニング標本値の尤度確率が徐々に高まり、最終的には最大点で終わる。直観的に理解すると、EMアルゴリズムは逐次近似アルゴリズムと考えられてもよい。モデルのパラメータは前もって知られておらず、一組のパラメータがランダムに選択されてもよく、あるいはある初期パラメータが前もっておおまかに与えられてもよい。パラメータのある群に対応する最も可能性のある状態が決定され、各トレーニング標本値の可能な結果の確率が計算され、現在状態における標本値を通じてあるパラメータが訂正されて該パラメータが再推定され、モデルの状態が新たなパラメータのもとで再決定される。このようにして、複数の反復工程を通じて、ある収束条件が満たされるまで、巡回が実行される。それにより、モデルのパラメータは徐々に真のパラメータに近似する。

得られた周波数ケプストラム係数はトレーニングのためにEMアルゴリズムに代入され、トレーニング・プロセスを通じて、ガウス混合モデルにおけるN、α_i、μおよびΣのようなパラメータが得られ、それらのパラメータおよび

に従って、ガウス混合モデルが確立される。すなわち、ノイズ型に対応するノイズ型モデルが確立される。ここで、xは周波数ケプストラム係数である。

たとえば、実施形態１におけるステップS102において、音声データに従ってノイズ・シナリオを取得することは、具体的には次のようになる。

音声データに従って音声データのノイズ・フレームの周波数ケプストラム係数を取得する。ここで、周波数ケプストラム係数はガウス混合モデル

におけるxである。二つのノイズ型モデルがあると想定される。一つは乗物上ノイズ・トレーニングを通じて得られる乗物上ノイズのノイズ型モデルであり、他方は非乗物上型のノイズを通じて得られる非乗物上ノイズ（これはオフィス・ノイズ、街路ノイズ、スーパーマーケット・ノイズなどを含みうる）・トレーニングのノイズ型モデルである。ユーザーによって入力された音声データが10個のノイズ・フレームをもつとして、各ノイズ・フレームの周波数ケプストラム係数、すなわちxを二つのノイズ型モデル

（ここで、N、α_i、μおよびΣのようなパラメータは既知）にそれぞれ代入して、計算結果を得、該計算結果から対数を取得し、次いで累積平均を実行する。最終結果を表１として示す。

最終結果は、乗物上ノイズのノイズ型モデルの計算結果値が非乗物上ノイズのノイズ型モデルの計算結果値より大きい（すなわち、−41.9＞−46.8）ことを表示する。そのため、現在の音声データのノイズ型は乗物上ノイズである。

本発明の技術的解決策は、ノイズ環境のもとでの音声識別率を改善する方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。

任意的に、
図３に示されるように、ノイズ・シナリオはノイズ大きさを含む。実施形態１のステップS102において、音声データに従ってノイズ・シナリオを取得することは、具体的には下記を含む。

S1023：音声データに従って、音声データの特徴パラメータを取得
音声データの特徴パラメータが、音声データに従って抽出される。ここで、特徴パラメータは：サブバンド・エネルギー、基本音（fundamental tone）および巡回因子（cyclic factor）を含む。

サブバンド・エネルギーについて、音声データの種々の帯域における種々の有用な成分に従って、0-8Kの帯域がN個のサブバンドに分割され、各サブバンドの音声の各フレームのエネルギーがそれぞれ計算される。サブバンド・エネルギーを計算する公式は

である。ここで、Lはフレーム長であり、音声データのフレームはx[0]x[1]からx[L−1]である。

基本音および巡回因子は音声中の周期的成分を反映する。音声では、周期成分は無音セグメントおよび無声セグメントにおいて非常に貧弱であり、周期性は有声セグメントにおいて非常に良好である。この点に基づいて、音声フレーム検出が実行されてもよい。

S1024：特徴パラメータに従って音声活動検出を実行
ユーザーによって入力された音声データに従って、音声データ・フレームおよびノイズ・データ・フレームが音声活動検出（VAD: voice activity detection）を通じて決定され、基本音、巡回因子およびサブバンド・エネルギーが組み合わされ、それにより音声フレームおよび無音フレームについての判定が実行される。

VAD判定では、音声フレームおよびノイズ・フレームが、主として次の二つの要素に基づいて判定される。
１）音声フレームのエネルギーはノイズ・フレームのエネルギーより大きい；
２）より強い周期性をもつフレームは一般には音声フレームである。

S1025：音声活動検出の結果に基づいてノイズ大きさを取得
VAD判定結果に従って、音声フレームおよびノイズ・フレームの平均エネルギーをそれぞれ計算して、音声エネルギー・レベル（speechLev）およびノイズ・エネルギー・レベル（noiseLev）を取得し、次いで、計算により、信号対雑音比（SNR: signal-to-noise ratio）を取得する。公式は次のとおり。

ここで、LnおよびLsはそれぞれノイズ・フレームの総数および音声フレームの総数を表し、ener[Ni]はi番目のノイズ・フレームのエネルギーを表し、ener[Sj]はj番目の音声フレームのエネルギーを表す。

図４は、本発明の実施形態３に基づく音声識別方法の別の実装様式のフローチャートである。

この実施形態は実施形態１をベースとして記述される。図４に示されるように、実施形態１のステップS103の方法は、具体的には以下を含む。

S1031：ノイズ・シナリオと信頼値の調整値のあらかじめ記憶された経験的データとの間の対応に従って、ノイズ・シナリオに対応する信頼値の調整値を取得
ノイズ・シナリオに対応する信頼値の調整値は、ノイズ・シナリオにおけるノイズ型、ノイズ大きさおよび大量のエミュレートする測定を通じて得られた信頼値の調整値の経験的データに従って得られる。ノイズ型は、音声識別が実行されるときにユーザーが位置している環境の型を示し、ノイズ大きさはユーザーが位置している環境の型のノイズ大きさを示す。ノイズ型との組み合わせにおいて、ノイズがより大きいときは、信頼値は対応して増加させられ；ノイズ型との組み合わせにおいて、ノイズがより小さいときは、信頼値は対応して減少させられる。信頼値の調整値の特定の経験的データは、エミュレーション測定における統計的収集によって得られる。

たとえば、
ノイズ型は乗物上環境である。ノイズがより大きいとき（すなわち、ノイズ・レベルが−30dBより小さく、信号対雑音比が10dBより小さい）、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼値の調整値が＋15ないし＋5であることが得られる。したがって、このノイズ・シナリオでは、信頼値の調整値は15から5までの間のある値だけ信頼値を増加させる効果がある。

ノイズ型は乗物上環境である。ノイズがより小さいとき（すなわち、ノイズ・レベルが−30dBより大きく、−40dBより小さく、信号対雑音比が10dBより大きく20dBより小さい）、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼値の調整値が＋10ないし＋3であることが得られる。したがって、このノイズ・シナリオでは、信頼値の調整値は10から3までの間のある値だけ信頼値を増加させる効果がある。

ノイズ型はオフィス環境である。ノイズがより小さいとき（すなわち、ノイズ・レベルが−40dBより大きく、信号対雑音比が20dBより大きい）、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼値の調整値が＋5ないし0であることが得られる。したがって、このノイズ・シナリオでは、信頼値の調整値は5から0までの間のある値だけ信頼値を増加させる効果がある。

S1032：信頼値の調整値に従って第一の信頼値を調整し、第二の信頼値を取得。調整は、増大、減少および不変のままを含む。

ステップS101で得られた第一の信頼値が信頼値の調整値に従って調整される。第一の信頼値が信頼値の調整値に従って調整され、第二の信頼値が得られるとき、第一の信頼値はより大きくなるよう、またはより小さくなるよう、または不変のままであるよう調整されうる。

図５は、本発明の実施形態４に基づく音声識別装置の概略的な構造図である。

図５に示されるように、本装置は：
音声データを取得するよう構成された取得ユニット３００と；
前記取得ユニット３００によって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得するよう構成された第一信頼値ユニット３０１と；
前記取得ユニット３００によって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニット３０２と；
前記ノイズ・シナリオ・ユニット３０２の前記ノイズ・シナリオおよび前記第一信頼値ユニット３０１の第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得するよう構成された第二信頼値ユニット３０３と；
前記第二信頼値ユニット３０３によって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニット３０４とを含む。

取得ユニット３００は音声データを取得する；第一信頼値ユニット３０１は前記取得ユニット３００によって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得する；ノイズ・シナリオ・ユニット３０２は、前記取得ユニット３００によって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得する。ここで、ノイズ・シナリオはノイズ型およびノイズ大きさを含む。第二信頼値ユニット３０３は、ノイズ・シナリオ・ユニット３０２の前記ノイズ・シナリオおよび前記第一信頼値ユニット３０１の第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得する；処理ユニット３０４は、前記第二の信頼値ユニット３０３によって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理する。

取得ユニット３００、第一信頼値ユニット３０１、ノイズ・シナリオ・ユニット３０２、第二信頼値ユニット３０３および処理ユニット３０４は実施形態１におけるステップS100、S101、S102、S103およびS104に記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態１の方法の記述が参照され、ここで繰り返して述べることはしない。

本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。

任意的に、
図６は、本発明の実施形態４に基づく音声識別装置のもう一つの可能な概略的な構造図である。

図６に示されるように、本装置はさらに：
ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニット３０５をさらに含む。

モデル確立ユニット３０５は、実施形態２のステップS1022においてノイズ型モデルを事前確立するための方法を実行するよう構成されていてもよい。具体的な記述については、実施形態２の方法の記述が参照され、ここで繰り返して述べることはしない。

任意的に、
図７は、本発明の実施形態４に基づく音声識別装置のもう一つの可能な概略的な構造図である。

図７に示されるように、前記ノイズ・シナリオ・ユニットは具体的には：
前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニット３０２１を含む。

ここで、ノイズ型ユニット３０２１は、実施形態２のステップS1021およびS1022において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態２の方法の記述が参照され、ここで繰り返して述べることはしない。

前記ノイズ・シナリオ・ユニットは具体的にはさらに：
前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従って前記ノイズ大きさを取得するよう構成されたノイズ大きさユニット３０２２を含む。

ここで、ノイズ大きさユニット３０２２は、実施形態２のステップS1023、S1024およびS1025において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態２の方法の記述が参照され、ここで繰り返して述べることはしない。

任意的に、
図８は、本発明の実施形態４に基づく音声識別装置のもう一つの可能な概略的な構造図である。

図８に示されるように、本装置はさらに：
信頼閾値と、信頼値の調整値の経験的データとを記憶するよう構成された記憶ユニット３０６を含む。

第二信頼値ユニット３０３は具体的には、前記ノイズ・シナリオと、前記記憶ユニット３０６によってあらかじめ記憶されている前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し；
前記信頼値の調整値に従って前記第一の信頼値を調整して、第二の信頼値を取得するよう構成されている。ここで、前記調整は、増加、減少および不変のままを含む。

第二信頼値ユニット３０３は、実施形態３のステップS1031およびS1032において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態３の方法の記述が参照され、ここで繰り返して述べることはしない。

図９は、本発明の実施形態５に基づくモバイル端末の概略的な構造図である。

図９に示されるように、本モバイル端末はプロセッサおよびマイクロホンを含み、
前記マイクロホン５０１は音声データを取得するよう構成されており、
前記プロセッサ５０２は、前記音声データに従って第一の信頼値を取得し、前記音声データに従ってノイズ・シナリオを取得し、前記第一の信頼値に従って、前記ノイズ・シナリオに対応する第二の信頼値を取得し、前記第二の信頼値があらかじめ記憶された信頼閾値以上であれば、前記音声データを処理するよう構成されている。

マイクロホン５０１およびプロセッサ５０２は、実施形態１のステップS100、S101、S102、S103およびS104に記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態１の方法の記述が参照され、ここで繰り返して述べることはしない。

本発明の技術的解決策は、モバイル端末を提供する。本モバイル端末では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本モバイル端末はノイズ環境のもとでの音声識別率を大幅に改善する。

任意的に、図１０に示されるように、前記モバイル端末はさらに：信頼値の調整値の経験的データおよび前記信頼閾値を記憶するよう構成されたメモリ５０３を含む。

前記プロセッサ５０２は具体的には、前記音声データに従ってノイズ・シナリオを取得し；前記ノイズ・シナリオと前記経験的データに従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し；前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得し；前記第二の信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている。

以上の構造は、実施形態１、実施形態２および実施形態３の方法を実行するよう構成されていてもよい。具体的な記述については、実施形態１、実施形態２および実施形態３の方法の記述が参照され、ここで繰り返して述べることはしない。

本発明の技術的解決策は、モバイル端末を提供する。本装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本モバイル端末はノイズ環境のもとでの音声識別率を大幅に改善する。

図１１に示されるように、この実施形態では、本発明の実施形態の具体的な記述のために携帯電話を例に取る。図における携帯電話は単に携帯電話の一例であり、携帯電話は図に示されるより多数または少数のコンポーネントを有していてもよく、二つ以上のコンポーネントを組み合わせていてもよく、あるいは異なるコンポーネント構成を有していてもよい。図に示されるさまざまなコンポーネントは、一つまたは複数の信号処理および／または専用の集積回路を含むハードウェアまたはソフトウェア、あるいはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。

図１１は、本発明のある実施形態に基づく携帯電話の概略的な構造図である。図１１に示されるように、携帯電話は：タッチスクリーン４１、メモリ４２、CPU ４３、電力管理チップ４４、RF回路４５、周辺インターフェース４６、オーディオ回路４７、マイクロホン４８およびI/Oサブシステム４９を含む。

タッチスクリーン４１は、携帯電話とユーザーとの間の入力インターフェース兼出力インターフェースであり、ユーザーのタッチ情報および制御情報を取得する機能に加えて、タッチスクリーンはユーザーに対する可視出力を表示することもする。ここで、可視出力は、グラフ、テキスト、アイコン、ビデオなどを含みうる。

メモリ４２は、処理の間にCPU ４３によって使用される、信頼値の調整値の経験的データおよび前記信頼閾値を記憶するよう構成されていてもよい。メモリ４２は、CPU ４３および周辺インターフェース４６によってアクセスされうる。メモリ４２は高速ランダム・アクセス・メモリを含んでいてもよく、不揮発性メモリ、たとえば一つまたは複数の磁気ディスク記憶装置およびフラッシュ・メモリ・デバイス、あるいは別の揮発性半導体記憶デバイスをも含んでいてもよい。

CPU ４３は、オーディオ回路４７およびマイクロホン４８によって取得される音声データを処理して、音声データに従ってノイズ・シナリオおよび第一の信頼値を取得し；前記ノイズ・シナリオおよびメモリ４２によってあらかじめ記憶されている信頼値の調整値の経験的データに従って第一の信頼値を調整して第二の信頼値を取得するよう構成されていてもよい。CPU ４３は、携帯電話の制御センターであり、さまざまなインターフェースおよび線を使うことにより携帯電話全体の各部分を接続し、携帯電話のさまざまな機能を実行し、メモリ４２に記憶されているソフトウェア・プログラムおよび／またはモジュールを走らせるもしくは実行し、メモリ４２に記憶されているデータを呼び出すことによってデータを処理し、それにより携帯電話に対する全体的なモニタリングを実行する。任意的に、CPU ４３は、一つまたは複数の処理ユニットを含んでいてもよい。好ましくは、CPU ４３はアプリケーション・プロセッサおよび変調および復調プロセッサを統合していてもよい。任意的に、アプリケーション・プロセッサは主としてオペレーティング・システム、ユーザー・インターフェース、アプリケーション・プログラムなどを処理し、変調および復調プロセッサは主として無線通信を処理する。変調および復調プロセッサはCPU ４３に統合されていなくてもよいことは理解されうる。さらに、以上の機能はCPU ４３が実行できる機能のほんの一つであり、本発明の実施形態において他の機能は限定されないことは理解しておくべきである。

電力管理チップ４４は、CPU ４３、I/Oサブシステム４９および周辺インターフェース４６に接続されたハードウェアのための電力供給および電力管理を実行するよう構成されていてもよい。

RF回路４５は主として、携帯電話と無線ネットワーク（すなわちネットワーク側）との間の通信を確立し、それにより携帯電話および無線ネットワークのデータ取得および送信、たとえばショートメッセージおよび電子メールの受信および送信を実装するよう構成されている。具体的には、RF回路４５は、RF信号を取得し、送る。ここで、RF信号は電磁信号とも呼ばれる。RF回路４５は電気信号を電磁信号に変換するまたは電磁信号を電気信号に変換し、該電磁信号を通じて通信ネットワークおよび他の装置との通信を実行する。RF回路４５は、前記諸機能を実行するよう構成された既知の回路を含んでいてもよい。ここで、該回路はアンテナ・システム、RFトランシーバ、一つまたは複数の増幅器、チューナ、一つまたは複数の発振器、デジタル信号プロセッサ、コーデック・チップセット、加入者識別モジュール（SIM: Subscriber Identity Module）などを含むがこれに限られない。

周辺インターフェース４６は、装置の入力および出力周辺部をCPU ４３およびメモリ４２に接続してもよい。

オーディオ回路４７は主として周辺インターフェース４６からオーディオ・データを取得し、該オーディオ・データを電気信号に変換するよう構成されていてもよい。

マイクロホン４８は音声データを取得するよう構成されていてもよい。

I/Oサブシステム４９は、前記装置上の入力および出力周辺を制御してもよい。I/Oサブシステム４９はディスプレイ・コントローラ４９１および別の入力／制御装置を制御するよう構成された一つまたは複数の入力コントローラ４９２を含んでいてもよい。任意的に、一つまたは複数の入力コントローラ７９２は別の入力／制御装置から前記電気信号を取得する、または前記電気信号を別の入力／制御装置に送る。ここで、前記別の入力／制御装置は物理的なボタン（押しボタン、ロッカー・ボタンなど）、ダイヤル盤、スライド・スイッチ、ジョイスティックおよびクリッキング・ホイールを含んでいてもよい。入力コントローラ４９２は次のうちの任意のものに接続されうることを注意しておくべきである：キーボード、赤外線ポート、USBインターフェースおよびマウスのような指示装置。I/Oサブシステム４９中のディスプレイ・コントローラ４９１は前記電気信号をタッチスクリーン４１から取得するまたは前記電気信号をタッチスクリーン４１に送る。タッチスクリーン４１は該タッチスクリーン上のタッチを取得し、ディスプレイ・コントローラ４９１は得られたタッチをタッチスクリーン４１上のユーザー・インターフェース・オブジェクトとの対話に変換する。すなわち、人‐機械対話を実装する。ここで、タッチスクリーン４１上に表示されるユーザー・インターフェース・オブジェクトはゲーム実行のアイコン、対応するネットワークへの接続のアイコン、フィルタリング・モードなどであってもよい。前記装置が光学式マウスを含んでいてもよいことを注意しておくべきである。ここで、光学的マウスは可視出力を表示しないタッチ感応性表面である、またはタッチスクリーンによって形成されるタッチ感応性表面の延長である。

マイクロホン４８は大型スクリーン装置の音声データを取得し、該音声データを周辺インターフェース４６およびオーディオ回路４７を通じてCPU ４３に送る。CPU ４３は音声データを処理し、音声データに従ってノイズ・シナリオおよび第一の信頼値を取得し、ノイズ・シナリオおよびメモリ４２によってあらかじめ記憶されている信頼値の調整値の経験的データに従って第一の信頼値を調整して第二の信頼値を取得し、第二の信頼値があらかじめ記憶されている信頼閾値以上であれば音声データを処理するよう構成されていてもよい。

本発明の技術的解決策は、音声識別のための携帯電話を提供する。本携帯電話では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本携帯電話はノイズ環境の元での音声識別率を大幅に改善する。

上記の実施形態における記述を通じて、当業者は、本発明の実施形態がハードウェアによって実装されても、あるいはファームウェアによって実装されても、あるいはハードウェアとファームウェアの組み合わせによって実装されてもよいことを明瞭に認識しうる。本発明がソフトウェアによって実装されるとき、以上の機能は装置可読媒体に記憶されていてもよいし、あるいは一つまたは複数のコマンドまたはコードとして前記装置可読媒体上で伝送されてもよい。前記装置可読媒体は装置記憶媒体および通信媒体を含む。任意的な通信媒体は、ある場所から別の場所への装置プログラムの伝送を容易にする任意の媒体を含む。記憶媒体は、装置がアクセスできる任意の使用可能な媒体でありうる。以下は、例として取られるべきであり、限定されるものではない。装置可読媒体は：RAM、ROM、EEPROM、CD-ROMまたは他の光ディスク・メモリ、ディスク記憶媒体または他のディスク記憶デバイスまたはコマンドもしくはデータ構造の形で期待されるプログラム・コードを担持もしくは記憶するために使用でき、装置によってアクセスできる他の任意の媒体を含みうる。さらに、任意の接続が適切に、装置可読媒体となりうる。たとえば、ソフトウェアが同軸ケーブル、光学式ケーブル、撚り対線、デジタル加入者線（DSL）または赤外線、電波もしくはマイクロ波のような無線技術を使って、ウェブサイト、サーバーまたは他のリモート源からの伝送を実装する場合、該同軸ケーブル、光学式ケーブル、撚り対線、DSLまたは赤外線、電波もしくはマイクロ波のような無線技術は、ホーム媒体の設備に含まれる。たとえば、本発明の実施形態において使用されるディスクは、コンパクトディスク（CD）、レーザー・ディスク、光ディスク、デジタル多用途ディスク（DVD）、フロッピー（登録商標）ディスクおよびブルーレイ・ディスクを含む。一般に、任意的なディスク（disk）はデータを磁気的に複製し、ディスク（disc）はレーザーを使って光学式にデータを複製する。以上の組み合わせも装置可読媒体の保護範囲にはいるべきである。

最後に、上記の記述は単に本発明の実施形態であり、本発明の範囲を限定することは意図されていない。本発明の精神および原理の範囲内でなされる任意の修正、等価な置換および改善は本発明の保護範囲にはいる。

Claims

音声識別方法であって：
音声データを取得する段階と；
前記音声データに従って第一の信頼値を取得する段階と；
前記音声データに従ってノイズ・シナリオを取得する段階と；
前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得する段階と；
前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理する段階とを含む、
方法。
前記ノイズ・シナリオが：
ノイズ型；および
ノイズ大きさを含む、
請求項１記載の方法。
前記ノイズ・シナリオがノイズ型を含み、前記音声データに従ってノイズ・シナリオを取得する段階は：
前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し；
前記ノイズの周波数ケプストラム係数およびあらかじめ確立されたノイズ型モデルに従って前記音声データのノイズ型を取得することを含む、
請求項２記載の方法。
前記あらかじめ確立されたノイズ型モデルを確立する方法が：
ノイズ・データを取得し；
前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し；
EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立することを含む、
請求項３記載の方法。
前記ノイズ・シナリオはノイズ大きさを含み、前記音声データに従ってノイズ・シナリオを取得する段階は：
前記音声データに従って、前記音声データの特徴パラメータを取得し；
前記特徴パラメータに従って音声活動検出を実行し；
前記音声活動検出の結果に従って前記ノイズ大きさを取得することを含む、
請求項２記載の方法。
前記ノイズ大きさが：
信号対雑音比；および
ノイズ・エネルギー・レベルを含む、
請求項２または５記載の方法。
前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得する段階が：
前記ノイズ・シナリオと信頼値の調整値のあらかじめ記憶されている経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し；
前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得することを含み、
前記調整は：増加させること、減少させることおよび不変のままであることを含む、
請求項１ないし６のうちいずれか一項記載の方法。
音声識別装置であって：
音声データを取得するよう構成された取得ユニットと；
前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得するよう構成された第一信頼値ユニットと；
前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニットと；
前記ノイズ・シナリオ・ユニットの前記ノイズ・シナリオおよび前記第一信頼値ユニットの前記第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得するよう構成された第二信頼値ユニットと；
前記第二信頼値ユニットによって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニットとを有する、
装置。
ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニットをさらに有する、
請求項８記載の装置。
前記ノイズ・シナリオ・ユニットが：
前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニットを有する、
請求項９記載の装置。
前記ノイズ・シナリオ・ユニットがさらに：
前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従ってノイズ大きさを取得するよう構成されたノイズ大きさユニットを有する、
請求項８ないし１０のうちいずれか一項記載の装置。
信頼閾値と、信頼値の調整値の経験的データとを記憶するよう構成された記憶ユニットをさらに有する、
請求項８ないし１１のうちいずれか一項記載の装置。
前記第二信頼値ユニットが、前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し；
前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得するよう構成されており、
前記調整は：増加、減少および不変のままを含む、
請求項１２記載の装置。
プロセッサおよびマイクロホンを有するモバイル端末であって、
前記マイクロホンは音声データを取得するよう構成されており、
前記プロセッサは、前記音声データに従って第一の信頼値を取得し、前記音声データに従ってノイズ・シナリオを取得し、前記第一の信頼値に従って、前記ノイズ・シナリオに対応する第二の信頼値を取得し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている、
モバイル端末。
信頼値の調整値の経験的データと前記信頼閾値とを記憶するよう構成されたメモリをさらに有する、請求項１４記載のモバイル端末。
前記プロセッサが、
前記音声データに従って前記第一の信頼値を取得する段階と；
前記音声データに従って前記ノイズ・シナリオを取得する段階と；
前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し；
前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得し；
前記第二の信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている、
請求項１５記載のモバイル端末。