JP2017058691A - 音声識別方法および装置 - Google Patents

音声識別方法および装置 Download PDF

Info

Publication number
JP2017058691A
JP2017058691A JP2016225269A JP2016225269A JP2017058691A JP 2017058691 A JP2017058691 A JP 2017058691A JP 2016225269 A JP2016225269 A JP 2016225269A JP 2016225269 A JP2016225269 A JP 2016225269A JP 2017058691 A JP2017058691 A JP 2017058691A
Authority
JP
Japan
Prior art keywords
noise
data
scenario
confidence threshold
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016225269A
Other languages
English (en)
Other versions
JP6393730B2 (ja
Inventor
洪睿 ▲蒋▼
洪睿 ▲蒋▼
Hon Grui Jiang
▲細▼勇 王
Xiyong Wang
▲細▼勇 王
俊斌 梁
Junbin Liang
俊斌 梁
▲偉▼▲軍▼ ▲鄭▼
▲偉▼▲軍▼ ▲鄭▼
wei jun Zheng
均▲揚▼ 周
Junyang Zhou
均▲揚▼ 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Huawei Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Publication of JP2017058691A publication Critical patent/JP2017058691A/ja
Application granted granted Critical
Publication of JP6393730B2 publication Critical patent/JP6393730B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声識別方法および装置を提供する。
【解決手段】本発明の諸実施形態は音声識別方法であって:音声データを取得する段階と;前記音声データに従って信頼値を取得する段階と;前記音声データに従ってノイズ・シナリオを取得する段階と;前記ノイズ・シナリオに対応する信頼閾値を取得する段階と;前記信頼値が前記信頼閾値以上であれば、前記音声データを処理する段階とを含む、方法を提供する。装置も提供される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本方法および装置はノイズ環境のもとでの音声識別率を大幅に改善する。
【選択図】図5

Description

本発明の諸実施形態は音声処理技術の分野に、詳細には音声識別方法および装置に関する。
ユーザーは一般に、携帯電話のような端末装置上の音声補助ソフトウェアを使って音声識別を実行する。音声補助のようなソフトウェアを使って音声識別を実行するプロセスは、ユーザーが音声データを得るために音声補助ソフトウェアを起動し、音声データがノイズ削減処理のためにノイズ削減モジュールに送られ、ノイズ削減処理後の音声データが音声識別エンジンに送られ、音声識別エンジンが識別結果を音声補助に返すというものであり、誤判定を減らすために、音声補助は信頼閾値に従って識別結果の正しさを判定し、次いで識別結果を表示する。
現在のところ、音声補助のようなソフトウェアの使用効果は一般にオフィスのような静穏な環境においてよりよくなる。しかしながら、ノイズ環境(たとえば乗物環境)においては使用効果は貧弱である。業界では、音声識別率は一般に、ソフトウェア・ノイズ削減方法を使って改善されるが、改善効果は顕著ではなく、時に識別率が下がることさえある。
本技術的解決策は、音声識別率を改善し、同時にユーザー体験を改善するために使われる音声識別方法および装置を提供する。
第一の側面では、音声識別方法が提供される。本方法は:音声データを取得し;前記音声データに従って信頼値を取得し;前記音声データに従ってノイズ・シナリオを取得し;前記ノイズ・シナリオに対応する信頼閾値を取得し;前記信頼値が前記信頼閾値以上であれば、前記音声データを処理することを含む。
第一の側面を参照しつつ、第一の側面の第一の可能な実装様式では、前記ノイズ・シナリオは具体的には:ノイズ型およびノイズ大きさを含む。
第一の側面の第一の可能な実装様式を参照しつつ、第一の側面の第二の可能な実装様式では、前記ノイズ・シナリオは前記ノイズ型を含み、前記音声データに従ってノイズ・シナリオを取得することは、具体的には:前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し;前記ノイズの周波数ケプストラム係数およびあらかじめ確立されたノイズ型モデルに従って前記音声データのノイズ型を取得することを含む。
第一の側面の第二の可能な実装様式を参照しつつ、第一の側面の第三の可能な実装様式では、ノイズ型モデルを確立する方法が具体的に:ノイズ・データを取得し;前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し;EMアルゴリズムに従って前記周波数ケプストラム係数を処理し;前記ノイズ型モデルを確立することを含む。
第一の側面の第三の可能な実装様式または第一の側面の第二の可能な実装様式を参照しつつ、第一の側面の第四の可能な実装様式では、前記ノイズ型モデルはガウス混合モデルである。
第一の側面の第一の可能な実装様式を参照しつつ、第一の側面の第五の可能な実装様式では、前記ノイズ・シナリオはノイズ大きさを含み、前記音声データに従ってノイズ・シナリオを取得することは、具体的には:前記音声データに従って、前記音声データの特徴パラメータを取得し;前記特徴パラメータに従って音声活動検出を実行し;前記音声活動検出の結果に従って前記ノイズ大きさを取得することを含む。
第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式を参照しつつ、第一の側面の第六の可能な実装様式では、前記ノイズ大きさは具体的には:信号対雑音比およびノイズ・エネルギー・レベルを含む。
第一の側面または第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式または第一の側面の第六の可能な実装様式を参照しつつ、第一の側面の第七の可能な実装様式では、前記ノイズ・シナリオに対応する信頼閾値を取得することは、具体的には:信頼閾値のあらかじめ記憶されている経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する信頼閾値を取得することを含む。
第一の側面または第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式または第一の側面の第六の可能な実装様式または第一の側面の第七の可能な実装様式を参照しつつ、第一の側面の第八の可能な実装様式では、前記信頼値が前記信頼閾値より小さい場合にユーザーが促される。
第二の側面では、音声識別装置が提供される。本装置は:音声データを取得するよう構成された取得ユニットと;前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従って信頼値を取得するよう構成された信頼値ユニットと;前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニットと;前記ノイズ・シナリオ・ユニットの前記ノイズ・シナリオを受領し、前記ノイズ・シナリオに対応する信頼閾値を取得するよう構成された信頼閾値ユニットと;前記信頼値ユニットによって取得された前記信頼値および前記信頼閾値ユニットによって取得された前記信頼閾値を受領し、前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニットとを含む。
第二の側面を参照しつつ、第二の側面の第一の可能な実装様式では、当該装置はさらに:ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニットをさらに含む。
第二の側面の第一の可能な実装様式を参照しつつ、第二の側面の第二の可能な実装様式では、前記ノイズ・シナリオ・ユニットは具体的には:前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニットを含む。
第二の側面または第二の側面の第一の可能な実装様式または第二の側面の第二の可能な実装様式を参照しつつ、第二の側面の第三の可能な実装様式では、前記ノイズ・シナリオ・ユニットはさらに:前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従って前記ノイズ大きさを取得するよう構成されたノイズ大きさユニットを含む。
第二の側面または第二の側面の第一の可能な実装様式または第二の側面の第二の可能な実装様式または第二の側面の第三の可能な実装様式を参照しつつ、第二の側面の第四の可能な実装様式では、当該装置はさらに:信頼閾値の経験的データを記憶するよう構成された記憶ユニットを含む。
第二の側面の第四の可能な実装様式を参照しつつ、第二の側面の第五の可能な実装様式では、前記信頼閾値ユニットは、具体的には、前記記憶ユニットによってあらかじめ記憶されている前記信頼閾値の経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する前記信頼閾値を取得するよう構成されている。
第三の側面では、モバイル端末が提供される。本モバイル端末はプロセッサおよびマイクロホンを含み、前記マイクロホンは音声データを取得するよう構成されており、前記プロセッサは、前記音声データに従って信頼値およびノイズ・シナリオを取得し、前記ノイズ・シナリオに従って、前記ノイズ・シナリオに対応する信頼閾値を取得し、前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている。
第三の側面を参照しつつ、第三の側面の第一の可能な実装様式では、前記モバイル端末はさらに、信頼閾値の経験的データを記憶するよう構成されたメモリを含む。
第三の側面の第一の可能な実装様式を参照しつつ、第三の側面の第二の可能な実装様式では、前記プロセッサは具体的には、前記音声データに従って前記信頼値および前記ノイズ・シナリオを取得し;前記メモリによってあらかじめ記憶されている前記信頼閾値の前記経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する前記信頼閾値を取得し;前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている。
本発明の技術的解決策は、音声識別方法および装置を提供する。本方法および装置では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本方法および装置はノイズ環境のもとでの音声識別率を大幅に改善する。
本発明の実施形態におけるまたは従来技術における技術的解決策をより明瞭に記述するために、以下では実施形態を記述するために必要とされる付属の図面を簡単に紹介しておく。明らかだが、以下の記述における付属の図面は単に本発明のいくつかの実施形態を示すものであり、当業者は創造的な努力なしでもこれら付属の図面に基づいて他の図面を導出することがありうる。
本発明の実施形態1に基づく音声識別方法のフローチャートである。 本発明の実施形態1に基づく音声識別方法の別の実装様式のフローチャートである。 本発明の実施形態2に基づく音声識別方法の別の実装様式のフローチャートである。 本発明の実施形態3に基づく音声識別方法の別の実装様式のフローチャートである。 本発明の実施形態4に基づく音声識別装置の概略的な構造図である。 本発明の実施形態4に基づく音声識別装置の別の可能な概略構造図である。 本発明の実施形態4に基づく音声識別装置の別の可能な概略構造図である。 本発明の実施形態4に基づく音声識別装置の別の可能な概略構造図である。 本発明の実施形態5に基づくモバイル端末の概略構造図である。 本発明の実施形態5に基づくモバイル端末の別の可能な概略構造図である。 本発明のある実施形態に基づく携帯電話の概略構造図である。
本発明の実施形態の目的、技術的解決策および利点を一層明確にするため、以下では、本発明の実施形態における付属の図面を参照しつつ、本発明の実施形態における技術的解決策を明確かつ完備に記述する。明らかだが、記述される実施形態は本発明の全実施形態ではなく単に一部である。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られる他のすべての実施形態が本発明の実施形態の保護範囲にはいる。
本発明の実施形態において使われる用語は単に具体的な実施形態を記述することを意図したものであり、本発明を限定することを意図したものではない。本発明の実施形態および請求項において使われる単数形は、文脈が明らかに他の意味を表すのでない限り、複数形をも含むことを意図している。明細書において使用される「および/または」の用語は一つまたは複数の付随する挙げられる項目の任意のものまたはあらゆる可能な組み合わせを指す。明細書において採用されている用語「含む」は特徴、整数、段階、動作、要素および/またはコンポーネントの存在を特定するが、他の特徴、整数、段階、動作、コンポーネント、要素およびそれらの組み合わせの存在または追加を排除するものではないことも理解しておくべきである。
本発明の実施形態において、装置は携帯電話、携帯情報端末(PDA: Personal Digital Assistant)、タブレット・コンピュータ、ポータブル・デバイス(たとえばポータブル・コンピュータ)、乗物搭載デバイスおよびATM機(Automatic Teller Machine[現金自動預入支払機])といったデバイスを含むがこれに限られない。本発明の実施形態ではこれらに限定されるものではない。
図1は、本発明の実施形態1に基づく音声識別方法のフローチャートである。
図1に示されるように、本発明の実施形態1は音声識別方法を提供する。本方法は具体的には下記を含みうる。
S100:音声データを取得
ユーザーが、該ユーザーによって入力される音声データをマイクロホンを通じて取得するために装置上の音声補助のようなソフトウェアを起動する。音声データは該ユーザーによって入力されなくてもよく、機械によって入力されてもよく、情報を含む任意のデータを含んでいてもよいことを理解しておくべきである。
S101:音声データに従って信頼値を取得
信頼度とは、特定の個人による特定の命題の正当性についての信じられる度合いをいい、本発明の本実施形態では、装置などによる音声データの識別結果の正当性の度合いである。すなわち、信頼値は、音声識別結果の信憑性の度合いを示すために使われる数値である。たとえば、ユーザーによって入力された音声データは音声データ識別プロセス中の「Give Zhang San calling」であり、返される信頼値は:文信頼度N1(「Give Zhang San calling」の全体的な信頼度)、前置コマンド語信頼度N2(「give」が前置コマンド語、すなわち「give」の信頼値がN2)、人名信頼度N3(「Zhang San」が名前、すなわち「Zhang San」の信頼値がN3)および後置コマンド語信頼度N4(「calling」が後置コマンド語、すなわち「calling」の信頼値がN4)を含む。通例、文信頼度N1はN2、N3およびN4を統合することによって得られる。ある実験では、試験により、ユーザーによって入力された音声データ「Give Zhang San a call」の信頼値がそれぞれN1=62、N2=50、N3=48およびN4=80であることが得られている。
ステップS102はステップS103の前であってもよいし、ステップS102はステップS103の後であってもよいし、あるいはステップS102およびステップS103が同時に実行されてもよいことは理解しておくべきである。本発明の実施形態においてこれらに限定されるものではない。
S102:音声データに従ってノイズ・シナリオを取得
ユーザーによって入力された音声データに従って、ノイズ・シナリオが取得される。ノイズ・シナリオは、ユーザーが音声データを入力するときのノイズ状態である。すなわち、ノイズ・シナリオは、ユーザーが音声データを、道路上のノイズ環境、オフィス内のノイズ環境または乗物上のノイズ環境のいずれにおいて入力しているかおよびユーザーが位置している対応する環境におけるノイズが大きいか小さいかとして理解されてもよい。
ステップS102はステップS101の前であってもよいし、ステップS102はステップS101の後であってもよいし、あるいはステップ102とステップS101が同時に実行されてもよいことは理解しておくべきである。本発明の実施形態においてこれらに限定されるものではない。
S103:ノイズ・シナリオに対応する信頼閾値を取得
信頼閾値は、信頼値が受け入れられうるかどうかを評価するための指標として使われる。信頼値が信頼閾値より大きければ、識別結果は正しいと考えられ、信頼値が信頼閾値より小さければ、識別結果は正しくないと考えられ、該結果を信じることができない。音声データのノイズ・シナリオが取得されたのち、ノイズ・シナリオに対応する信頼閾値がノイズ・シナリオに従って取得されてもよい。
S104:信頼値が信頼閾値以上であれば、音声データを処理
信頼値が信頼閾値以上であれば、音声データの識別結果は正しい、すなわち対応する音声データを処理するために正しいと考えられる。たとえば、ステップS101において得られた信頼値N3が48であり、ステップS103において得られた信頼閾値が40であるとすると、信頼値は信頼閾値より大きく、音声データの識別結果は正しい。さらに、説明のために例を与えておく。音声データが「Give Zhang San a call」〔セン・サンに電話する〕、「Send Zhang San a short message」〔セン・サンにショートメッセージを送る〕および「Open an application program」〔アプリケーション・プログラムを開く〕のようなコマンド語を含む音声データであるとき、音声識別はコマンド語識別に属し、装置は、電話をかける、ショートメッセージを送信する、アプリケーション・プログラムを開くといった対応するコマンドを実行する。音声データがテキスト口述に属する場合には、識別結果テキストが表示される。すなわち、信頼値が信頼閾値以上であれば、音声データが処理される。
本発明の技術的解決策は、音声識別方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
任意的に、
図2は、本発明の実施形態1に基づく音声識別方法の別の実装様式のフローチャートである。
図2に示されるように、本方法はさらに以下を含む。
S1041:信頼値が信頼閾値より小さい場合、ユーザーに促す
信頼値が信頼閾値より小さい場合は、音声データの識別結果が正しくないと考えられ、ユーザーが促される。たとえば、ステップS101で得られた信頼値N3が48で、ステップS103で得られた信頼閾値が50であれば、信頼値は信頼閾値より小さく、音声データの識別結果は正しくない。さらに、説明のために例を与えておく。音声データが「Give Zhang San a call」〔セン・サンに電話する〕であるとき、装置は音声データの識別結果が正しくないと判定し、システムはユーザーにもう一度話すよう促すおよび/またはユーザーに障害を通知する。すなわち、信頼値が信頼閾値より小さい場合には、ユーザーは再入力するまたは障害を正すよう促される。
本発明の技術的解決策は、音声識別方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
図3は、本発明の実施形態2に基づく音声識別方法の別の実装様式のフローチャートである。
本発明の実施形態2は本発明の実施形態1をベースとして記述される。図3に示されるように、実施形態1のステップS102では、ノイズ・シナリオは具体的に:ノイズ型およびノイズ大きさを含む。
ノイズ型は、音声データを入力しているときにユーザーが位置しているノイズ環境をいう。すなわち、それは、ユーザーが道路上のノイズ環境、オフィス内のノイズ環境または乗物上のノイズ環境のいずれにいるかとして理解されてもよい。
ノイズ大きさは、音声データを入力しているときにユーザーが位置しているノイズ環境におけるノイズの大きさを表す。任意的に、ノイズ大きさは:信号対雑音比およびノイズ・エネルギー・レベルを含む。信号対雑音比は、音声データ・パワーとノイズ・データ・パワーの比であり、通例デシベルで表される。一般に、より高い信号対雑音比はより小さなノイズ・データ・パワーを示し、より低い信号対雑音比はより大きなノイズ・データ・パワーを示す。ノイズ・エネルギー・レベルは、ユーザーの音声データにおけるノイズ・データのエネルギーの大きさを反映するために使用される。信号対雑音比およびノイズ・エネルギー・レベルは組み合わされてノイズ大きさを示す。
ノイズ・シナリオはノイズ型を含む。実施形態1のステップS102において、音声データに従ってノイズ・シナリオを取得することは具体的には下記を含む。
S1021:音声データに従って、音声データ中のノイズの周波数ケプストラム係数を取得
ユーザーによって入力される音声データに従って、音声データ・フレームおよびノイズ・データ・フレームが音声活動検出(VAD: voice activity detection)を通じて決定され、ノイズ・データ・フレームが取得されたのち、ノイズ・データ・フレームの周波数ケプストラム係数が取得される。mel(メル)は主観的なピッチの単位であり、Hz(ヘルツ)は客観的なピッチの単位である。mel周波数は人間の耳の聴覚特徴に基づいて提案されており、Hz周波数と非線形な対応をもつ。周波数ケプストラム係数(MFCC: Mel Frequency Cepstrum Coefficient)はメル周波数上でのケプストラム係数であり、良好な識別パフォーマンスをもち、音声識別、声紋認識および言語識別のような分野に広く応用される。
S1022:ノイズの周波数ケプストラム係数およびあらかじめ確立されているノイズ型モデルに従って、音声データのノイズ型を取得
周波数ケプストラム係数はそれぞれ事前に確立されている各ノイズ型モデルに計算のために代入され、あるノイズ型モデルの計算結果値が最大であれば、ユーザーは、音声データを入力するときに、そのノイズ型の環境に位置していたと考えられる。すなわち、音声データのノイズ型が取得される。
ステップS1022におけるあらかじめ確立されているノイズ型モデルはガウス混合モデルである。
ガウス密度関数推定はパラメータ化されたモデルであり、二つの型を含む。すなわち、単一ガウス・モデル(SGM: Single Gaussian Model)およびガウス混合モデル(GMM: Gaussian mixture model)である。ガウス・モデルは有効なクラスタリング・モデルであり、これは、異なるガウス確率密度関数パラメータに応じて、確立された各ガウス・モデルを型として考えてもよい。標本値xが入力されるとき、ガウス確率密度関数を使って値が計算され、次いで、閾値を通じて、その標本値が確立されたガウス・モデルに属するかどうかが判定される。GMMは、分割がより細かい複数のモデルを有し、複雑なオブジェクトの分割に適用可能であり、複雑なオブジェクト・モデルの確立に広く適用される。たとえば、音声識別では、GMMは種々のノイズ型の分類およびモデル確立に使われる。
本発明の本実施形態では、あるノイズ型のGMMを確立するプロセスは:同じ型のノイズ・データの複数の群を入力し、該ノイズ・データに従ってGMMモデルを反復的にトレーニングし、最終的にそのノイズ型のGMMを得ることであってもよい。
ガウス混合モデルは次の公式で表してもよい。
Figure 2017058691
ガウス・モデルN(x;μ,Σ)は次の公式によって表されてもよい。
Figure 2017058691
ここで、NはGMMモデルの混合の次数である。すなわち、N個のガウス・モデルによって組み合わされる。αiはi番目のガウス・モデルの重みであり、μは平均値であり、Σは共分散行列である。理論では、空間における任意の形がモデル確立のためにGMMモデルを使用しうる。ガウス・モデルの出力は0から1までの間の小数なので、計算の簡単のため、一般に、結果から自然対数(ln)が得られ、0より小さな浮動小数点数となる。
S1022におけるあらかじめ確立されたノイズ型モデルを確立する方法は下記を含む:
ノイズ・データを取得する。同じ型のノイズ、たとえば乗物上のノイズ、街路ノイズおよびオフィス・ノイズの複数の群を取得する。それがノイズ・データの型のGMM、すなわちノイズ・データの当該型のノイズ型モデルを確立するために使われる。本発明において、別の型のノイズ・データが取得されてもよく、ノイズ・データの各型について対応するノイズ型モデルが確立されることは理解しておくべきである。本発明の本実施形態においてはそれに限定されるものではない;
ノイズ・データに従って、ノイズ・データの周波数ケプストラム係数を取得する。ノイズ・データからノイズの周波数ケプストラム係数を抽出する。mel(メル)は主観的なピッチの単位であり、Hz(ヘルツ)は客観的なピッチの単位である。mel周波数は人間の耳の聴覚特徴に基づいて提案されており、Hz周波数と非線形な対応をもつ。周波数ケプストラム係数(MFCC: Mel Frequency Cepstrum Coefficient)はメル周波数上でのケプストラム係数であり、良好な識別パフォーマンスをもち、音声識別、声紋認識および言語識別のような分野に広く応用される;
EMアルゴリズムに従って周波数ケプストラム係数を処理し、ノイズ型モデルを確立する。統計学では、観測不能な潜在変数に依存する確率モデルにおけるパラメータの最大尤度推定を探索するために、EMアルゴリズム(expectation-maximization algorithm[期待値最大化アルゴリズム])が使用される。統計計算では、期待値最大化(EM)アルゴリズムは、GMMが観測不能な潜在変数(latent variable)に依存する場合に、パラメータの最大尤度推定または最大事後推定を探索する。
EMアルゴリズムでは、計算は交互に二つのステップにおいて実行される。第一のステップは、期待値(E)を計算するものである。未知パラメータの期待値を推定し、現在のパラメータ推定を与える。第二のステップは、最大化(M)を実行するものである。データの尤度を最大にするよう分布パラメータを再推定し、未知変数の期待される推定を与える。全体として、EMアルゴリズムの手順は次のようになる。1.分布パラメータを初期化する。2.収束するまで繰り返す。簡単にいうと、EMアルゴリズムは、二つのパラメータAおよびBが推定によって知られており、両者がいずれも開始状態では未知であるとして、Aの情報が知られれば、Bの情報が得られることがあり、逆にBの情報が知られればAの情報が得られることがあるというものである。まずAにある初期値を与え、それによりBの推定値を得て、次いでBの現在の値からAの値を再推定すると考えてもよい。このプロセスは収束するまで続けられる。EMアルゴリズムは、不完全なデータ・セットからパラメータについての最大尤度推定を実行し、きわめて単純かつ実際的な学習アルゴリズムである。EおよびMの二つのステップを交互に使うことにより、EMアルゴリズムは徐々にモデルのパラメータを修正し、それによりパラメータおよびトレーニング標本値の尤度確率が徐々に高まり、最終的には最大点で終わる。直観的に理解すると、EMアルゴリズムは逐次近似アルゴリズムと考えられてもよい。モデルのパラメータは前もって知られておらず、一組のパラメータがランダムに選択されてもよく、あるいはある初期パラメータが前もっておおまかに与えられてもよい。パラメータのある群に対応する最も可能性のある状態が決定され、各トレーニング標本値の可能な結果の確率が計算され、現在状態における標本値を通じてあるパラメータが訂正されて該パラメータが再推定され、モデルの状態が新たなパラメータのもとで再決定される。このようにして、複数の反復工程を通じて、ある収束条件が満たされるまで、巡回が実行される。それにより、モデルのパラメータは徐々に真のパラメータに近似する。
得られた周波数ケプストラム係数はトレーニングのためにEMアルゴリズムに代入され、トレーニング・プロセスを通じて、ガウス混合モデルにおけるN、αi、μおよびΣのようなパラメータが得られ、それらのパラメータおよび
Figure 2017058691
に従って、ガウス混合モデルが確立される。すなわち、ノイズ型に対応するノイズ型モデルが確立される。ここで、xは周波数ケプストラム係数である。
たとえば、実施形態1におけるステップS102において、音声データに従ってノイズ・シナリオを取得することは、具体的には次のようになる。
音声データに従って音声データのノイズ・フレームの周波数ケプストラム係数を取得する。ここで、周波数ケプストラム係数はガウス混合モデル
Figure 2017058691
におけるxである。二つのノイズ型モデルがあると想定される。一つは乗物上ノイズ・トレーニングを通じて得られる乗物上ノイズのノイズ型モデルであり、他方は非乗物上型のノイズを通じて得られる非乗物上ノイズ(これはオフィス・ノイズ、街路ノイズ、スーパーマーケット・ノイズなどを含みうる)・トレーニングのノイズ型モデルである。ユーザーによって入力された音声データが10個のノイズ・フレームをもつとして、各ノイズ・フレームの周波数ケプストラム係数、すなわちxを二つのノイズ型モデル
Figure 2017058691
(ここで、N、αi、μおよびΣのようなパラメータは既知)にそれぞれ代入して、計算結果を得、該計算結果から対数を取得し、次いで累積平均を実行する。最終結果を表1として示す。
Figure 2017058691
最終結果は、乗物上ノイズのノイズ型モデルの計算結果値が非乗物上ノイズのノイズ型モデルの計算結果値より大きい(すなわち、−41.9>−46.8)ことを表示する。そのため、現在の音声データのノイズ型は乗物上ノイズである。
本発明の技術的解決策は、ノイズ環境のもとでの音声識別率を改善する方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
任意的に、
図3に示されるように、ノイズ・シナリオはノイズ大きさを含む。実施形態1のステップS102において、音声データに従ってノイズ・シナリオを取得することは、具体的には下記を含む。
S1023:音声データに従って、音声データの特徴パラメータを取得
音声データの特徴パラメータが、音声データに従って抽出される。ここで、特徴パラメータは:サブバンド・エネルギー、基本音(fundamental tone)および巡回因子(cyclic factor)を含む。
サブバンド・エネルギーについて、音声データの種々の帯域における種々の有用な成分に従って、0-8Kの帯域がN個のサブバンドに分割され、各サブバンドの音声の各フレームのエネルギーがそれぞれ計算される。サブバンド・エネルギーを計算する公式は
Figure 2017058691
である。ここで、Lはフレーム長であり、音声データのフレームはx[0]x[1]からx[L−1]である。
基本音および周期的因子(periodic factor)は音声中の周期的成分を反映する。音声では、周期成分は無音セグメントおよび無声セグメントにおいて非常に貧弱であり、周期性は有声セグメントにおいて非常に良好である。この点に基づいて、音声フレーム検出が実行されてもよい。
S1024:特徴パラメータに従って音声活動検出を実行
ユーザーによって入力された音声データに従って、音声データ・フレームおよびノイズ・データ・フレームが音声活動検出(VAD: voice activity detection)を通じて決定され、基本音、周期的因子およびサブバンド・エネルギーが組み合わされ、それにより音声フレームおよび無音フレームについての判定が実行される。
VAD判定では、音声フレームおよびノイズ・フレームが、主として次の二つの要素に基づいて判定される。
1)音声フレームのエネルギーはノイズ・フレームのエネルギーより大きい;
2)より強い周期性をもつフレームは一般には音声フレームである。
S1025:音声活動検出の結果に基づいてノイズ大きさを取得
VAD判定結果に従って、音声フレームおよびノイズ・フレームの平均エネルギーをそれぞれ計算して、音声エネルギー・レベル(speechLev)およびノイズ・エネルギー・レベル(noiseLev)を取得し、次いで、計算により、信号対雑音比(SNR: signal-to-noise ratio)を取得する。公式は次のとおり。
Figure 2017058691
ここで、LnおよびLsはそれぞれノイズ・フレームの総数および音声フレームの総数を表し、ener[Ni]はi番目のノイズ・フレームのエネルギーを表し、ener[Sj]はj番目の音声フレームのエネルギーを表す。
本発明の技術的解決策は、ノイズ環境のもとでの音声識別率を改善する方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
図4は、本発明の実施形態3に基づく音声識別方法の別の実装様式のフローチャートである。
この実施形態は実施形態1をベースとして記述される。図4に示されるように、実施形態1のステップS103の方法は、具体的には以下を含む。
S1031:信頼閾値のあらかじめ記憶された経験的データとノイズ・シナリオとの間の対応に従って、ノイズ・シナリオに対応する信頼閾値を取得
音声データのノイズ・シナリオが得られたのち、信頼閾値のあらかじめ記憶された経験的データとノイズ・シナリオとの間の対応に従って、ノイズ・シナリオに対応する信頼閾値が得られる。すなわち、信頼閾値は、ノイズ・シナリオにおけるノイズ型、ノイズ大きさおよび大量のエミュレーション測定を通じて得られた信頼閾値の経験的データの対応に従って得られる。ノイズ型は、音声識別が実行されるときにユーザーが位置している環境の型を示し、ノイズ大きさはユーザーが位置している環境の型のノイズ大きさを示す。信頼閾値を得るための原理は:ノイズ型との組み合わせにおいて、ノイズがより大きいときは、より小さな信頼閾値が選択され;ノイズ型との組み合わせにおいて、ノイズがより小さいときは、より大きな信頼閾値が設定される。信頼閾値の特定の経験的データは、エミュレーション測定における統計的収集によって得られる。
たとえば、
ノイズ型は乗物上環境である。ノイズがより大きいとき(すなわち、ノイズ・レベルが−30dBより小さく、信号対雑音比が10dBより小さい)、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼閾値の経験的データが35〜50であることが得られる。したがって、このノイズ・シナリオでは、得られる信頼閾値は35から50までの間のある値である。
ノイズ型は乗物上環境である。ノイズがより小さいとき(すなわち、ノイズ・レベルが−30dBより大きく、−40dBより小さく、信号対雑音比が10dBより大きく20dBより小さい)、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼閾値の経験的データが40〜55であることが得られる。したがって、このノイズ・シナリオでは、得られる信頼閾値は40から55までの間のある値である。
ノイズ型はオフィス環境である。ノイズがより小さいとき(すなわち、ノイズ・レベルが−40dBより小さく、信号対雑音比が20dBより大きい)、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼閾値の経験的データが45〜60であることが得られる。したがって、このノイズ・シナリオでは、得られる信頼閾値は45から60までの間のある値である。
本発明の技術的解決策は、ノイズ環境のもとでの音声識別率を改善する方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
図5は、本発明の実施形態4に基づく音声識別装置の概略的な構造図である。
図5に示されるように、本装置は:
音声データを取得するよう構成された取得ユニット300と;
前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従って信頼値を取得するよう構成された信頼値ユニット301と;
前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニット302と;
前記ノイズ・シナリオ・ユニット302の前記ノイズ・シナリオを受領し、前記ノイズ・シナリオに対応する信頼閾値を取得するよう構成された信頼閾値ユニット303と;
前記信頼値ユニット301によって取得された前記信頼値および前記信頼閾値ユニット303によって取得された前記信頼閾値を受領し、前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニット304とを含む。
取得ユニット300は音声データを取得する;信頼値ユニット301は前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従って信頼値を取得する;ノイズ・シナリオ・ユニット302は、前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得する。ここで、ノイズ・シナリオはノイズ型、信号対雑音比およびノイズ・エネルギー・レベルを含む。信頼閾値ユニット303は、ノイズ・シナリオ・ユニット302の前記ノイズ・シナリオを受領し、前記ノイズ・シナリオに対応する信頼閾値を取得する;処理ユニット304は、前記信頼値ユニット301によって取得された前記信頼値および前記信頼閾値ユニット303によって取得された前記信頼閾値を受領し、前記信頼値が前記信頼閾値以上であれば、前記音声データを処理する。
取得ユニット300、信頼値ユニット301、ノイズ・シナリオ・ユニット302、信頼閾値ユニット303および処理ユニット304は実施形態1におけるステップS100、S101、S102、S103およびS104に記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態1の方法の記述が参照され、ここで繰り返して述べることはしない。
本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。
任意的に、
図6は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
図6に示されるように、本装置はさらに:
ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニット305をさらに含む。
モデル確立ユニット305は、実施形態2のステップS1022においてノイズ型モデルを事前確立するための方法を実行するよう構成されていてもよい。具体的な記述については、実施形態2の方法の記述が参照され、ここで繰り返して述べることはしない。
本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。
任意的に、
図7は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
図7に示されるように、前記ノイズ・シナリオ・ユニットは具体的には:
前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニット3021を含む。
ここで、ノイズ型ユニット3021は、実施形態2のステップS1021およびS1022において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態2の方法の記述が参照され、ここで繰り返して述べることはしない。
前記ノイズ・シナリオ・ユニットは具体的にはさらに:
前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従って前記ノイズ大きさを取得するよう構成されたノイズ大きさユニット3022を含む。
ここで、ノイズ大きさユニット3022は、実施形態2のステップS1023、S1024およびS1025において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態2の方法の記述が参照され、ここで繰り返して述べることはしない。
本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。
任意的に、
図8は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
図8に示されるように、本装置はさらに:
信頼閾値の経験的データを記憶するよう構成された記憶ユニット306を含む。
信頼閾値ユニット303は具体的には、前記記憶ユニット306によってあらかじめ記憶されている前記信頼閾値の経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する前記信頼閾値を取得するよう構成されている。
信頼閾値ユニット303は、実施形態3のステップS1031において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態3の方法の記述が参照され、ここで繰り返して述べることはしない。
本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。
図9は、本発明の実施形態5に基づくモバイル端末の概略的な構造図である。
図9に示されるように、本モバイル端末はプロセッサおよびマイクロホンを含み、
前記マイクロホン501は音声データを取得するよう構成されており、
前記プロセッサ502は、前記音声データに従って信頼値およびノイズ・シナリオを取得し、前記ノイズ・シナリオに従って、前記ノイズ・シナリオに対応する信頼閾値を取得し、前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている。
マイクロホン501およびプロセッサ502は、実施形態1のステップS100、S101、S102、S103およびS104に記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態1の方法の記述が参照され、ここで繰り返して述べることはしない。
本発明の技術的解決策は、モバイル端末を提供する。本モバイル端末では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本モバイル端末はノイズ環境のもとでの音声識別率を大幅に改善する。
任意的に、図10に示されるように、前記モバイル端末はさらに:信頼閾値の経験的データを記憶するよう構成されたメモリ503を含む。
前記プロセッサは具体的には、前記音声データに従って前記信頼値および前記ノイズ・シナリオを取得し;前記メモリによってあらかじめ記憶されている前記信頼閾値の前記経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する前記信頼閾値を取得し;前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている。
以上の構造は、実施形態1、実施形態2および実施形態3の方法を実行するよう構成されていてもよい。具体的な記述については、実施形態1、実施形態2および実施形態3の方法の記述が参照され、ここで繰り返して述べることはしない。
本発明の技術的解決策は、モバイル端末を提供する。本装置では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本モバイル端末はノイズ環境のもとでの音声識別率を大幅に改善する。
図11に示されるように、この実施形態では、本発明の実施形態の具体的な記述のために携帯電話を例に取る。図における携帯電話は単に携帯電話の一例であり、携帯電話は図に示されるより多数または少数のコンポーネントを有していてもよく、二つ以上のコンポーネントを組み合わせていてもよく、あるいは異なるコンポーネント構成を有していてもよい。図に示されるさまざまなコンポーネントは、一つまたは複数の信号処理および/または専用の集積回路を含むハードウェアまたはソフトウェア、あるいはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。
図11は、本発明のある実施形態に基づく携帯電話の概略的な構造図である。図11に示されるように、携帯電話は:タッチスクリーン41、メモリ42、CPU 43、電力管理チップ44、RF回路45、周辺インターフェース46、オーディオ回路47、マイクロホン48およびI/Oサブシステム49を含む。
タッチスクリーン41は、携帯電話とユーザーとの間の入力インターフェース兼出力インターフェースであり、ユーザーのタッチ情報および制御情報を取得する機能に加えて、タッチスクリーンはユーザーに対する可視出力を表示することもする。ここで、可視出力は、グラフ、テキスト、アイコン、ビデオなどを含みうる。
メモリ42は、処理の間にCPU 43によって使用される、信頼閾値の経験的データを記憶するよう構成されていてもよい。メモリ42は、CPU 43および周辺インターフェース46によってアクセスされうる。メモリ42は高速ランダム・アクセス・メモリを含んでいてもよく、不揮発性メモリ、たとえば一つまたは複数の磁気ディスク記憶装置およびフラッシュ・メモリ・デバイス、あるいは別の揮発性半導体記憶デバイスをも含んでいてもよい。
CPU 43は、オーディオ回路47およびマイクロホン48によって取得される音声データを処理して、音声データに従ってノイズ・シナリオを取得し;前記ノイズ・シナリオおよびメモリ42によってあらかじめ記憶されている信頼閾値の経験的データに従って信頼閾値を取得するよう構成されていてもよい。CPU 43は、携帯電話の制御センターであり、さまざまなインターフェースおよび線を使うことにより携帯電話全体の各部分を接続し、携帯電話のさまざまな機能を実行し、メモリ42に記憶されているソフトウェア・プログラムおよび/またはモジュールを走らせるもしくは実行し、メモリ42に記憶されているデータを呼び出すことによってデータを処理し、それにより携帯電話に対する全体的なモニタリングを実行する。任意的に、CPU 43は、一つまたは複数の処理ユニットを含んでいてもよい。好ましくは、CPU 43はアプリケーション・プロセッサおよび変調および復調プロセッサを統合していてもよい。任意的に、アプリケーション・プロセッサは主としてオペレーティング・システム、ユーザー・インターフェース、アプリケーション・プログラムなどを処理し、変調および復調プロセッサは主として無線通信を処理する。変調および復調プロセッサはCPU 43に統合されていなくてもよいことは理解されうる。さらに、以上の機能はCPU 43が実行できる機能のほんの一つであり、本発明の実施形態において他の機能は限定されないことは理解しておくべきである。
電力管理チップ44は、CPU 43、I/Oサブシステム49および周辺インターフェース46に接続されたハードウェアのための電力供給および電力管理を実行するよう構成されていてもよい。
RF回路45は主として、携帯電話と無線ネットワーク(すなわちネットワーク側)との間の通信を確立し、それにより携帯電話および無線ネットワークのデータ取得および送信、たとえばショートメッセージおよび電子メールの受信および送信を実装するよう構成されている。具体的には、RF回路45は、RF信号を取得し、送る。ここで、RF信号は電磁信号とも呼ばれる。RF回路45は電気信号を電磁信号に変換するまたは電磁信号を電気信号に変換し、該電磁信号を通じて通信ネットワークおよび他の装置との通信を実行する。RF回路45は、前記諸機能を実行するよう構成された既知の回路を含んでいてもよい。ここで、該回路はアンテナ・システム、RFトランシーバ、一つまたは複数の増幅器、チューナ、一つまたは複数の発振器、デジタル信号プロセッサ、コーデック・チップセット、加入者識別モジュール(SIM: Subscriber Identity Module)などを含むがこれに限られない。
周辺インターフェース46は、装置の入力および出力周辺部をCPU 43およびメモリ42に接続してもよい。
オーディオ回路47は主として周辺インターフェース46からオーディオ・データを取得し、該オーディオ・データを電気信号に変換するよう構成されていてもよい。
マイクロホン48は音声データを取得するよう構成されていてもよい。
I/Oサブシステム49は、前記装置上の入力および出力周辺を制御してもよい。I/Oサブシステム49はディスプレイ・コントローラ491および別の入力/制御装置を制御するよう構成された一つまたは複数の入力コントローラ492を含んでいてもよい。任意的に、一つまたは複数の入力コントローラ792は別の入力/制御装置から前記電気信号を取得する、または前記電気信号を別の入力/制御装置に送る。ここで、前記別の入力/制御装置は物理的なボタン(押しボタン、ロッカー・ボタンなど)、ダイヤル盤、スライド・スイッチ、ジョイスティックおよびクリッキング・ホイールを含んでいてもよい。入力コントローラ492は次のうちの任意のものに接続されうることを注意しておくべきである:キーボード、赤外線ポート、USBインターフェースおよびマウスのような指示装置。I/Oサブシステム49中のディスプレイ・コントローラ491は前記電気信号をタッチスクリーン41から取得するまたは前記電気信号をタッチスクリーン41に送る。タッチスクリーン41は該タッチスクリーン上のタッチを取得し、ディスプレイ・コントローラ491は得られたタッチをタッチスクリーン41上のユーザー・インターフェース・オブジェクトとの対話に変換する。すなわち、人‐機械対話を実装する。ここで、タッチスクリーン41上に表示されるユーザー・インターフェース・オブジェクトはゲーム実行のアイコン、対応するネットワークへの接続のアイコン、フィルタリング・モードなどであってもよい。前記装置が光学式マウスを含んでいてもよいことを注意しておくべきである。ここで、光学的マウスは可視出力を表示しないタッチ感応性表面である、またはタッチスクリーンによって形成されるタッチ感応性表面の延長である。
マイクロホン48は大型スクリーン装置の音声データを取得し、該音声データを周辺インターフェース46およびオーディオ回路47を通じてCPU 43に送る。CPU 43は音声データを処理し、音声データに従ってノイズ・シナリオを取得し、ノイズ・シナリオおよびメモリ42によってあらかじめ記憶されている信頼閾値の経験的データに従って信頼閾値を取得するよう構成されていてもよい。
以上の構造は、実施形態1、実施形態2および実施形態3の方法を実行するよう構成されていてもよい。具体的な記述については、実施形態1、実施形態2および実施形態3の方法の記述が参照され、ここで繰り返して述べることはしない。
本発明の技術的解決策は、音声識別のための携帯電話を提供する。本携帯電話では、ノイズ・シナリオが取得され、信頼閾値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って信頼閾値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本携帯電話はノイズ環境の元での音声識別率を大幅に改善する。
上記の実施形態における記述を通じて、当業者は、本発明の実施形態がハードウェアによって実装されても、あるいはファームウェアによって実装されても、あるいはハードウェアとファームウェアの組み合わせによって実装されてもよいことを明瞭に認識しうる。本発明がソフトウェアによって実装されるとき、以上の機能は装置可読媒体に記憶されていてもよいし、あるいは一つまたは複数のコマンドまたはコードとして前記装置可読媒体上で伝送されてもよい。前記装置可読媒体は装置記憶媒体および通信媒体を含む。任意的な通信媒体は、ある場所から別の場所への装置プログラムの伝送を容易にする任意の媒体を含む。記憶媒体は、装置がアクセスできる任意の使用可能な媒体でありうる。以下は、例として取られるべきであり、限定されるものではない。装置可読媒体は:RAM、ROM、EEPROM、CD-ROMまたは他の光ディスク・メモリ、ディスク記憶媒体または他のディスク記憶デバイスまたはコマンドもしくはデータ構造の形で期待されるプログラム・コードを担持もしくは記憶するために使用でき、装置によってアクセスできる他の任意の媒体を含みうる。さらに、任意の接続が適切に、装置可読媒体となりうる。たとえば、ソフトウェアが同軸ケーブル、光学式ケーブル、撚り対線、デジタル加入者線(DSL)または赤外線、電波もしくはマイクロ波のような無線技術を使って、ウェブサイト、サーバーまたは他のリモート源からの伝送を実装する場合、該同軸ケーブル、光学式ケーブル、撚り対線、DSLまたは赤外線、電波もしくはマイクロ波のような無線技術は、ホーム媒体の設備に含まれる。たとえば、本発明の実施形態において使用されるディスクは、コンパクトディスク(CD)、レーザー・ディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピー(登録商標)ディスクおよびブルーレイ・ディスクを含む。一般に、任意的なディスク(disk)はデータを磁気的に複製し、ディスク(disc)はレーザーを使って光学式にデータを複製する。以上の組み合わせも装置可読媒体の保護範囲にはいるべきである。
最後に、上記の記述は単に本発明の実施形態であり、本発明の範囲を限定することは意図されていない。本発明の精神および原理の範囲内でなされる任意の修正、等価な置換および改善は本発明の保護範囲にはいる。

Claims (13)

  1. 音声識別方法であって:
    音声データを取得する段階と;
    前記音声データに従って信頼値を取得する段階と;
    前記音声データに従ってノイズ・シナリオを取得する段階と;
    前記ノイズ・シナリオに対応する信頼閾値を取得する段階と;
    前記信頼値が前記信頼閾値以上であれば、前記音声データを処理する段階とを含み、
    前記ノイズ・シナリオに対応する信頼閾値を取得する段階が:
    信頼閾値のあらかじめ記憶されている経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する前記信頼閾値を取得することを含む、
    方法。
  2. 前記ノイズ・シナリオが:
    ノイズ型;および
    ノイズ大きさを含む、
    請求項1記載の方法。
  3. 前記ノイズ・シナリオがノイズ型を含み、前記音声データに従ってノイズ・シナリオを取得する段階は:
    前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し;
    前記ノイズの周波数ケプストラム係数およびあらかじめ確立されたノイズ型モデルに従って前記音声データのノイズ型を取得することを含む、
    請求項2記載の方法。
  4. 前記あらかじめ確立されたノイズ型モデルを確立する方法が:
    ノイズ・データを取得し;
    前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し;
    EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立することを含む、
    請求項3記載の方法。
  5. 前記ノイズ・シナリオはノイズ大きさを含み、前記音声データに従ってノイズ・シナリオを取得する段階は:
    前記音声データに従って、前記音声データの特徴パラメータを取得し;
    前記特徴パラメータに従って音声活動検出を実行し;
    前記音声活動検出の結果に従って前記ノイズ大きさを取得することを含む、
    請求項2記載の方法。
  6. 前記ノイズ大きさが:
    信号対雑音比;および
    ノイズ・エネルギー・レベルを含む、
    請求項2または5記載の方法。
  7. 音声識別装置であって:
    音声データを取得するよう構成された取得ユニットと;
    前記取得ユニットによって取得された前記音声データを受領し、前記音声データに信頼値を取得するよう構成された信頼値ユニットと;
    前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニットと;
    前記ノイズ・シナリオ・ユニットの前記ノイズ・シナリオを受領し、前記ノイズ・シナリオに対応する信頼閾値を取得するよう構成された信頼閾値ユニットと;
    前記信頼値ユニットによって取得された前記信頼値および前記信頼閾値ユニットによって取得された前記信頼閾値を受領し、前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニットと;
    信頼閾値の経験的データを記憶するよう構成された記憶ユニットとを有し、
    前記信頼閾値ユニットが、前記記憶ユニットによってあらかじめ記憶されている前記信頼閾値の経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する前記信頼閾値を取得するよう構成されている、
    装置。
  8. ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニットをさらに有する、
    請求項7記載の装置。
  9. 前記ノイズ・シナリオ・ユニットが:
    前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニットを有する、
    請求項8記載の装置。
  10. 前記ノイズ・シナリオ・ユニットがさらに:
    前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従ってノイズ大きさを取得するよう構成されたノイズ大きさユニットを有する、
    請求項7ないし9のうちいずれか一項記載の装置。
  11. プロセッサおよびマイクロホンを有するモバイル端末であって、
    前記マイクロホンは音声データを取得するよう構成されており、
    前記プロセッサは、前記音声データに従って信頼値およびノイズ・シナリオを取得し、前記ノイズ・シナリオに従って、前記ノイズ・シナリオに対応する信頼閾値を取得し、前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されており、
    前記プロセッサは、信頼閾値のあらかじめ記憶されている経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する前記信頼閾値を取得するよう構成されている、
    モバイル端末。
  12. 信頼閾値の経験的データを記憶するよう構成されたメモリをさらに有する、請求項11記載のモバイル端末。
  13. 前記プロセッサが、
    前記音声データに従って前記信頼値および前記ノイズ・シナリオを取得し;
    前記メモリによってあらかじめ記憶されている前記信頼閾値の前記経験的データと前記ノイズ・シナリオとの間の対応に従って、前記ノイズ・シナリオに対応する前記信頼閾値を取得し;
    前記信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている、
    請求項12記載のモバイル端末。
JP2016225269A 2013-01-24 2016-11-18 音声識別方法および装置 Active JP6393730B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310027559.9 2013-01-24
CN201310027559.9A CN103971680B (zh) 2013-01-24 2013-01-24 一种语音识别的方法、装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013266713A Division JP6101196B2 (ja) 2013-01-24 2013-12-25 音声識別方法および装置

Publications (2)

Publication Number Publication Date
JP2017058691A true JP2017058691A (ja) 2017-03-23
JP6393730B2 JP6393730B2 (ja) 2018-09-19

Family

ID=49766854

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013266713A Active JP6101196B2 (ja) 2013-01-24 2013-12-25 音声識別方法および装置
JP2016225269A Active JP6393730B2 (ja) 2013-01-24 2016-11-18 音声識別方法および装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2013266713A Active JP6101196B2 (ja) 2013-01-24 2013-12-25 音声識別方法および装置

Country Status (5)

Country Link
US (1) US9666186B2 (ja)
EP (1) EP2763134B1 (ja)
JP (2) JP6101196B2 (ja)
CN (1) CN103971680B (ja)
WO (1) WO2014114048A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017222835A (ja) * 2016-04-04 2017-12-21 住友化学株式会社 樹脂、レジスト組成物及びレジストパターンの製造方法

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR101619260B1 (ko) * 2014-11-10 2016-05-10 현대자동차 주식회사 차량 내 음성인식 장치 및 방법
CN104952449A (zh) * 2015-01-09 2015-09-30 珠海高凌技术有限公司 环境噪声声源识别方法及装置
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105161110B (zh) * 2015-08-19 2017-11-17 百度在线网络技术(北京)有限公司 基于蓝牙连接的语音识别方法、装置和系统
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
KR102420450B1 (ko) * 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106971717A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 机器人与网络服务器协作处理的语音识别方法、装置
CN106971715A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种应用于机器人的语音识别装置
CN106971714A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种应用于机器人的语音去噪识别方法及装置
WO2017147870A1 (zh) * 2016-03-03 2017-09-08 邱琦 拾音式识别方法
JP6844608B2 (ja) * 2016-03-10 2021-03-17 ソニー株式会社 音声処理装置および音声処理方法
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106161795B (zh) * 2016-07-19 2019-03-29 西北工业大学 基于手机麦克风的键盘输入感知方法
CN106384594A (zh) * 2016-11-04 2017-02-08 湖南海翼电子商务股份有限公司 语音识别的车载终端及其方法
WO2018090252A1 (zh) * 2016-11-16 2018-05-24 深圳达闼科技控股有限公司 机器人语音指令识别的方法及相关机器人装置
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN109243431A (zh) * 2017-07-04 2019-01-18 阿里巴巴集团控股有限公司 一种处理方法、控制方法、识别方法及其装置和电子设备
US10706868B2 (en) * 2017-09-06 2020-07-07 Realwear, Inc. Multi-mode noise cancellation for voice detection
CN109672775B (zh) * 2017-10-16 2021-10-29 腾讯科技(北京)有限公司 调节唤醒灵敏度的方法、装置及终端
CN108064007A (zh) * 2017-11-07 2018-05-22 苏宁云商集团股份有限公司 用于智能音箱的增强人声识别的方法及微控制器和智能音箱
CN108022596A (zh) * 2017-11-28 2018-05-11 湖南海翼电子商务股份有限公司 语音信号处理方法及车载电子设备
CN108242234B (zh) * 2018-01-10 2020-08-25 腾讯科技(深圳)有限公司 语音识别模型生成方法及其设备、存储介质、电子设备
CN108416096B (zh) * 2018-02-01 2022-02-25 北京百度网讯科技有限公司 基于人工智能的远场语音数据信噪比估计方法及装置
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN108766459B (zh) * 2018-06-13 2020-07-17 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN108924343A (zh) * 2018-06-19 2018-11-30 Oppo广东移动通信有限公司 电子设备控制方法、装置、存储介质及电子设备
CN109003607B (zh) * 2018-07-12 2021-06-01 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109346099B (zh) * 2018-12-11 2022-02-08 珠海一微半导体股份有限公司 一种基于语音识别的迭代去噪方法和芯片
CN109599121A (zh) * 2019-01-04 2019-04-09 平安科技(深圳)有限公司 基于声纹识别的酒驾检测方法、装置、设备及存储介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110930987B (zh) * 2019-12-11 2021-01-08 腾讯科技(深圳)有限公司 音频处理方法、装置和存储介质
WO2021147018A1 (en) * 2020-01-22 2021-07-29 Qualcomm Incorporated Electronic device activation based on ambient noise
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN114187904A (zh) * 2020-08-25 2022-03-15 广州华凌制冷设备有限公司 相似度阈值获取方法、语音家电及计算机可读存储介质
US11620999B2 (en) 2020-09-18 2023-04-04 Apple Inc. Reducing device processing of unintended audio
CN114743571A (zh) * 2022-04-08 2022-07-12 北京字节跳动网络技术有限公司 一种音频处理方法、装置、存储介质及电子设备
CN115050366B (zh) * 2022-07-08 2024-05-17 合众新能源汽车股份有限公司 一种语音识别方法、装置及计算机存储介质
CN115472152B (zh) * 2022-11-01 2023-03-03 北京探境科技有限公司 语音端点检测方法、装置、计算机设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075595A (ja) * 1999-09-02 2001-03-23 Honda Motor Co Ltd 車載用音声認識装置
JP2003177781A (ja) * 2001-12-12 2003-06-27 Advanced Telecommunication Research Institute International 音響モデル生成装置及び音声認識装置
JP2003202887A (ja) * 2001-12-28 2003-07-18 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6434520B1 (en) 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US8023622B2 (en) * 2000-12-21 2011-09-20 Grape Technology Group, Inc. Technique for call context based advertising through an information assistance service
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
US7103541B2 (en) * 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
JP4357867B2 (ja) * 2003-04-25 2009-11-04 パイオニア株式会社 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US7536301B2 (en) * 2005-01-03 2009-05-19 Aai Corporation System and method for implementing real-time adaptive threshold triggering in acoustic detection systems
KR100745976B1 (ko) * 2005-01-12 2007-08-06 삼성전자주식회사 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US20070055519A1 (en) * 2005-09-02 2007-03-08 Microsoft Corporation Robust bandwith extension of narrowband signals
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP2008009153A (ja) 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
AU2007335251B2 (en) 2006-12-19 2014-05-15 Validvoice, Llc Confidence levels for speaker recognition
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US7881929B2 (en) * 2007-07-25 2011-02-01 General Motors Llc Ambient noise injection for use in speech recognition
US7856353B2 (en) * 2007-08-07 2010-12-21 Nuance Communications, Inc. Method for processing speech signal data with reverberation filtering
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
WO2010128560A1 (ja) 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
CN101593522B (zh) 2009-07-08 2011-09-14 清华大学 一种全频域数字助听方法和设备
WO2011049515A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and voice activity detector for a speech encoder
US8632465B1 (en) * 2009-11-03 2014-01-21 Vivaquant Llc Physiological signal denoising
EP2352312B1 (en) * 2009-12-03 2013-07-31 Oticon A/S A method for dynamic suppression of surrounding acoustic noise when listening to electrical inputs
US9002709B2 (en) 2009-12-10 2015-04-07 Nec Corporation Voice recognition system and voice recognition method
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US9286913B2 (en) 2010-03-30 2016-03-15 Nec Corporation Atmosphere expression word selection system, atmosphere expression word selection method, and program
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
JP5200080B2 (ja) * 2010-09-29 2013-05-15 日本電信電話株式会社 音声認識装置、音声認識方法、およびそのプログラム
US8886532B2 (en) 2010-10-27 2014-11-11 Microsoft Corporation Leveraging interaction context to improve recognition confidence scores
EP2678861B1 (en) * 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
US10418047B2 (en) * 2011-03-14 2019-09-17 Cochlear Limited Sound processing with increased noise suppression
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
US8731936B2 (en) * 2011-05-26 2014-05-20 Microsoft Corporation Energy-efficient unobtrusive identification of a speaker
JP2013114518A (ja) * 2011-11-29 2013-06-10 Sony Corp 画像処理装置、および画像処理方法、並びにプログラム
US20130144618A1 (en) * 2011-12-02 2013-06-06 Liang-Che Sun Methods and electronic devices for speech recognition
US8930187B2 (en) * 2012-01-03 2015-01-06 Nokia Corporation Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device
US20130211832A1 (en) * 2012-02-09 2013-08-15 General Motors Llc Speech signal processing responsive to low noise levels
CN103578468B (zh) 2012-08-01 2017-06-27 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
US8571871B1 (en) * 2012-10-02 2013-10-29 Google Inc. Methods and systems for adaptation of synthetic speech in an environment
CN103065631B (zh) 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075595A (ja) * 1999-09-02 2001-03-23 Honda Motor Co Ltd 車載用音声認識装置
JP2003177781A (ja) * 2001-12-12 2003-06-27 Advanced Telecommunication Research Institute International 音響モデル生成装置及び音声認識装置
JP2003202887A (ja) * 2001-12-28 2003-07-18 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017222835A (ja) * 2016-04-04 2017-12-21 住友化学株式会社 樹脂、レジスト組成物及びレジストパターンの製造方法

Also Published As

Publication number Publication date
US20140207447A1 (en) 2014-07-24
EP2763134B1 (en) 2017-01-04
WO2014114048A1 (zh) 2014-07-31
CN103971680A (zh) 2014-08-06
JP6101196B2 (ja) 2017-03-22
US9666186B2 (en) 2017-05-30
JP6393730B2 (ja) 2018-09-19
JP2014142626A (ja) 2014-08-07
CN103971680B (zh) 2018-06-05
EP2763134A1 (en) 2014-08-06

Similar Documents

Publication Publication Date Title
JP6393730B2 (ja) 音声識別方法および装置
JP6099556B2 (ja) 音声識別方法および装置
US10943582B2 (en) Method and apparatus of training acoustic feature extracting model, device and computer storage medium
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
EP3405947A1 (en) Method and apparatus for initiating an operation using voice data
US20120143608A1 (en) Audio signal source verification system
EP3989217A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN111415653B (zh) 用于识别语音的方法和装置
CN110992940B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN106910494B (zh) 一种音频识别方法和装置
KR101565143B1 (ko) 대화시스템에서 사용자 발화의 정보 분류를 위한 자질 가중치 산출 장치 및 방법
CN115206321A (zh) 语音关键词的识别方法、装置和电子设备
CN111477248B (zh) 一种音频噪声检测方法及装置
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN112786058A (zh) 声纹模型训练方法、装置、设备以及存储介质
Arcos et al. Ideal neighbourhood mask for speech enhancement
CN112863548A (zh) 训练音频检测模型的方法、音频检测方法及其装置
CN115410586A (zh) 音频处理方法、装置、电子设备及存储介质
CN114882890A (zh) 深度学习模型的训练方法、声纹识别方法、装置和设备
CN113658581A (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
CN113436633A (zh) 说话人识别方法、装置、计算机设备及存储介质
CN115064177A (zh) 基于声纹编码器的语音转换方法、装置、设备及介质
CN115691473A (zh) 一种语音端点检测方法、装置和存储介质
CN116758943A (zh) 一种合成语音检测方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180827

R150 Certificate of patent or registration of utility model

Ref document number: 6393730

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250