JP2019525214A - 音声認識 - Google Patents

音声認識 Download PDF

Info

Publication number
JP2019525214A
JP2019525214A JP2018560023A JP2018560023A JP2019525214A JP 2019525214 A JP2019525214 A JP 2019525214A JP 2018560023 A JP2018560023 A JP 2018560023A JP 2018560023 A JP2018560023 A JP 2018560023A JP 2019525214 A JP2019525214 A JP 2019525214A
Authority
JP
Japan
Prior art keywords
feature vector
training data
data
clustered
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018560023A
Other languages
English (en)
Other versions
JP7008638B2 (ja
Inventor
シュエ シャオフェイ
シュエ シャオフェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2019525214A publication Critical patent/JP2019525214A/ja
Application granted granted Critical
Publication of JP7008638B2 publication Critical patent/JP7008638B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音声認識方法は、トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得することと、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することと、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して音声認識モデルを最適に調整することとを含む。本開示の技術は、音声認識精度及び適応型処理効率を改善する。

Description

関連特許出願の相互参照
本出願は2016年6月30日に出願の、「Method of speech recognition and device thereof」と題する、中国特許出願第201610509783.5号の優先権を主張し、その全体を参照により本願明細書に援用する。
本開示は、音声認識の分野に関し、より詳しくは、音声認識のための方法及び装置に関する。
音声認識技術は、自動音声認識(Automatic Speech Recognition(ASR))とも呼ばれ、人間の音声の内容をキーまたは二進符号化キャラクタシーケンスなどのコンピュータ可読の入力に変換する。音声認識は学際的なものであり、それは、信号処理、パターン認識、確率論及び情報理論、音声メカニズム及び聴覚メカニズム、人工知能などの分野を含む。近年、音声認識技術は、研究室を起点として市場へ著しく前進した。音声認識技術は、産業、家庭用電気機器、通信、自動車エレクトロニクス、医療、家族サービス及び消費者向けエレクトロニクス製品のすべての領域に入りつつある。
音声認識音響モデルは、音声認識の精度を改善する重要な技術である。音声認識音響モデルには、個人化された音声認識及び他の分野の重要な用途がある。音声認識音響モデルは通常適応型データを使用して、元の音響モデルを修正して一定程度まで性能を高める。特徴ベクトルに基づく適応型方法はますます普及してきており、特徴ベクトル(例えば、iベクトル(i−vector))は音声認識の精度を改善する補償として音響モデルに入力することができる。従来技術では、良好な性能を有する特徴ベクトルを取得するために大量のトレーニング日数が必要である。トレーニングデータが制限されると、推定された声紋特徴ベクトルは効果的に音声認識を改善することができない。しかしながら、音声認識のためのいくつかの用途のシナリオに対して、ユーザは短いスピーチ(例えば、近くでホテルを検索する)をすることが多い。これは、適応型音声認識により多くのことを要求する。
本開示の例示の実施形態は、音声認識の方法及びその装置に、そして、音声認識精度及び適応型処理効率を改善することに関する。本概要は、請求する主題のすべての重要な特徴あるいは本質的な特徴を特定することを意図するものではなく、また請求する主題の範囲を判定する際の助けとするためだけに使用することを意図するものでもない。
本開示の例示の実施形態は、音声認識の方法を提供する。
オーディオキャプチャ装置は、オーディオ、例えばユーザによって述べられるいくつかの文を、トレーニングデータとして記録する。あるいは、オーディオキャプチャ装置は、別のコンピューティング装置からトレーニングデータとしてオーディオを受けることができる。例えば、オーディオキャプチャ装置は、マイクロホン、モバイル機器上の話者などの音声認識のための装置の一部でもよい。別の例として、オーディオキャプチャ装置は、ボイスレコーダなどの音声認識のための装置とは別のコンピューティング装置でもよい。音声認識のための装置は、以下の音声認識の方法のすべてのステップを適用することができるか、トレーニングデータを分散環境の音声認識のための1つ以上のサーバに発信することができるか、または、音声認識のための1つ以上のサーバに以下の方法のいくつかのステップを実行することを要求することができる。
方法は、トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得することと、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することと、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して音声認識モデルを最適に調整することとを含むことができる。
実装において、方法は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて音声認識モデルに適応型トレーニングを実行して、トレーニングデータのクラスタリングされた特徴ベクトルを取得した後に音声認識モデルを取得することを含むことができる。
実装において、方法は、トレーニングデータの特徴ベクトルのクラスタリングの後で、かつ、トレーニングデータのクラスタリングされた特徴ベクトルを取得する前に、クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行することを含むことができる。
実装において、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することは、認識すべきデータの特徴ベクトルとトレーニングデータのクラスタリングされた特徴ベクトルの間のコサイン距離を算出して、コサイン距離がある値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行することによって、実施することができる。
実装において、方法は、補間演算の間、補間の調整可能パラメータを設定することと、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトルに対するトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定することとをさらに含むことができる。
実装において、トレーニングデータの特徴ベクトルは、声紋特徴ベクトル、ノイズ特徴ベクトル、方言特徴ベクトルまたはシーン情報特徴ベクトルの少なくとも1つを含む。
本開示の別の例示の実施形態は、音声認識のための装置を提供する。
オーディオキャプチャ装置は、オーディオ、例えばユーザによって述べられるいくつかの文を、トレーニングデータとして記録する。あるいは、オーディオキャプチャ装置は、別のコンピューティング装置からトレーニングデータとしてオーディオを受けることができる。例えば、オーディオキャプチャ装置は、マイクロホン、モバイル機器上の話者などの音声認識のための装置の一部でもよい。別の例として、オーディオキャプチャ装置は、ボイスレコーダなどの音声認識のための装置とは別のコンピューティング装置でもよい。音声認識のための装置は、単独で音声認識だけを実行するか、トレーニングデータを分散環境の音声認識のために1つ以上のサービス者に発信するか、または、1つ以上のサーバに音声認識のいくつかのステップを要求することができる。
例えば、装置は、トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得するように構成されるクラスタリングモジュールと、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行するように構成される補間モジュールと、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して音声認識モデルを最適に調整するように構成される適応型調整モジュールとを含むことができる。
実装において、装置は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて音声認識モデルに適応型トレーニングを実行して音声認識モデルを取得するように構成されるモデル適応型モジュールをさらに含むことができる。
実装において、装置は、クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行するように構成される重み付けモジュールをさらに含むことができる。
実装において、補間モジュールは、認識すべきデータの特徴ベクトルとトレーニングデータのクラスタリングされた特徴ベクトルの間のコサイン距離をさらに算出して、コサイン距離がある値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行するように構成することができる。
実装において、補間モジュールは、補間の調整可能パラメータを設定して、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトルに対するトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定するように構成することができる。
実装において、トレーニングデータの特徴ベクトルは、声紋特徴ベクトル、ノイズ特徴ベクトル、方言特徴ベクトルまたはシーン情報特徴ベクトルの少なくとも1つを含むことができる。
本開示の別の例示の実施形態は、コンピュータ可読の命令を格納した1つ以上のメモリを提供し、この命令は1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、コンピューティング装置の1つ以上のプロセッサによってトレーニングデータの特徴ベクトルをクラスタリングして、クラスタリングされたトレーニングデータの特徴ベクトルを取得すること、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行すること、及び、認識すべきデータの特徴ベクトルを音声認識モデルに入力して音声認識モデルを最適に調整することを含む動作を実行させる。
例えば、動作はさらに、トレーニングデータのクラスタリングされた特徴ベクトルを用いて音声認識モデルの適応型トレーニングを実行して、トレーニングデータのクラスタリングされた特徴ベクトルを取得した後に音声認識モデルを取得することを含む。
例えば、動作は、さらにトレーニングデータの特徴ベクトルのクラスタリングの後で、かつ、トレーニングデータのクラスタリングされた特徴ベクトルを取得する前に、クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行することを含む。
例えば、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することは、認識すべきデータの特徴ベクトルとトレーニングデータのクラスタリングされた特徴ベクトルの間のコサイン距離を算出すること、及び、コサイン距離がプリセット値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行することを含む。
例えば、動作はさらに、補間演算の間、補間の調整可能パラメータを設定すること、及び、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトル上のトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定することを含む。
従来の音声認識技術に関して、そして、特に適応型音声認識技術に関して、本開示の例示の実施形態は、トレーニングステージの間、トレーニングデータの特徴ベクトルをクラスタリングして、トレーニングデータの特徴ベクトルの数を減らし、精度を改善する。さらに、トレーニングデータのクラスタリングされた特徴ベクトルがモデルを決めるために用いられると、ベクトルの次元は削減される。したがって、モデルの複雑さが低減される。さらに、本開示の例示の実施形態は、認識ステージの間、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行する。トレーニングデータの量が相対的に多いので、精度は高い。したがって、本開示の例示の実施形態は、認識すべきデータの量が少ない(例えば、ユーザにより提供される短い音声クリップの)音声認識に、特に適している。相対的により正確なトレーニングデータを使用して認識すべきデータを補償することによって、音声認識のより正確な結果を得ることができる。さらに、モデルの複雑さが低減されるので、効率は認識ステージの間、改善することができる。
以下の詳細な説明は図示された例示の実施形態及び添付の図面を参照してなされるが、当業者は、本開示がこれらの例示の実施形態に限定されないことを理解するであろう。さらに、本開示の範囲は広範囲にわたり、そして添付の特許請求の範囲は本開示の範囲を定めることを目的としている。
発明を実施するための形態は、添付の図面を参照して説明する。異なる図面において同一の参照番号を使用する場合は、類似しているかまたは同一の項目であることを示す。
本開示の例示の実施形態による音声認識の例示的方法を示すフローチャートである。 本開示の例示の実施形態による話者適応のための適応型システムを示す概要図である。 本開示の例示の実施形態による音声認識のための装置を示す概要図である。
以下の詳細な説明は図示された例示の実施形態及び添付の図面を参照してなされるが、当業者は、本開示がこれらの例示の実施形態に限定されないことを理解するであろう。さらに、本開示の範囲は広範囲にわたり、そして特許請求の範囲は本開示の範囲を定めることを目的としている。
いくつかの典型的な例示の実施形態が、フローチャートの形で方法またはプロセスとして記載される点に留意する必要がある。フローチャートはシーケンシャルプロセスとして記載されるが、多くの操作は、並行して、共同で、または同時に実行することができる。加えて、操作の順序は、再編成することができる。操作が終了されるときに、図面に含まれない追加的な操作があってもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応することができる。
コンピュータ装置は、ユーザ機器及びネットワーク装置を含む。ユーザ機器としては、コンピュータ、スマートフォン、PDAなどが含まれるが、これに限定されるものではない。ネットワーク装置としては、コンピュータ、ネットワークホスト、単一のネットワークサーバ、マルチサーバクラスタまたは複数サーバを含むクラウドを含むことができるが、これに限定されるものでない。クラウドコンピューティングは、分散コンピューティングであり、疎結合コンピュータセットのグループを有する仮想スーパーコンピュータを含む。本開示の例示の実施形態は、コンピューティング装置及び/またはネットワークを介した他のコンピューティング装置によって実装することができる。コンピュータネットワーク装置は、インターネット、WAN、MAN、LAN、VPNネットワークに配置されるが、それに限られてはいない。
ユーザ機器、ネットワーク装置及びネットワークが例でしかなく、本開示に適用できる既存の、または可能性がある将来の装置も本開示の保護の範囲内であり、参照により本願明細書に引用されている点に留意する必要がある。
本明細書において述べられる(プロセスで例示される場合もある)方法は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコードまたはハードウェア記述言語の少なくとも1つによって実装することができる。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードによって実装されるときに、本開示の例示の実施形態は、マシンまたはコンピュータ可読媒体(例えば記憶媒体)に格納することができるアプリケーションソフトウェア/プログラムを用いて実装することができる。1つ以上のプロセッサが必要なタスクを実行することができる。
本明細書において開示される特定の構造及び機能の詳細は、単に代表的なもので、本開示の例示の実施形態を記載するためのものである。しかしながら、本開示は多くの異なる形態で実施することができ、それは本明細書において記載される例示の実施形態に限定されると解釈されるべきではない。
用語「第1の」、「第2の」などが本明細書において個々のユニットを記載するために用いられるが、これらのユニットはこれらの用語に限られてはいない。これらの用語は、ある要素を別の要素と区別するために用いるだけである。例えば、典型的な例示の実施形態の範囲を逸脱することなく、第1の要素が第2の要素と称されることができて、同様に、第2の要素が第1の要素と称されることができる。本明細書において使用する場合、用語「及び/または」は、関連する列挙されたアイテムの任意の1つ以上及びそれらのすべての組み合わせも含む。
要素が別の要素に「接続される」かまたは「連結する」と呼ばれるとき、要素は他の要素に直結もしくは連結されていることができ、または、中間ユニットが存在することもあり得る。一方で、要素が別の要素に「直結である」かまたは「直接連結する」と呼ばれるときは、介在要素が存在しない。ユニットの間の関係を記載するために用いる他の用語は、同様の方法で解釈されなければならない。これらの用語の例として含まれるのは、「...の間にある」と比較して「直接...の間に位置する」、そして、「隣接するものを有する...」と比較して「及び、直接隣接する...」などである。
本願明細書において用いられる用語は、特定の例示の実施形態だけを記載するためのものであり例示の実施形態を典型的な例示の実施形態に限定することを意図しない。文脈が明確に示さない場合、本明細書で使用される単数の形式、「a」、「an」は、複数を含むことを意図している。用語「含む(comprising)」及び/または「含む(including)」は、記載されている特徴、完全体、ステップ、操作、要素及び/またはコンポーネントの存在を定義するものであり、1つ以上の他の特徴、完全体、ステップ、操作、要素、コンポーネント及び/またはそれらの組み合わせの存在または追加を排除することができないということも理解すべきである。
いくつかの他の実装で、強調される機能/動作が図において示される順序とは異なって発生する場合があることも注意すべきである。例えば、関係する機能性/動作によって、結果として生じる2つの図が、実際は、実質的に同時に実行されてもよく、または、時には逆順で実行されてもよい。
最初に、本開示の例示の実施形態における用語を以下に説明する。
音声認識は、人間の音声の語彙的な内容をキーまたは二進符号化キャラクタシーケンスなどのコンピュータ可読の入力に変換する。
クラスタ分析は、多重パターンを含むことができる。通常、パターンは、測定のベクトルまたは多次元空間内の点を指す。クラスタ分析は類似性に基づいて実行されて、クラスタ内のパターンには他のクラスタにおけるそれより多くの類似性がある。
補間は、特定の空間のいくつかの点で関数f(x)の関数値を使用して特定の適切な機能を行う方法を指す。方法は、その特定の関数の値を関数f(x)の近似として特定の空間の他の点でさらに使用する。この特定の関数が多項式である場合、それは多項式補間と呼ばれている。
話者適応は特定の対象話者の音声データを使用すること、すなわち適応型データのモデル化を使用して対象話者の音響モデルの精度を最大にすることを指す。
話者適応における用語「i−vector」は、各話者と関連したベクトルを指して、会話の間、話者を他の話者と区別するために用いる。
以下では本開示の実装の添付図面と連動して詳述する。
図1は、本開示の例示の実施形態による音声認識の例示的方法を示すフローチャートである。方法は、コンピューティング装置によって実行される以下の操作を含むことができる。
S102で、コンピューティング装置はトレーニングデータの特徴ベクトルをクラスタリングして、トレーニングデータのクラスタリングされた特徴ベクトルを取得することができる。
S104で、コンピューティング装置は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することができる。
S106で、コンピューティング装置は、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して、音声認識モデルを最適に調整することができる。
トレーニングステージの間、コンピューティング装置は、トレーニングデータの特徴ベクトルをクラスタリングすることに集中することができる。認識ステージの間、コンピューティング装置は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することができる。
従来の音声認識技術に関して、そして、特に適応型音声認識技術に関して、本開示の例示の実施形態は、トレーニングステージの間、トレーニングデータの特徴ベクトルをクラスタリングして、トレーニングデータの特徴ベクトルの数を減らし、精度を改善する。さらに、トレーニングデータのクラスタリングされた特徴ベクトルがモデルを決めるために用いられると、ベクトルの次元は削減される。したがって、モデルの複雑さが低減される。さらに、認識ステージの間、本開示の例示の実施形態は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行する。トレーニングデータの量が相対的に多いので、精度は高い。したがって、本開示の例示の実施形態は、認識すべきデータの量が少ない(例えば、ユーザにより提供される短い音声クリップの)音声認識に、特に適している。相対的により正確なトレーニングデータを使用して認識すべきデータを補償することによって、音声認識のより正確な結果を得ることができる。さらに、モデルの複雑さが低減されるので、効率は認識ステージの間、改善することができる。
クラスタ分析は、多重パターンを含むことができる。通常、パターンは、測定のベクトルまたは多次元空間内の点に関連する。クラスタ分析は類似性に基づいて実行されて、クラスタ内のパターンには他のクラスタにおけるそれより多くの類似性がある。クラスタリングアルゴリズムは、分割手法、階層的手法、密度アルゴリズム、グラフ理論クラスタリング手法、メッシュ化アルゴリズム及びモデルアルゴリズムに分けることができる。具体的なアルゴリズムは、例えば、K−MEANS、K−MEDOIDS、Clara、Claransなどを含む。
補間演算は、補間または差分法も指す。実装は、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することができる。したがって、クラスタリングされた特徴ベクトルに基づいて、コンピューティング装置は認識すべきデータの特徴ベクトルのための近似解を採用することができる。
音声認識音響モデルは、音声認識の精度を改善する重要な技術である。モデルは話者適応、方言(アクセント)適応、ノイズ適応、シーン適応などを含むことができる。音声認識音響モデルには、個人化された音声認識及び他の分野の重要な用途がある。音声認識音響モデルは通常適応型データを使用して、元の音響モデルを修正して一定程度まで性能を高める。適応型データが制限されると、適応型効果は明らかでない。本開示はクラスタリング及び適応型補間に基づく方法を提供して、音響モデルの迅速及び効果的な適応を達成する。
本開示の例示の実施形態は音声認識のための技術を提供して、それが音声認識全体及び話者適応、方言(アクセント)適応、ノイズ適応、シーン適応などのシナリオに対して使用され得る。
例えば、音声認識全体に対して、特徴ベクトルは、音声、ノイズ、シーンの影響及び方言の影響の音響処理全体の後に取得される特徴ベクトルを含む。データは、全般的に音声特徴データを指す。適応型話者認識に対して、特徴ベクトルは、声紋特徴ベクトルを指す。声紋特徴ベクトルは、対応する話者を考慮することによって取得される音声特徴データである。方言(アクセント)適応型認識に対して、特徴ベクトルは、方言特徴ベクトルを指す。ノイズ適応型認識に対して、特徴ベクトルは、様々なレベルのノイズ特徴ベクトルを指す。シナリオ適応型認識に対して、特徴ベクトルは、シナリオ特徴ベクトルを指す。
トレーニングステージの間、例示の実施形態は、特徴ベクトルのクラスタリングに関連する。認識ステージの間、例示の実施形態は、トレーニングデータのクラスタリングされた特徴ベクトルを用いた認識すべきデータの特徴ベクトルの補間演算に関連する。これらの例示の実施形態が、本開示に主に記載されている。
本開示による話者適応のための音声認識技術の例が提供される。
話者適応は特定の対象話者の音声データを使用し、すなわち適応型データのモデル化を使用して対象話者の音響モデルの精度を最大にする。話者適応は、話者に関連した音声特徴を話者に関連していない音声特徴に変換するかまたは話者に関連していない音声特徴を話者に関連した音声特徴に変換して、より良好な認識結果を得る。
用語「i−vector」は、各話者と関連したベクトルを指して、会話の間、話者を他の話者と区別するために用いる。通常、話者及びチャネルは、話者空間及びチャネル空間という2つの独立したモデル化空間である。話者空間(Eigenvoice)は固有の音のマトリックスVによって表されて、チャネル空間(Eigenchannel)は固有のチャネルのマトリックスUによって表される。2つの空間のモデル化は、効果的に話者を判定するのを助けることができる。しかしながら、JFAの技術は、話者空間と音声データのチャネル空間を厳密に区別することができない。この特徴に対して、総因子分析技術が提案されており、総空間変動と呼ばれる単一空間だけを使用して連合した話者及び情報チャネルを表す。変動因子は総分散マトリックスによって定義され、それは総変動共分散マトリックスの最大固有値固有ベクトルに対応する特徴ベクトルを含む。変動因子に関連した技術では、GMMスーパーベクトル空間における話者及びチャネル空間の効果は区別されない。音声データの所与の期間を仮定すると、話者空間及びチャネル空間を含む総変動空間のスーパーベクトルのGMM平均値が以下の等式によって表される。
M=m+Tw
ここで、mは、UBMの平均スーパーベクトルであり、話者空間及びチャネル空間に関連していない情報を表すために用いる。TはCF×R次元の低オーダ総変化マトリックスであり、CはGMMのガウス分布の数であり、Fは音響特性の次元であり、Rは総可変性マトリックスに含まれる特徴ベクトルの数であり、ベクトルwは総可変性因子のベクトルであり。それは標準正規分布N(0,I)に従う。これらの例において、各要素は、総一次元変動因子を表し、ベクトルwは、アイデンティティベクトル(すなわち、i−vector)である。
コンピューティング装置は、特徴トレーニングDNNの入力となるべき対応する話者から抽出される音声特徴データ及び声紋特徴ベクトルを結合することができる。音声認識の間、認識すべきデータの特徴ベクトル及び対応する話者の声紋特徴ベクトルは、認識をデコードするためにDNNに入力することができる。
従来技術では、話者適応のための良好な性能を有する話者の声紋特徴ベクトルを取得するために大量のトレーニング日数が必要である。トレーニングデータが制限されると、推定された声紋特徴ベクトルは音声認識を効果的に改善することができない。この結果2つの欠点があり、1.声紋特徴ベクトルが正確に推定されていない(例えば、トレーニングデータが話者の情報を含まず、または音声データの期間が短すぎる)と、適応型トレーニングはそのデータを使用して正確に実行することができず、2.オンラインの音声認識の声紋特徴ベクトルを推定するためのデータ量があまりに少なくて、有意な結果が話者適応のために達成できない。
上記の欠点を解決するために、本開示の例示の実施形態は、話者のクラスタリング及び補間に基づいた高速かつ効果的な話者適応の方法を提供する。
図2は、本開示の例示の実施形態による話者適応のための適応型システムを示す概要図である。システムは、トレーニングステージ及び認識ステージ(すなわち、テストステージ)に分けられる。音声認識技術の例は、話者適応の各態様に対して提供される。
(1)最初に、声紋情報は音声トレーニングデータ202から抽出されて、声紋特徴ベクトル204はi−vector、話者コードなどを含むが、これに限定されるものではない。
(2)上記ステップで抽出される声紋特徴ベクトルは、管理されない方法でクラスタリングされ、クラスタリング方法としては、k−means、階層的クラスタリングなどが含まれるが、これに限定されるものではない。同じクラスタに属している声紋特徴ベクトルは、同じ「話者」からのものとみなされ、話者クラスタリング206を有する。
(3)クラスタに属している声紋特徴ベクトルは、重み付けされて平均されて、「話者」の声紋特徴ベクトルを取得することができる。トレーニングデータの声紋特徴ベクトルは、208でクラスタリングされる。
(4)以前のステップで取得された声紋特徴ベクトルが、音声認識音響モデルの適応型トレーニング210のために用いられて、話者212に関連するモデルを取得する。
上記の4つの操作によって、トレーニングは完了する。
以下は、テストまたは認識ステージである。
Figure 2019525214
したがって、補間演算の間、コンピューティング装置は、補間の調整可能パラメータを設定して、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトルに対するトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定することができる。
Figure 2019525214
図2は、話者適応の例示の実施形態を示す。実際には、本開示の例示の実施形態は、話者適応、方言適応、ノイズ適応、シーン適応などを含むことができる
例えば、話者適応型認識に対して、特定のタイプの方言データは、トレーニングステージの間、方言特徴ベクトルを取得するためのデータトレーニングによって取得することができる。さらに、クラスタリングの後、クラスタリングされた方言特徴ベクトルは、それに応じて取得することができる。認識ステージの間、本開示の例示の実施形態は、トレーニングデータのクラスタリングされた方言特徴ベクトルを用いて認識すべきデータの方言特徴ベクトルに補間演算を実行して、補間演算の後、音声認識モデルに特徴ベクトルを入力して、モデルの適応型調整を実行する。
同様に、ノイズ適応型認識に対して、トレーニングステージの間、異なるレベルのノイズはセグメント化(分類)することができて、それはクラスタリングプロセスである。認識ステージの間、コンピューティング装置は、トレーニングデータのクラスタリングされたノイズ特徴ベクトルを用いて認識すべきデータのノイズ特徴ベクトルに補間演算を実行して、補間演算の後、音声認識モデルに特徴ベクトルを入力して、モデルの適応型調整を実行することができる。
シーン適応型認識に対して、トレーニングステージの間、ユーザは通常、情報のための予め設定された基準テンプレートにシーンの情報を入力するかまたは提示することが要求される。情報の個々の部分はクラスタリングされて、クラスタリングされたシーン情報特徴ベクトルを取得することができる。認識ステージの間、本開示の例示の実施形態は、トレーニングデータのクラスタリングされたシーン情報特徴ベクトルを用いて認識すべきデータのシーン情報特徴ベクトルに補間演算を実行して、補間演算の後、音声認識モデルに特徴ベクトルを入力して、モデルの適応型調整を実行する。
実装において、音声認識全体及び、話者適応、方言適応、ノイズ適応、シーン適応などの他のシナリオを考慮することができる。いくつかの実装において、トレーニングステージの間、入力されたトレーニングデータの特徴は、声紋特徴、方言特徴、ノイズ特徴及びシーン特徴を含むことができる。データを使用して特徴ベクトルを生成するときに、各特徴に対応する特徴ベクトルを生成してそれぞれクラスタリングして、クラスタリングされた特徴ベクトルを取得することができる。認識ステージの間、コンピューティング装置は、トレーニングデータの各タイプのクラスタリングされた特徴ベクトルを用いて認識すべきデータの対応する特徴ベクトルに補間演算を実行して、補間演算の後、照合するために対応する音声認識モデルに各タイプの特徴ベクトルを入力して、モデルの適応型調整を実行することができる。
本開示の例示の実施形態は、上記の方法に対応する適応型音声認識のための装置に関する。図3で図示するように、装置300は、1つ以上のプロセッサ(複数可)302またはデータ処理ユニット(複数可)及びメモリ304を含む。装置300は、1つ以上の入出力インタフェース(複数可)306及びネットワークインターフェース(複数可)308をさらに含むことができる。メモリ304は、コンピュータ可読媒体の例である。
コンピュータ可読媒体は、揮発性及び不揮発性、着脱可能な及び取り外し不可能な媒体を含み、任意の方法または技術を使用して情報を格納することができる。情報は、コンピュータ可読の命令、データ構造及びプログラムまたは他のデータのモジュールでもよい。コンピュータ記憶媒体の例には、限定するものではないが、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、その他のタイプのRAM、ROM、電気的消去可能プログラム可能読出し専用メモリ(EEPROM)、フラッシュメモリもしくはその他のメモリ技術、コンパクトディスク読出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)もしくはその他の光学記憶、カセットテープ、テープディスク記憶もしくはその他の磁気記憶装置、またはコンピューティング装置にアクセス可能な情報を記憶するものであり得るあらゆるその他の非送信媒体を含む。本明細書における定義によれば、コンピュータ可読媒体は、一時的コンピュータ可読媒体(一時的媒体)、例えば、変調されたデータ信号及び搬送波を含まない。
メモリ304は、トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得するように構成されるクラスタリングモジュール310、トレーニングデータのクラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行するように構成される補間モジュール312、及び、認識すべきデータの特徴ベクトルを補間演算の後に音声認識モデルに入力して最適に音声認識モデルを調整するように構成される適応型調整モジュール314を含む、複数のモジュールまたはユニットを中に格納することができる。
実装において、装置300は、記憶304に格納され、トレーニングデータのクラスタリングされた特徴ベクトルを用いて音声認識モデルに適応型トレーニングを実行して音声認識モデルを取得するように構成される、モデル適応型モジュール316をさらに含むことができる。
実装において、装置は、クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行するように構成される重み付けモジュール318をさらに含むことができる。
実装において、補間モジュール312は、認識すべきデータの特徴ベクトルとトレーニングデータのクラスタリングされた特徴ベクトルの間のコサイン距離を算出して、コサイン距離がある値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行することができる。
実装において、補間モジュール312は、補間の調整可能パラメータを設定して、調整可能パラメータの値を調整することによって、認識すべきデータの特徴ベクトルに対するトレーニングデータのクラスタリングされた特徴ベクトルの影響の程度を設定するように構成することができる。
実装において、トレーニングデータの特徴ベクトルは、声紋特徴ベクトル、ノイズ特徴ベクトル、方言特徴ベクトルまたはシーン情報特徴ベクトルの少なくとも1つを含む。
本開示がハードウェア、ソフトウェアまたはハードウェア及びソフトウェアの組合せによって完全に実施することができる点に留意する必要がある。例えば、本開示は、特定集積回路(ASIC)、汎用コンピュータまたは他の任意の類似のハードウェアを使用して実施することができる。いくつかの実装において、アプリケーションソフトウェア/プログラムはプロセッサによって実施して、上記のステップまたは機能を実行することができる。同様に、アプリケーションソフトウェア/プログラム(関連データ構造を含む)は、コンピュータ可読媒体、例えば、RAMメモリ、磁気もしくは光学的ドライブまたはフロッピーディスク及び類似の装置に格納することができる。加えて、本開示のいくつかのステップまたは機能は、例えば、特定のステップ及び/または機能を実行するプロセッサ及び回路を含むハードウェアにおいて実装することができる。
加えて、本開示の一部は、コンピュータプログラム製品、例えばコンピュータプログラム命令として実装することができて、コンピュータを作動させることによって実行されると、本開示の方法または技術的解決策を呼び出すか、または提供することができる。本開示による呼び出されるプログラム命令は、固定であるか着脱可能な記録媒体に記憶されることができ、及び/または、データストリーム、無線またはその他の信号搬送波を介して送信することができ、及び/またはコンピュータプログラム命令を実行するコンピューティング装置の作業メモリに記憶することができる。ここで、本開示の実装は装置を含み、それはコンピュータプログラム命令を格納しているメモリ及びプログラム命令を実行するためのプロセッサを含んでおり、実行されると、いくつかの実装の方法及び/または技術的解決策は装置によって実行されることができる。
当業者は、本開示の実装がそれらの詳細な例示の実装に限定されず、そして矛盾無く、本開示が他の実装によって達成され得るということを理解すべきである。したがって、上記の記述は単に説明するだけのものであり、そして限定的なものではなく、本発明の範囲は前述の説明によるよりもむしろ添付の請求の範囲により、したがって、請求項の範囲内となることを意図するすべての変更及び等価物は本出願の範囲内である。請求項におけるいかなる図面の参照も、請求項を制限する権利とみなされてはならない。加えて、明らかに、「含む」ことは他の要素またはステップを除外するものではなく、そして単数は複数を除外しない。請求項において詳述される複数のユニットまたは手段は、多重のユニット/装置またはハードウェア及びソフトウェアを含む多重のユニット/装置を指す。第1及び第2は、いかなる特定の順序も示すものではなく、名前を示すために用いる。

Claims (20)

  1. コンピューティング装置の1つ以上のプロセッサによってトレーニングデータの特徴ベクトルをクラスタリングして、トレーニングデータのクラスタリングされた特徴ベクトルを取得することと、
    トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することと、
    認識すべきデータの前記特徴ベクトルを音声認識モデルに入力して前記音声認識モデルを最適に調整することと
    を含む方法。
  2. トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて前記音声認識モデルの適応型トレーニングを実行して、トレーニングデータの前記クラスタリングされた特徴ベクトルを取得した後に前記音声認識モデルを取得すること
    をさらに含む、請求項1に記載の方法。
  3. トレーニングデータの前記特徴ベクトルのクラスタリングの後で、かつ、トレーニングデータの前記クラスタリングされた特徴ベクトルを取得する前に、
    クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行すること
    をさらに含む、請求項1に記載の方法。
  4. トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの前記特徴ベクトルに補間演算を前記実行することが、
    認識すべきデータの前記特徴ベクトルとトレーニングデータの前記クラスタリングされた特徴ベクトルの間のコサイン距離を算出することと、
    コサイン距離がプリセット値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの前記特徴ベクトルに補間演算を実行することと
    を含む、請求項1に記載の方法。
  5. 前記補間演算の間、補間の調整可能パラメータを設定することと、
    前記調整可能パラメータの値を調整することによって、認識すべきデータの前記特徴ベクトル上のトレーニングデータの前記クラスタリングされた特徴ベクトルの影響の程度を設定することと
    をさらに含む、請求項4に記載の方法。
  6. トレーニングデータの前記特徴ベクトルが声紋特徴ベクトルを含む、請求項1に記載の方法。
  7. トレーニングデータの前記特徴ベクトルがノイズ特徴ベクトルを含む、請求項1に記載の方法。
  8. トレーニングデータの前記特徴ベクトルが方言特徴ベクトルを含む、請求項1に記載の方法。
  9. トレーニングデータの前記特徴ベクトルがシーン情報特徴ベクトルを含む、請求項1に記載の方法。
  10. トレーニングデータの特徴ベクトルをクラスタリングしてトレーニングデータのクラスタリングされた特徴ベクトルを取得するように構成されるクラスタリングモジュールと、
    トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行するように構成される補間モジュールと、
    認識すべきデータの前記特徴ベクトルを前記補間演算の後に音声認識モデルに入力して、前記音声認識モデルを最適に調整するように構成される適応型調整モジュールと
    を含む装置。
  11. 前記装置がトレーニングデータの前記クラスタリングされた特徴ベクトルを用いて前記音声認識モデルの適応型トレーニングを実行して前記音声認識モデルを取得するように構成されるモデル適応型モジュールをさらに含む、請求項10に記載の装置。
  12. 前記装置がクラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行するように構成される重み付けモジュールをさらに含む、請求項10に記載の装置。
  13. 前記補間モジュールが認識すべきデータの前記特徴ベクトルとトレーニングデータの前記クラスタリングされた特徴ベクトルの間のコサイン距離をさらに算出して、コサイン距離がある値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの特徴ベクトルに補間演算を実行するように構成される、請求項12に記載の装置。
  14. 前記補間モジュールが、補間の調整可能パラメータを設定して、前記調整可能パラメータの値を調整することによって認識すべきデータの前記特徴ベクトルに対するトレーニングデータの前記クラスタリングされた特徴ベクトルの影響の程度を設定するように構成される、請求項13に記載の装置。
  15. トレーニングデータの前記特徴ベクトルが声紋特徴ベクトル、ノイズ特徴ベクトル、方言特徴ベクトルまたはシーン情報特徴ベクトルの少なくとも1つを含む、請求項10に記載の装置。
  16. 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    コンピューティング装置の1つ以上のプロセッサによってトレーニングデータの特徴ベクトルをクラスタリングして、クラスタリングされたトレーニングデータの特徴ベクトルを取得することと、
    トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの特徴ベクトルに補間演算を実行することと、
    認識すべきデータの前記特徴ベクトルを音声認識モデルに入力して前記音声認識モデルを最適に調整することと
    を含む動作を実行させるコンピュータ可読の命令を格納する1つ以上のメモリ。
  17. 前記動作が、
    トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて前記音声認識モデルの適応型トレーニングを実行して、トレーニングデータの前記クラスタリングされた特徴ベクトルを取得した後に前記音声認識モデルを取得すること
    をさらに含む、請求項16に記載の1つ以上のメモリ。
  18. 前記動作が、
    トレーニングデータの前記特徴ベクトルのクラスタリングの後で、かつ、トレーニングデータの前記クラスタリングされた特徴ベクトルを取得する前に、
    クラスタに属しているトレーニングデータのクラスタリングされた特徴ベクトルに加重平均処理を実行すること
    をさらに含む、請求項16に記載の1つ以上のメモリ。
  19. トレーニングデータの前記クラスタリングされた特徴ベクトルを用いて認識すべきデータの前記特徴ベクトルに補間演算を前記実行することが、
    認識すべきデータの前記特徴ベクトルとトレーニングデータの前記クラスタリングされた特徴ベクトルの間のコサイン距離を算出することと、
    コサイン距離がプリセット値より大きいトレーニングデータのクラスタリングされた特徴ベクトルの所定数を使用して認識すべきデータの前記特徴ベクトルに補間演算を実行することと
    を含む、請求項16に記載の1つ以上のメモリ。
  20. 前記動作が、
    前記補間演算の間、補間の調整可能パラメータを設定することと、
    前記調整可能パラメータの値を調整することによって、認識すべきデータの前記特徴ベクトル上のトレーニングデータの前記クラスタリングされた特徴ベクトルの影響の程度を設定することと
    をさらに含む、請求項19に記載の1つ以上のメモリ。
JP2018560023A 2016-06-30 2017-06-29 音声認識 Active JP7008638B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610509783.5 2016-06-30
CN201610509783.5A CN107564513B (zh) 2016-06-30 2016-06-30 语音识别方法及装置
PCT/US2017/040090 WO2018005858A1 (en) 2016-06-30 2017-06-29 Speech recognition

Publications (2)

Publication Number Publication Date
JP2019525214A true JP2019525214A (ja) 2019-09-05
JP7008638B2 JP7008638B2 (ja) 2022-01-25

Family

ID=60787711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018560023A Active JP7008638B2 (ja) 2016-06-30 2017-06-29 音声認識

Country Status (5)

Country Link
US (1) US10891944B2 (ja)
EP (1) EP3479377B1 (ja)
JP (1) JP7008638B2 (ja)
CN (1) CN107564513B (ja)
WO (1) WO2018005858A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020067658A (ja) * 2018-10-19 2020-04-30 三星電子株式会社Samsung Electronics Co.,Ltd. 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
KR20220096778A (ko) * 2020-12-31 2022-07-07 주식회사 포스코아이씨티 클러스터링 기법을 이용하여 얼굴이미지를 비교하는 에지 디바이스 및 이를 포함한 얼굴인증 시스템

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297807B (zh) * 2016-08-05 2019-03-01 腾讯科技(深圳)有限公司 训练声纹识别系统的方法和装置
JP6787770B2 (ja) * 2016-12-14 2020-11-18 東京都公立大学法人 言語記憶方法及び言語対話システム
KR102640423B1 (ko) * 2017-01-31 2024-02-26 삼성전자주식회사 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
EP3553773B1 (en) 2018-04-12 2020-06-03 Spotify AB Training and testing utterance-based frameworks
EP3786945B1 (en) 2018-04-12 2023-07-19 Spotify AB Voice-based authentication
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
CN108847222B (zh) * 2018-06-19 2020-09-08 Oppo广东移动通信有限公司 语音识别模型生成方法、装置、存储介质及电子设备
CN110176243B (zh) * 2018-08-10 2023-10-31 腾讯科技(深圳)有限公司 语音增强方法、模型训练方法、装置和计算机设备
CN110875039B (zh) * 2018-08-30 2023-12-01 阿里巴巴集团控股有限公司 语音识别方法和设备
KR102637339B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN109065035A (zh) * 2018-09-06 2018-12-21 珠海格力电器股份有限公司 信息交互方法及装置
US11087144B2 (en) * 2018-10-10 2021-08-10 Harman International Industries, Incorporated System and method for determining vehicle data set familiarity
US11238845B2 (en) * 2018-11-21 2022-02-01 Google Llc Multi-dialect and multilingual speech recognition
KR20190080834A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 사투리 음소 적응 학습 시스템 및 방법
KR20190080833A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 음성 정보 기반 언어 모델링 시스템 및 방법
CN110491368B (zh) * 2019-07-23 2023-06-16 平安科技(深圳)有限公司 基于方言背景的语音识别方法、装置、计算机设备和存储介质
CN110931016A (zh) * 2019-11-15 2020-03-27 深圳供电局有限公司 一种离线质检用语音识别方法及系统
CN117476038A (zh) * 2020-05-21 2024-01-30 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111724766B (zh) * 2020-06-29 2024-01-05 合肥讯飞数码科技有限公司 语种识别方法、相关设备及可读存储介质
CN113593597B (zh) * 2021-08-27 2024-03-19 中国电信股份有限公司 语音噪声过滤方法、装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
JPH11175090A (ja) * 1997-12-10 1999-07-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者クラスタリング処理装置及び音声認識装置
JP2008197463A (ja) * 2007-02-14 2008-08-28 Mitsubishi Electric Corp 音声認識装置及び音声認識方法
US20150199960A1 (en) * 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664059A (en) * 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP2888781B2 (ja) * 1995-09-19 1999-05-10 株式会社エイ・ティ・アール音声翻訳通信研究所 話者適応化装置及び音声認識装置
US5895477A (en) * 1996-09-09 1999-04-20 Design Intelligence, Inc. Design engine for automatic layout of content
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
JP2986792B2 (ja) * 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置
US6100901A (en) * 1998-06-22 2000-08-08 International Business Machines Corporation Method and apparatus for cluster exploration and visualization
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
JP4590692B2 (ja) 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
US7571095B2 (en) * 2001-08-15 2009-08-04 Sri International Method and apparatus for recognizing speech in a noisy environment
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
US8612203B2 (en) * 2005-06-17 2013-12-17 National Research Council Of Canada Statistical machine translation adapted to context
US7813926B2 (en) 2006-03-16 2010-10-12 Microsoft Corporation Training system for a speech recognition application
CN101515456A (zh) * 2008-02-18 2009-08-26 三星电子株式会社 语音识别接口装置及其语音识别方法
EP2216775B1 (en) * 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
CN101510424B (zh) * 2009-03-12 2012-07-04 孟智平 基于语音基元的语音编码与合成方法及系统
US9009039B2 (en) 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US9558738B2 (en) * 2011-03-08 2017-01-31 At&T Intellectual Property I, L.P. System and method for speech recognition modeling for mobile voice search
CN102270451B (zh) * 2011-08-18 2013-05-29 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
US8825481B2 (en) 2012-01-20 2014-09-02 Microsoft Corporation Subword-based multi-level pronunciation adaptation for recognizing accented speech
US20130300939A1 (en) * 2012-05-11 2013-11-14 Cisco Technology, Inc. System and method for joint speaker and scene recognition in a video/audio processing environment
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
US9208777B2 (en) * 2013-01-25 2015-12-08 Microsoft Technology Licensing, Llc Feature space transformation for personalization using generalized i-vector clustering
CN103219008B (zh) * 2013-05-16 2016-04-20 清华大学 基于基状态矢量加权的短语音说话人识别方法
CN104572631B (zh) * 2014-12-03 2018-04-13 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
US9761220B2 (en) * 2015-05-13 2017-09-12 Microsoft Technology Licensing, Llc Language modeling based on spoken and unspeakable corpuses
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
JPH11175090A (ja) * 1997-12-10 1999-07-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者クラスタリング処理装置及び音声認識装置
JP2008197463A (ja) * 2007-02-14 2008-08-28 Mitsubishi Electric Corp 音声認識装置及び音声認識方法
US20150199960A1 (en) * 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
D. H. H. NGUYEN, X. XIAO, E. S. CHNG AND H. LI: ""Feature Adaptation Using Linear Spectro-Temporal Transform for Robust Speech Recognition,"", IN IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 24, NO. 6, PP. 1006-1019, J, JPN6021030053, 27 January 2016 (2016-01-27), pages 1006 - 1019, ISSN: 0004562702 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020067658A (ja) * 2018-10-19 2020-04-30 三星電子株式会社Samsung Electronics Co.,Ltd. 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
JP7171532B2 (ja) 2018-10-19 2022-11-15 三星電子株式会社 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
KR20220096778A (ko) * 2020-12-31 2022-07-07 주식회사 포스코아이씨티 클러스터링 기법을 이용하여 얼굴이미지를 비교하는 에지 디바이스 및 이를 포함한 얼굴인증 시스템
KR102546327B1 (ko) * 2020-12-31 2023-06-20 주식회사 포스코디엑스 클러스터링 기법을 이용하여 얼굴이미지를 비교하는 에지 디바이스 및 이를 포함한 얼굴인증 시스템

Also Published As

Publication number Publication date
EP3479377A1 (en) 2019-05-08
US10891944B2 (en) 2021-01-12
EP3479377A4 (en) 2020-02-19
CN107564513B (zh) 2020-09-08
EP3479377B1 (en) 2023-12-06
JP7008638B2 (ja) 2022-01-25
CN107564513A (zh) 2018-01-09
WO2018005858A1 (en) 2018-01-04
US20180005628A1 (en) 2018-01-04

Similar Documents

Publication Publication Date Title
JP7008638B2 (ja) 音声認識
CN109065028B (zh) 说话人聚类方法、装置、计算机设备及存储介质
KR102002681B1 (ko) 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
CN106663446B (zh) 知晓用户环境的声学降噪
CN110400575B (zh) 通道间特征提取方法、音频分离方法和装置、计算设备
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110148422B (zh) 基于传声器阵列确定声源信息的方法、装置及电子设备
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
JP2009251134A (ja) 音声/非音声を判定する装置、方法およびプログラム
CN109065022B (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
WO2018010683A1 (zh) 身份向量生成方法、计算机设备和计算机可读存储介质
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
US20170249957A1 (en) Method and apparatus for identifying audio signal by removing noise
Borsos et al. Speechpainter: Text-conditioned speech inpainting
JP4964259B2 (ja) パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム
CN108053834B (zh) 音频数据处理方法、装置、终端及系统
JP6843701B2 (ja) 音響信号処理のパラメータ予測装置及びパラメータ予測方法
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP6233625B2 (ja) 音声処理装置および方法、並びにプログラム
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
JP6067760B2 (ja) パラメータ決定装置、パラメータ決定方法、およびプログラム
KR20210010133A (ko) 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP5647159B2 (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220111

R150 Certificate of patent or registration of utility model

Ref document number: 7008638

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150