JP2019528476A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置 Download PDF

Info

Publication number
JP2019528476A
JP2019528476A JP2019510589A JP2019510589A JP2019528476A JP 2019528476 A JP2019528476 A JP 2019528476A JP 2019510589 A JP2019510589 A JP 2019510589A JP 2019510589 A JP2019510589 A JP 2019510589A JP 2019528476 A JP2019528476 A JP 2019528476A
Authority
JP
Japan
Prior art keywords
neural network
vector
speech
speaker recognition
bias
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019510589A
Other languages
English (en)
Other versions
JP7023934B2 (ja
Inventor
ファン,ジーイン
シュエ,シャオフェイ
ヤン,ジージエ
Original Assignee
アリババ グループ ホウルディング リミテッド
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド, アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2019528476A publication Critical patent/JP2019528476A/ja
Application granted granted Critical
Publication of JP7023934B2 publication Critical patent/JP7023934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

本出願は音声認識方法及び装置を開示する。例示的方法は、音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出することを含み得る。本方法はまた、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することを含み得る。本方法はさらに、音声データ内の音声を第2のニューラルネットワークに基づく音響モデルを介し認識することを含み得る。

Description

関連出願の相互参照
[001] 本出願は、参照のためその全体を本明細書に援用する2016年8月26日申請の中国特許出願第201610741622.9号への優先権の恩恵を主張する。
技術分野
[002] 本出願は、音声認識に関し、より具体的には音声認識方法及び装置に関する。
背景
[003] 現在のところ、大きな進歩が話者非依存(SI:speaker independent)音声認識システムに対しなされてきた。しかし、様々なユーザ間の差異が特定ユーザの音声認識システムの性能劣化を生じさせ得る。
[004] 話者依存(SD:speaker dependent)音声認識システムはSI音声認識システムの性能劣化の問題を解決し得る。しかし、SD音声認識システムはトレーニングのための大量のユーザ音声データの入力を必要とし、これはユーザの大きな不都合と高コストとを生じる。
[005] 話者適応化(speaker adaptation)技術はSI及びSD音声認識システムの欠点をある程度まで補い得る。話者適応化技術により、SD音声特徴はSI音声特徴へ変換され得、SI音声特徴は次に認識のためにSI音響モデルへ提供される。代替的に、SI音響システムはSD音響システムへ変換され得る。次に、SD音声特徴が認識される。
[006] SI音声認識システムと比較して、話者適応化技術は、ユーザ個人差を有する音声特徴を考慮し、したがってより良好な認識性能を有し得る。SD認識システムと比較して、話者適応化技術は、SIシステムの事前情報を導入し、したがって必要とされるユーザ音声データの量は著しく低減される。
[007] 話者適応化技術は、ユーザ音声データが予め取得されるかどうかに依存してオフライン話者適応化技術とオンライン話者適応化技術とに分割され得る。オンライン話者適応化技術により、音声認識システムのパラメータは、現在のユーザ音声入力に従って等間隔(例えば600ms)で調整され得、これにより話者適応化を実現する。
[008] 現時点で、オンライン話者適応化方法の解決策が図1に示される。この解決策は、ユーザの音声特徴とユーザに関して抽出されたiベクトル(すなわち識別可能ベクトル)とを繋ぐことを含み得る。この解決策はまた、繋がれた特徴を音声認識のためにディープニューラルネットワーク(DNN:deep neural network)内へ入力することを含み得る。iベクトルの抽出プロセスは、平均スーパーベクトルを取得するために音声の音響特性をガウス混合モデルに入力することと、iベクトルを取得するために平均スーパーベクトルにT行列を掛けることとを含み得る。ユーザが話している時、この解決策によると、iベクトルがユーザの音声の始めの部分から抽出され得る。抽出されたiベクトルは、ユーザの音声の残りの音声認識のために使用され、こうしてオンライン話者適応化を実現する。
[009] この解決策は主として以下の問題を有する。オンライン話者適応化技術では、iベクトル抽出プロセスは、複雑であり、一定時間長の音声データを必要とするので、iベクトルを抽出するための音声データと、音声認識のための音声データとは、互いに異なる。音声認識では、iベクトルを抽出するための音声データは、認識されるべきそれらの音声データの予備的(preliminary)音声データである。このため、iベクトルは、認識される必要がある音声データと整合しなく、したがって音声認識の性能に影響を与える。
概要
[010] 本開示の実施形態は、余りに大きな計算複雑性を導入することなくオンライン話者適応化における音声認識の性能を効果的に改善し得る音声認識方法及び装置を提供する。
[011] これらの実施形態は音声認識方法を含む。本方法は、音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出することを含み得る。本方法はまた、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することを含み得る。本方法はさらに、第2のニューラルネットワークに基づく音響モデルを介し音声データ内の音声を認識することを含み得る。話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、話者認識特徴を含むベクトルに第2のニューラルネットワークのバイアス項となるべき重み行列を掛けることを含み得る。
[012] 第1のニューラルネットワーク、第2のニューラルネットワーク、及び重み行列は、第1のニューラルネットワーク及び第2のニューラルネットワークをそれぞれトレーニングし、次にトレーニングされた第1のニューラルネットワーク、重み行列、及びトレーニングされた第2のニューラルネットワークを一括してトレーニングすることによりトレーニングされ得る。
[013] 加えて、本方法は、第1のニューラルネットワーク、第2のニューラルネットワーク、及び重み行列を初期化することを含み得る。本方法はまた、所定客観的判定基準に従って逆伝搬(back propagation)アルゴリズムを使用することにより重み行列を更新することを含み得る。本方法はさらに、所定客観的判定基準に従って誤差逆伝搬アルゴリズムを使用することにより第2のニューラルネットワーク及び接続行列を更新することを含み得る。話者認識特徴は少なくとも話者声紋情報を含み得る。
[014] 話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することを含み得る。話者認識特徴を含むベクトルは、第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルであり得る。
[015] 話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することは、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信することを含み得る。第1のニューラルネットワークは再帰型(recursive)ニューラルネットワークであり得る。音声データは、収集された元音声データ又は収集された元音声データから抽出される音声特徴であり得る。話者認識特徴は様々なユーザに対応してもよいし、様々なユーザのクラスタに対応してもよい。
[016] これらの実施形態はまた、音声認識方法を含む。本方法は音声データを収集することを含み得る。本方法はまた、収集された音声データを第1のニューラルネットワークに入力することにより、話者認識特徴を含むベクトルを抽出することを含み得る。本方法はさらに、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することを含み得る。加えて、本方法は収集された音声データを第2のニューラルネットワークに入力することにより音声を認識することを含み得る。
[017] 話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、話者認識特徴を含むベクトルに第2のニューラルネットワークのバイアス項となるべき重み行列を掛けることを含み得る。話者認識特徴は少なくとも話者声紋情報を含み得る。第1のニューラルネットワークは再帰型ニューラルネットワークであり得る。
[018] 話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信することを含み得る。
[019] さらに、これらの実施形態は音声認識装置を含む。音声認識装置は、音声認識のプログラムを格納するように構成されたメモリを含み得る。音声認識装置はまた、音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出するために音声認識のプログラムを実行するように構成されたプロセッサを含み得る。プロセッサはまた、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成され得る。プロセッサはさらに、音声データ内の音声を第2のニューラルネットワークに基づく音響モデルを介し認識するように構成され得る。
[020] 話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成されたプロセッサは、話者認識特徴を含むベクトルに、第2のニューラルネットワークのバイアス項となるべき重み行列を掛けるように構成され得ることを含み得る。話者認識特徴は少なくとも話者声紋情報を含み得る。第1のニューラルネットワークは再帰型ニューラルネットワークであり得る。
[021] 話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成されたプロセッサは、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信するように構成されることを含み得る。
[022] さらに、これらの実施形態は音声認識装置を含む。音声認識装置は、音声認識のプログラムを格納するように構成されたメモリを含み得る。音声認識装置はまた、音声データを収集するために音声認識のプログラムを実行するように構成されたプロセッサを含み得る。プロセッサはまた、収集された音声データを第1のニューラルネットワークに入力することにより、話者認識特徴を含むベクトルを抽出するように構成され得る。プロセッサはさらに、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成され得る。加えて、プロセッサは、収集された音声データを第2のニューラルネットワークに入力することにより音声を認識するように構成され得る。
[023] 話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成されたプロセッサは、話者認識特徴を含むベクトルに、第2のニューラルネットワークのバイアス項となるべき重み行列を掛けるように構成されることを含む。話者認識特徴は少なくとも話者声紋情報を含み得る。第1のニューラルネットワークは再帰型ニューラルネットワークであり得る。
[024] 話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成されたプロセッサは、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信するように構成されることを含み得る。
[025] これらの実施形態はまた、音声認識装置を含む。音声認識装置は、音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出するように構成された抽出ユニットを含み得る。音声認識装置はまた、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償し、第2のニューラルネットワークに基づく音響モデルを介し音声データ内の音声を認識するように構成された認識ユニットを含み得る。
[026] これらの実施形態はさらに音声認識装置を含む。音声認識装置は音声データを収集するように構成された収集ユニットを含み得る。音声認識装置はまた、収集された音声データを第1のニューラルネットワークに入力することにより話者認識特徴を含むベクトルを抽出し、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成された抽出及び補償ユニットを含み得る。音声認識装置はさらに、収集された音声データを第2のニューラルネットワークに入力することにより音声を認識するように構成された認識ユニットを含み得る。
図面の簡単な説明
[027] 本明細書の一部を構成する添付図面は、いくつかの実施形態を示し、開示された原理について本明細書と共に説明する役目を果たす。
[028]例示的iベクトルベースオンライン話者適応化解決策の概要図である。 [029]本開示のいくつかの実施形態による例示的音声認識方法のフローチャートである。 [030]本開示のいくつかの実施形態による音声認識のための例示的システムアーキテクチャの概要図である。 [031]本開示のいくつかの実施形態による例示的ニューラルネットワークの概要図を示す。 [032]本開示のいくつかの実施形態による例示的システムアーキテクチャの概要図である。 [033]本開示のいくつかの実施形態による例示的音声認識装置の概要図である。 [034]本開示のいくつかの実施形態による例示的音声認識方法のフローチャートである。 [035]本開示のいくつかの実施形態による音声認識方法の例示的実施形態プロセスの概要図である。 [036]本開示のいくつかの実施形態による例示的音声認識装置の概要図である。
詳細な説明
[037] 多くの詳細が、本開示の包括的理解を容易にするために以下の明細書に示される。本開示における方法及び装置は本明細書で説明されるものとは異なる多くの他のやり方で実現され得る。当業者は、本開示の暗示するものから逸脱することなく同様な拡張をなし得る。したがって、本開示は以下に開示される特定実施形態に限定されない。
[038] 本出願の技術的解決策は添付図面及び実施形態を参照して詳細に説明される。本出願の保護範囲内に入るすべての本出願の実施形態及び実施形態における様々な特徴は相反しない限り互いに組み合わせさられ得るということに注意すべきである。加えて、論理的順番がフローチャート内に示されるが、いくつかのケースでは、示される又は説明される工程は本明細書のものとは異なる順番で行われ得る。
[039] いくつかの実施形態では、音声認識方法を実行するコンピュータデバイスは1つ又は複数のプロセッサ(CPU)、入出力インターフェース、ネットワークインターフェース、及びメモリを含み得る。
[040] メモリは、非恒久的メモリ、ランダムアクセスメモリ(RAM:random access memory)、及び/又はコンピュータ可読媒体内の読み取り専用メモリ(ROM:read-only memory)又はフラッシュメモリ(フラッシュRAM)などの非揮発性メモリを含み得る。メモリはコンピュータ可読媒体の一例である。メモリはモジュール1、モジュール2、...、モジュールNを含み得る、ここでNは2より大きい整数である。
[041] コンピュータ可読媒体は、恒久的及び非恒久的ストレージ媒体、着脱可能及び着脱不能ストレージ媒体を含む。ストレージ媒体は、任意の方法又は技術により情報格納を実現し得る。情報はコンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータであり得る。コンピュータ記憶媒体の例は、限定しないが、相転移メモリ(PRAM:phase change memory)、スタティックランダムアクセスメモリ(SRAM:static random access memory)、ダイナミックランダムアクセスメモリ(DRAM:dynamic random access memory)、他のタイプのランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的消去可能PROM(EEPROM:electrically erasable programmable read-only memory)、フラッシュメモリ又は他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM:compact disk read-only memory)、デジタルバーサタイルディスク(DVD:digital versatile disc)又は他の光学的ストレージ、磁気カセットテープ、磁気ディスクストレージ又は他の磁気ストレージデバイス、又はコンピュータデバイスによりアクセスされ得る情報を格納するために使用し得る任意の他の非伝送媒体を含む。本明細書で規定されるように、コンピュータ可読媒体は変調データ信号及び搬送波などの過渡的媒体を含まない。
[042] 本開示の実施形態は多くの利点を提供する。これらの実施形態うちののいくつかは、音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出し、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することを含む。この結果、音声認識のためのニューラルネットワークをSI音響システムからSD音響システムへ変換し、これにより認識性能を改善する。話者認識特徴を含むベクトルが抽出される音声データは、音声認識のための音声データと同じであるので、認識性能は著しく改善され得る。さらに、話者認識特徴を含むベクトルが話者認識のためにニューラルネットワークを介し抽出される場合、抽出はニューラルネットワークの順方向プロセスを介し実現し得る。
[043] 図2は本開示のいくつかの実施形態による例示的音声認識方法のフローチャートである。音声認識方法は工程S110、S120を含み得る。
[042] 工程S110では、音声データからの話者認識特徴を含むベクトルが第1のニューラルネットワークを介し抽出される。いくつかの実施形態では、工程S110後、本方法はさらに、話者認識特徴を含む抽出されたベクトルの長さを正規化することを含み得る。いくつかの実施形態では、話者認識特徴を含む抽出されたベクトルは、長さ正規化無しに直接使用され得る。
[045] 工程S120では、バイアスは、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内で補償され、音声データ内の音声は、第2のニューラルネットワークに基づく音響モデルを介し認識される。
[046] 用語「第1」及び「第2」は、例えば様々なニューラルネットワークを識別するためだけに使用される。例示的実施形態の範囲から逸脱することなく、第1のニューラルネットワークは第2のニューラルネットワークと呼ばれ得る。同様に、第2のニューラルネットワークは第1のニューラルネットワークと呼ばれ得る。
[047] 第1のニューラルネットワークは話者を類別するためのニューラルネットワークであり得る。第1のニューラルネットワークは、限定しないが話者声紋情報などの入力音声データに従って話者認識特徴を抽出し得る。第2のニューラルネットワークは音声認識のためのニューラルネットワークであり得る。第2のニューラルネットワークは入力音声データに従ってテキスト情報を認識し得る。
[048] 本方法は、第1のニューラルネットワーク及び第2のニューラルネットワークを含むシステムへ適用され得る。音声データは、認識のために第1のニューラルネットワーク及び第2のニューラルネットワーク内に入力され得る。本方法は、音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出することを含み得る。本方法はまた、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することを含み得る。本方法はまた、音声データからテキスト情報を取得するために、第2のニューラルネットワークに基づく音響モデルを介し音声を認識することを含み得る。
[049] 話者認識特徴は、話者の個人差を効果的に特徴付け得る特徴を指す。話者の個人差は声道差により引き起こされ得る。話者の個人差はまた、環境又はチャネルにより引き起こされ得る。話者適応化技術は、声道補償と、雑音環境及びオフィス環境などの様々な話す環境の補償とのために使用され得る補償技術である。話者適応化技術はまた、電話チャネル及びマイクロホンチャネルなどの様々なチャネルのための補償に使用され得る。異なる環境内で又は異なるチャネルを介して同じユーザから収集された音声データは、異なる話者認識特徴のために、異なる話者の音声データと見なされ得る。
[050] 本明細書の実施形態では、ニューラルネットワークは、互いに接続された複数のニューロンノードを含み得る。1つのニューロンノードの出力は別のニューロンノードの入力であり得る。ニューラルネットワークは複数のニューラル層を含み得る。それらの機能及び性質に従って、ニューラルネットワーク内のニューラル層は入力層、隠れ層、及び出力層に分割され得る。隠れ層はユーザに見えない層を指す。入力層は入力を受信し隠れ層へ分配する責任を負う。1つ又は複数の隠れ層が存在し得る。最後の隠れ層の出力結果が出力層へ提供される。ユーザは出力層から出力される最終結果を見ることができる。ニューラルネットワーク及びバイアス補償については以下に詳細に説明される。
[051] 本方法では、第2のニューラルネットワークに基づく音響モデルは、話者非依存であり得、バイアス補償のための話者認識特徴を含むベクトルを導入することによりSD音響モデルに変換され得る。したがって、音声認識の性能が改善され得る。
[052] ニューラルネットワークは、多次元の音響特性を並列に計算し得る一種のグローバルモデルである。別の態様では、iベクトルを抽出するために使用されるガウスモデルがローカルモデルであり、次元のそれぞれを別々に計算する必要がある。したがって、第1のニューラルネットワークが本方法における話者認識特徴を含むベクトルを抽出するために使用される場合、抽出がより良好なリアルタイム性能を実現するとともに実製品において実現可能となるように短い音声データが使用され得る。
[053] 加えて、ガウス混合モデルを使用するシステムはニューラルネットワークベースシステムとは異なるので、これらの2つのシステムの同時最適化は容易ではないかもしれない。それにもかかわらず、本出願の実施形態では、第1のニューラルネットワーク及び第2のニューラルネットワークが全体として最適化され得る。さらに、話者認識特徴を含むベクトルが第1のニューラルネットワークを介し抽出されるプロセスは単純であり、少ない演算量を含む。同プロセスはオンライン話者適応化認識のリアルタイム要件を満たし得る。その上、短時間データが抽出のために使用され得る。
[054] 短期的データが抽出のために使用され得る場合、話者認識特徴を含むベクトルが抽出される音声データは、認識されるべき音声データであり得る。換言すれば、話者認識特徴を含む抽出されたベクトルは、認識されるべき音声データに良く整合し得る。したがって、音声認識の性能は著しく改善され得る。
[055] 図3は、本開示のいくつかの実施形態による音声認識のための例示的システムアーキテクチャの概要図である。本システムは、音声収集デバイス11、音声認識デバイス12、及び出力デバイス13を含む。
[056] 音声認識デバイス12は、上記工程S110を実行するように構成された話者認識ユニット121と、上記工程S120を実行するように構成された音声認識ユニット122とを含む。換言すれば、話者認識ユニット121は、話者認識特徴を含む抽出されたベクトルを音声認識ユニット122へ送信するように構成され得る。代替的に、音声認識ユニット122は、話者認識特徴を含むベクトルを話者認識ユニット121から取得するように構成され得る。
[057] 音声収集デバイス11は、元音声データを収集し、元音声データ又は元音声データから抽出された音声特徴を、話者認識ユニット121及び音声認識ユニット122それぞれへ出力するように構成され得る。
[058] 出力デバイス13は、音声認識ユニット122の認識結果を出力するように構成される。出力デバイス13の出力方式は、限定しないが、認識結果をデータベース内に格納すること、認識結果を所定デバイスへ送信すること、又は認識結果を所定デバイス上に表示することのうちの1つ又は複数を含み得る。
[059] いくつかの実施形態では、音声収集デバイス11及び音声認識デバイス12は1つのデバイスに一体化され得る。代替的に、音声収集デバイス11は、元音声データ又は抽出された音声特徴を接続線、無線接続などを介し音声認識デバイス12へ送信し得る。いくつかの実施形態では、音声認識デバイス12がネットワーク側に配置される場合、音声収集デバイス11は、元音声データ又は抽出された音声特徴をインターネットを介し音声認識デバイス12へ送信し得る。
[060] 出力デバイス13及び音声認識デバイス12は1つのデバイスに一体化され得る。代替的に、出力デバイス13は、認識結果を接続線、無線接続などを介し音声認識デバイス12から受信又は取得するように構成され得る。いくつかの実施形態では、音声認識デバイス12がネットワーク側に配置される場合、出力デバイス13は、認識結果をインターネットを介し音声認識デバイス12から受信又は取得するように構成され得る。
[061] 音声認識デバイス12はさらに、話者認識特徴を含むベクトルに重み行列を掛けるための計算ユニットを含み得る。話者認識特徴を含むベクトルは話者認識ユニット121により抽出される。音声認識デバイス12は乗算の積を音声認識ユニット122へ提供するように構成され得る。代替的に、話者認識ユニット121又は音声認識ユニット122は、話者認識特徴を含むベクトルに重み行列を掛けるように構成され得る。
[062] 音声認識デバイス12は、単独のデバイスでなくてもよい。例えば、話者認識ユニット121及び音声認識ユニット122は2つのデバイスに分散され得る。話者認識ユニット121又は音声認識ユニット122はまた1つ又は複数の分散デバイスにより実現され得る。
[063] 図4は、本開示のいくつかの実施形態による例示的ニューラルネットワークの概要図を示す。図4に示すように、ニューラルネットワークは、入力層L1、隠れ層L2、及び出力層L3を含む。入力層L1は3つのニューロンノードX1、X2及びX3を含む。隠れ層L2は3つのニューロンノードY1、Y2及びY3を含む。出力層L3は1つのニューロンノードZを含む。図4に示すニューラルネットワークは、ニューラルネットワークの原理を単に示すために使用されており、上述の第1のニューラルネットワーク及び第2のニューラルネットワークを規定するようには意図されていない。
[064] 図4において、バイアスノードB1は、隠れ層L2に対応しており、隠れ層L2におけるバイアス補償のためのバイアス項を格納するために使用される。バイアスノードB1におけるバイアス項及び入力層L1内の各ニューロンノードの出力は、隠れ層L2内の各ニューロンノードの入力を提供する。バイアスノードB2は、出力層L3に対応しており、出力層L3におけるバイアス補償のためのバイアス項を格納するために使用される。バイアスノードB2におけるバイアス項と隠れ層L2における各ニューロンノードの出力は、出力層L3内の各ニューロンノードの入力を提供する。バイアス項は、事前設定され得るか、又は外部デバイスからニューラルネットワーク内へ入力され得るかのいずれかである。
[065] バイアス項は、バイアス補償のために使用されるベクトルを指す。ある層におけるバイアス補償は、同層のニューロンノード毎に、同層に対応するバイアスノードにより提供されるバイアス項内の、ニューロンノードに対応する値を加えた、前の層のすべてのニューロンノードの出力値の加重和の結果に基づく計算を指す。
[066] 例えば、入力層L1内のニューロンノードX1、X2及びX3の出力値がそれぞれx1、x2及びx3であると仮定する。隠れ層L2内のニューロンノードY1に関しては、出力値は次のようになる:
Figure 2019528476

ここで、fは、括弧内の内容に対しニューロンノードY1によりなされた計算を表し、括弧内の内容は、ニューロンノードY1により受信された入力値を表す。
Figure 2019528476

は、例えばY1、i=1、j=1、2、3に関しては、層L1内の第jニューロンノードと次層(すなわち層L2)内の第iニューロンノード間の重み付けを指し、
Figure 2019528476

は、隠れ層L2内のs番目ニューロンノード(s=1、2、3)に対応するバイアスノードB1内のバイアス項の値を指し、例えば、ニューロンノードY1に対応するバイアスノードB1内のバイアス項の値は
Figure 2019528476

である。
[067] 図2に戻って参照すると、工程S120において、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、話者認識特徴を含むベクトルを線型変換し、これを第2のニューラルネットワークにおける入力層以外のある層又はいくつかの層のバイアス項として採用することを指し得る。線形変換は、限定しないが重み行列による乗算のやり方で行われ得る。
[068] 第1のニューラルネットワークは3つの隠れ層を含み得る。いくつかの実施形態では、第1のニューラルネットワークは1つ又は2つの隠れ層を含んでもよいし、4以上の隠れ層を含んでもよい。いくつかの実施形態では、第2のニューラルネットワークは3つの隠れ層を含み得る。いくつかの実施形態では、第2のニューラルネットワークは1つ又は2つの隠れ層を含んでもよいし、4以上の隠れ層を含んでもよい。
[069] いくつかの実施形態では、話者認識特徴は少なくとも話者声紋情報を含み得る。話者声紋情報は異なるユーザの音声データを識別するために使用され得る。換言すれば、異なるユーザの音声データから抽出される話者声紋情報は異なる。いくつかの実施形態では、話者認識特徴は、話者声紋情報、環境情報、及びチャネル情報のうちの1つ又は複数を含み得る。環境情報は、音声データが収集される環境の特徴を特徴付けるために使用され得る。チャネル情報は、音声データが収集されるチャネルの特徴を特徴付けるために使用され得る。
[070] いくつかの実施形態では、第1のニューラルネットワークは再帰型ニューラルネットワークであり得る。再帰型ニューラルネットワークは、1つ又は複数のフィードバックループを有するニューラルネットワークを指し、非線形システムのリアルな動的モデリングを実現し得る。再帰型ニューラルネットワークが、話者認識特徴を含むベクトルを抽出するために使用される場合、抽出は短期データに対し行われ得る。再帰型ニューラルネットワークは、限定しないが、LSTM(long-short term memory)再帰型ニューラルネットワークであり得る。
[071] いくつかの実施形態では、工程S120における話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、話者認識特徴を含むベクトルに、第2のニューラルネットワークのバイアス項となるべき重み行列を掛けることを含み得る。
[072] いくつかの実施形態では、重み行列が単位行列である場合、重み行列が掛けられた後、話者認識特徴を含むベクトルは変化しなくてもよい。話者認識特徴を含むベクトルは、第2のニューラルネットワークのバイアス項として直接採用され得る。
[073] いくつかの実施形態では、第1のニューラルネットワーク、第2のニューラルネットワーク、及び重み行列は、第1のニューラルネットワーク及び第2のニューラルネットワークをそれぞれトレーニングし、次にトレーニングされた第1のニューラルネットワーク、重み行列、及びトレーニングされた第2のニューラルネットワークを一括してトレーニングすることによりトレーニングされ得る。一括的にトレーニングすることは、トレーニングするための音声データを、第1のニューラルネットワーク及び第2のニューラルネットワーク内にそれぞれ入力することと、第1のニューラルネットワークにより抽出された話者認識特徴を含むベクトルに重み行列を掛けた後に、第2のニューラルネットワーク上のバイアスを補償することとを指し得る。トレーニングは、限定しないがグラフィック処理ユニット(GPU:graphics processing unit)により行われ得る。
[074] いくつかの実施形態では、トレーニングされた第1のニューラルネットワーク、重み行列、及びトレーニングされた第2のニューラルネットワークを一括してトレーニングした後、本方法はさらに、第1のニューラルネットワーク、第2のニューラルネットワーク、及び重み行列を初期化することを含み得る。本方法はまた、所定客観的判定基準に従って逆伝搬アルゴリズムを使用することにより重み行列を更新することを含み得る。加えて、本方法は、所定客観的判定基準に従って誤差逆伝搬アルゴリズムを使用することにより第2のニューラルネットワーク及び接続行列を更新することを含み得る。重み行列に関する初期化は、ガウス分布による乱数的初期化であり得る。上記所定客観的判定基準は、限定しないが、標的最小二乗平均誤差(LMS)、再帰型最小二乗(RLS:recursive least square)、及び正規化最小二乗平均誤差(NLMS:normalized least mean square error)を含み得る。
[075] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することを含む。話者認識特徴を含むベクトルは、第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルであり得る。例えば、第2のニューラルネットワークが入力層、3つの隠れ層、及び1つの出力層を含むと仮定すると、入力層を除くすべての層は、出力層及び3つの隠れ層を指し得る。入力層を除くいくつかの層は、4つの層(すなわち、出力層及び3つの隠れ層)のうちの1つ又は複数を指し得る。
[076] 話者認識特徴を含むベクトルに基づく第2のニューラルネットワーク内のある層上のバイアス補償は、話者認識特徴を含むベクトルに重み行列を掛けることにより取得されるベクトルを、同層のバイアス項として採用することを指し得る。例えば、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内の入力層以外のすべての層上のバイアス補償は、話者認識特徴を含むベクトルに重み行列を掛けることにより取得されたベクトルを、第2のニューラルネットワーク内の出力層及び3つの隠れ層のそれぞれのバイアス項として採用することを指し得る。
[077] いくつかの実施形態では、話者認識特徴を含むベクトルは、第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルであり得る。最後の隠れ層の出力ベクトルは出力層の出力ベクトルより少ない次元を有し、これにより過剰フィッティング(overfitting)を回避する。
[078] いくつかの実施形態では、話者認識特徴を含むベクトルは、第1のニューラルネットワーク内の最後の隠れ層以外の隠れ層の出力ベクトルであってもよいし、出力層の出力ベクトルであってもよい。
[079] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することは、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信することを含み得る。ある層に対応するバイアスノードは、同層の上のバイアス補償のために使用されるバイアス項を格納し得る。話者認識特徴を含むベクトルは、第1のニューラルネットワーク内の最後の隠れ層内の複数のニューロンノードのそれぞれの出力値からなるベクトルであり得る。
[080] 話者認識特徴を含むベクトルをバイアスノードへ送信することは、話者認識特徴を含むベクトルをバイアスノードへ直接送信することを指してもよいし、話者認識特徴を含むベクトルを線型変換し、次にこれをバイアスノードへ送信することを指してもよい。
[081] 第2のニューラルネットワーク内の複数層が同じベクトルによりバイアス補償を受ける場合、複数層は個別のバイアスノードに対応してもよいし、同じバイアスノードに対応してもよい。例えば、第1のニューラルネットワークにより抽出された話者認識特徴を含むベクトルは、複数のバイアスノードそれぞれへ送信され得る。複数のバイアスノードは、第2のニューラルネットワーク内のバイアス補償を必要とする複数の層に1対1ベースで対応する。別の例として、第1のニューラルネットワークにより抽出された話者認識特徴を含むベクトルはまた、1つのバイアスノードへ送信され得る。当該バイアスノードは、第2のニューラルネットワーク内のバイアス補償を必要とする複数の層に対応する。
[082] いくつかの実施形態では、音声データは、収集された元音声データであるか又は収集された元音声データから抽出された音声特徴である。音声特徴は、限定しないが、メル周波数ケプストラム係数(MFCC:Mel frequency cepstral coefficient)、知覚線形予測係数(PLP:perceived linear prediction coefficient)、フィルタバンク特徴、又はそれらの任意の組み合わせを含み得る。
[083] いくつかの実施形態では、話者認識特徴は、様々なユーザに1対1ベースで対応してもよいし、様々なユーザのクラスタに1対1ベースで対応してもよい。様々なユーザに1対1ベースで対応する話者認識特徴は、第1のニューラルネットワークの出力層がユーザの識別子を出力することを意味する。様々なユーザのクラスタに1対1ベースで対応する話者認識特徴は、ユーザがクラスタ化された後、第1のニューラルネットワークの出力層がカテゴリ識別子を出力することを意味する。
[084] クラスタは1つ又は複数のパターンを含み得、パターンは測定のベクトルを指してもよいし、多次元空間内の点であってもよい。クラスタ化操作は類似性に基づいており、同じクラスタ内のパターンは、異なるクラスタ内のパターンより高い類似性を有する。クラスタ化のためのアルゴリズムは分割方法、階層的方法、密度アルゴリズム、グラフ理論クラスタリング法、グリッドアルゴリズム、及びモデルアルゴリズムに分割され得る。例えば、これらのアルゴリズムはK平均法(K-MEANS)、K−MEDOIDS、Clara又はClaransであり得る。
[085] ユーザをクラスタ化することは、トレーニング中に様々なユーザの話者認識特徴間の類似性に従って複数のユーザの話者認識特徴を複数のクラスタに類別することと、クラスタに対応する話者認識特徴を含むベクトルを取得するために、1つのクラスタに分類された複数の話者認識特徴を計算(例えば重み付け平均化)することとを指し得る。カテゴリ識別子は、1つのクラスタを表すために使用される識別子であり得る。カテゴリ識別子はクラスタに1対1ベースで対応する。
[086] 非常に多くのユーザの音声認識が必要とされる場合、クラスタ化操作が行われれば、一組の出力結果は、話者認識特徴を含む限定数のベクトルであり得る。例えば、何百万のユーザが存在する場合、ユーザが何千ものクラスタに分類されれば、話者認識特徴を含む何千ものベクトルだけが存在し、これにより実装の複雑性を著しく低減する。
[087] 話者認識特徴が、話者認識特徴間の類似性に従って複数のクラスタに分類される場合、様々な次元の類似性(例えば、声紋情報、環境情報、チャネル情報などの様々なタイプの話者認識特徴)に従って、様々なクラスタ化結果が取得され得る。例えば、同様な声紋を有する話者認識特徴は1つのクラスタと見なされ得る。別の例として、同じ又は同様な環境に対応する話者認識特徴が1つのクラスタと見なされ得る。代替的に、同様なチャネルに対応する話者認識特徴が1つのクラスタと見なされ得る。
[088] 図5は、本開示のいくつかの実施形態による音声認識のための例示的システムアーキテクチャの概要図である。図5に示すように、本システムは話者分類器21と、音声認識システム23とを含み得る。本システムにおける話者認識特徴は話者声紋情報である。話者分類器21は上記工程S110を実行するように構成される。音声認識システム23は上記工程S120を実行するように構成される。
[089] 話者声紋情報を含むベクトルが接続行列22により線形に変換され得る。接続行列は限定しないが重み行列であり得る。
[090] 話者認識特徴を含むベクトルを抽出するための第1のニューラルネットワークを利用する話者分類器21は、入力層211、1つ又は複数の隠れ層212、及び出力層213を含み得る。いくつかの実施形態では、隠れ層212の数は3であり得る。代替的に、1つ又は複数の隠れ層212が存在し得る。
[091] 音声を認識するための第2のニューラルネットワークを利用する音声認識システム23は、入力層231、1つ又は複数の隠れ層232、及び出力層233を含み得る。いくつかの実施形態では、隠れ層212の数は3であり得る。いくつかの実施形態では、1つ又は複数の隠れ層212が存在し得る。
[092] 話者分類器21内の第1のニューラルネットワークの入力層211により受信される音声データは、音声認識システム23内の第2のニューラルネットワークの入力層231により受信されるものと同じであり得る。音声データは、収集された元音声データであり得る。代替的に、音声データは、元音声データから抽出された音声特徴であり得る。
[093] したがって、話者分類器21内の第1のニューラルネットワークは、音声認識システム23内の第2のニューラルネットワークと同じ入力を有し得る。すなわち、話者声紋情報を含むベクトルが取得される音声データは、音声認識のための音声データと同じであり得る。したがって、話者声紋情報を含むベクトルによる第2のニューラルネットワーク上のバイアス補償は、認識されるべき音声データと完全に整合し得る。その結果、音声認識の性能は効果的に改善され得る。第1のニューラルネットワーク及び第2のニューラルネットワークはそれぞれ、全結合ニューラルネットワーク(DNN:fully connected neural network)、畳み込みニューラルネットワーク(CNN:convolution neural network)、及び再帰型ニューラルネットワーク(RNN:recurrent neural network)の任意の1つ、又はそのいくつかの組み合わせを含み得る。
[094] 話者声紋情報を含むベクトル表現は、話者分類器21内の最後の隠れ層の出力ベクトルであり得る。
[095] 音声認識システム23において、出力層233及び1つ又は複数の隠れ層232のそれぞれは、話者声紋情報を含む線形変換されたベクトル表現をバイアス項として採用し得る。いくつかの実施形態では、出力層233及び1つ又は複数の隠れ層232において、少なくとも1つ又は複数の層は、話者声紋情報を含む線型変換されたベクトル表現をバイアス項として採用し得る。
[096] 接続行列22はまた、話者声紋情報を含むベクトルに対し長さ正規化を行うように構成され得る。いくつかの実施形態では、話者分類器により出力された話者声紋情報を含むベクトルは、長さ正規化を受けることなく、重み付けを掛けられた後、音声認識システム23へ直接提供され得る。
[097] 話者分類器21の出力層213によるデータ出力は、様々なユーザのタグIDであってもよいし、ユーザがクラスタ化された後のクラスタのタグIDであってもよい。出力層の出力データはトレーニングのためにだけ使用され得る。音声認識システム23の出力層233から出力される認識結果は、状態レベル、音素レベル、又は単語レベルタグIDであり得る。
[098] 図5に示す例示的システムアーキテクチャはさらに、以下の機能を実行し得る。
[099] トレーニングデータを使用することにより、話者分類器の第1のニューラルネットワークと、第2のニューラルネットワークに基づく音響モデル(例えば図2において参照される音響モデル)とをトレーニングすること。第1及び第2のニューラルネットワークは所望の音声認識性能又は話者認識性能をそれぞれ実現し得る。さらに、このトレーニングは、第1のニューラルネットワーク、接続行列、及び第2のニューラルネットワークを一括してトレーニングすることを含み得る。GPUがこれらのトレーニングを加速するために使用され得る。
[0100] システムアーキテクチャは、ネットワーク初期化のための音響モデル及び話者分類器として、トレーニングされた音響モデル及び話者分類器を使用し得る。いくつかの実施形態では、ネットワーク初期化はまた図5の接続行列をランダムに初期化することを含み得る。
[0101] 所定客観的判定基準に従って、システムアーキテクチャは、収束状態に到達するように接続行列を更新するために、逆伝播(BP)アルゴリズムを使用し得る。
[0102] 所定客観的判定基準に従って、システムアーキテクチャは、収束状態に到達するように音響モデル及び接続行列を更新するためにBPアルゴリズムを使用し得る。所定客観的判定基準は、実アプリケーションにおけるニーズに従って設定され得る。
[0103] さらに、システムアーキテクチャは、収集された元音声データから音声特徴を抽出し得る。抽出された音声特徴は話者分類器により処理され、その結果、音声特徴に対応する話者声紋情報を含むベクトルが取得される。このベクトルは接続行列により線形変換され、音声認識システムへ送信される。抽出された音声特徴は、音声認識システムにおける第2内のニューラルネットワークに基づき音響モデルにより復号化される。最終的に、音声認識結果が取得され得る。音声認識システムでは、第2のニューラルネットワークの出力層及び3つの隠れ層のバイアス項は、話者声紋情報を含む形型変換されたベクトルであり得る。
[0104] 本出願はまた、音声認識装置に関する。音声認識装置は、音声認識のプログラムを格納するように構成されたメモリを含む。音声認識装置はまた、音声認識のプログラムを実行するように構成されたプロセッサを含む。プロセッサは、音声認識のプログラムを実行する際、第1のニューラルネットワークを介し、音声データから話者認識特徴を含むベクトルを抽出するように構成され得る。
[0105] プロセッサはまた、音声認識のプログラムを実行する際、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成され得る。プロセッサはさらに、音声認識のプログラムを実行する際、第2のニューラルネットワークに基づく音響モデルを介し音声データ内の音声を認識するように構成される。
[0106] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成されたプロセッサは、話者認識特徴を含むベクトルに、第2のニューラルネットワークのバイアス項となるべき重み行列を掛けるように構成されることを含み得る。
[0107] いくつかの実施形態では、話者認識特徴は少なくとも話者声紋情報を含み得る。
[0108] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成されたプロセッサは、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償するように構成されることを含み得る。話者認識特徴を含むベクトルは、第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルであり得る。
[0109] いくつかの実施形態では、話者認識特徴は、様々なユーザに1対1ベースで対応してもよいし、様々なユーザのクラスタに1対1ベースで対応してもよい。様々なユーザに1対1ベースで対応する話者認識特徴は、第1のニューラルネットワークの出力層がユーザの識別子を出力することを意味する。様々なユーザのクラスタに1対1ベースで対応する話者認識特徴は、ユーザがクラスタ化された後に、第1のニューラルネットワークの出力層がカテゴリ識別子を出力することを意味する。
[0110] いくつかの実施形態では、第1のニューラルネットワークは再帰型ニューラルネットワークであり得る。
[0111] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成されたプロセッサは、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信するように構成されることを含む。
[0112] さらに、プロセッサは、音声認識のプログラムを実行する際、上記工程S110、S120を実行するように構成され得る。音声認識のプログラムを実行する際にプロセッサにより実行される動作のさらなる詳細は上に見出され得る。
[0113] 本出願はさらに音声認識装置に関する。図6は、本開示のいくつかの実施形態による例示的音声認識装置の概要図である。音声認識装置は、抽出ユニット31及び認識ユニット32を含む。
[0114] 一般的に、これらのユニット(そして任意の副ユニット)は、他の部品(例えば集積回路の一部)と共に及び/又は関連機能の特定機能を実行するプログラム(コンピュータ可読媒体上に格納された)の一部と共に使用するために設計されたパッケージ化機能ハードウェアユニットであり得る。このユニットは入口点及び出口点を有し得、例えばJava(登録商標)、Lua、C、又はC++などのプログラミング言語で書かれ得る。ソフトウェアユニットは、コンパイルされ、実行可能プログラム内へリンクされ、動的リンクライブラリ内にインストールされてもよいし、例えばBASIC、Perl、又はPythonなどのインタープリート型プログラミング言語で書かれてもよい。ソフトウェアユニットは他のユニット又は自身から呼出し可能であり得る及び/又は検出された事象又は割り込みに応答して呼び出され得るということが理解される。コンピュータデバイス上で実行するように構成されたソフトウェアユニットは、コンパクトディスク、ディジタルビデオディスク、フラッシュドライブ、磁気ディスク、又は任意の他の非一時的媒体などのコンピュータ可読媒体上に提供されてもよいし、ディジタルダウンロードとして提供されてもよい(そして実行に先立って、インストール、圧縮解除、又は解読を必要とする圧縮された又はインストール可能なフォーマットで元々格納され得る)。このようなソフトウェアコードは、コンピュータデバイスによる実行のために実行コンピュータデバイスのメモリデバイス上に部分的又は完全に格納され得る。ソフトウェア命令はEPROMなどのファームウェアで埋め込まれ得る。ハードウェアユニットはゲート及びフリップフロップなどの接続された論理ユニットで構成され得る及び/又はプログラマブルゲートアレイ又はプロセッサなどのプログラム可能ユニットで構成され得るということがさらに理解される。本明細書で説明されたユニット又はコンピュータデバイス機能は好適にはソフトウェアユニットとして実現されるが、ハードウェア又はファームウェアで表され得る。一般的に、本明細書で説明されたユニットは、他のユニットと組み合わせられ得る又は物理的編成又はストレージにもかかわらず副ユニットに分割され得る論理ユニットを指す。
[0115] 抽出ユニット31は、音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出するように構成され得る。抽出ユニット31は、上記装置内の話者認識特徴を含むベクトルを抽出するためのものと同様な動作を実行するように構成され得る。
[0116] 認識ユニット32は、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償し、第2のニューラルネットワークに基づく音響モデルを介し音声データ内の音声を認識するように構成され得る。認識ユニット32は上記装置内の音声を認識するためのものと同様な動作を実行するように構成され得る。
[0117] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成された認識ユニット32は、話者認識特徴を含むベクトルに、第2のニューラルネットワークのバイアス項となるべき重み行列を掛けるように構成されることを含み得る。
[0118] いくつかの実施形態では、話者認識特徴は少なくとも話者声紋情報を含み得る。
[0119] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成された認識ユニット32は、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償するように構成されることを含み得る。代替的に、話者認識特徴を含むベクトルは、第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルであり得る。
[0120] いくつかの実施形態では、第1のニューラルネットワークは再帰型ニューラルネットワークであり得る。
[0121] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成された認識ユニット32は、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信するように構成されることを含み得る。
[0122] いくつかの実施形態では、抽出ユニット31は、図3に示すシステムアーキテクチャ内の話者認識ユニット121として構成され得る。認識ユニット32は、図3に示すシステムアーキテクチャ内の音声認識ユニット122として構成され得る。図6の装置は、図3に示すシステムアーキテクチャの音声認識装置として構成され得る。図6の装置のさらなる詳細動作は音声認識図3に示す装置に関して上に説明したものが参照され得る。
[0123] さらに、抽出ユニット31及び認識ユニット32により実行される動作は、上記音声認識方法における工程S110、S120と同様であり得る。抽出ユニット31及び認識ユニット32により実行される動作のさらなる詳細も上に見出され得る。
[0124] 本出願はまた音声認識方法に向けられる。図7は、本開示のいくつかの実施形態による例示的音声認識方法のフローチャートである。この方法は、図3の音声認識デバイス及び/又は図5のシステムアーキテクチャにより行われ得る。図7に示すように、音声認識方法は、以下の工程S410、S420、及び工程S430を含む。
[0125] 工程S410では、システムアーキテクチャは音声データを収集する。
[0126] 工程S420では、システムアーキテクチャは、収集された音声データを第1のニューラルネットワークに入力することにより、話者認識特徴を含むベクトルを抽出し、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償する。
[0127] 工程S430では、システムアーキテクチャは、収集された音声データを第2のニューラルネットワークに入力することにより音声を認識する。
[0128] 工程S410、S420及び工程S430は、収集プロセス中に連続的に行われ得る。一団の音声データが収集されるたびに、工程S420、S430が、その一団の音声データの音声認識の結果を取得するために、当該一団の音声データに対し行われ得る。一団の音声データのサイズは限定しないが1つ又は複数のフレームであり得る。
[0129] 図8は、本開示のいくつかの実施形態による図7の音声認識方法の例示的実施形態プロセスの概要図である。
[0130] この実施形態プロセスはユーザの音声を収集することを含む。この実施形態プロセスはまた、収集された音声データ又はそれから抽出された音声特徴を、第1のニューラルネットワーク及び第2のニューラルネットワークへ直接入力することを含む。この実施形態プロセスはさらに、話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出し、このベクトルを第2のニューラルネットワークへバイアス項として送信することを含む。この実施形態プロセスはまた、第2のニューラルネットワークから音声データの認識結果を出力することを含む。
[0131] 収集された元音声データは、第1のニューラルネットワーク及び第2のニューラルネットワークへ直接提供され得る。代替的に、音声特徴は、収集された元音声データから抽出され得、抽出された音声特徴は次に第1のニューラルネットワーク及び第2のニューラルネットワークへ提供される。
[0132] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、話者認識特徴を含むベクトルに、第2のニューラルネットワークのバイアス項となるべきに重み行列を掛けることを含み得る。
[0133] いくつかの実施形態では、話者認識特徴は少なくとも話者声紋情報を含み得る。
[0134] いくつかの実施形態では、第1のニューラルネットワークは再帰型ニューラルネットワークであり得る。
[0135] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償することは、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信することを含む。
[0136] 第1のニューラルネットワーク、第2のニューラルネットワーク、話者認識特徴を含むベクトルの抽出、話者認識特徴を含むベクトルに従って第2のニューラルネットワークにおけるバイアス補償、及び第2のニューラルネットワークに基づく音声認識のさらなる詳細は、音声認識方法について上で説明したものと同様である。
[0137] 本出願に開示された実施形態はさらに音声認識装置に関する。音声認識装置は音声認識のプログラムを格納するように構成されたメモリを含む。音声認識装置はまた、音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出するために、音声認識のプログラムを実行するように構成されたプロセッサを含む。プロセッサはまた、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するために、音声認識のプログラムを実行するように構成される。プロセッサはさらに、音声データ内の音声を第2のニューラルネットワークに基づく音響モデルを介し認識するために、音声認識のプログラムを実行するように構成される。
[0138] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するために音声認識のプログラムを実行するように構成されたプロセッサは、話者認識特徴を含むベクトルに、第2のニューラルネットワークのバイアス項となるべき重み行列を掛けるように構成されることを含み得る。
[0139] いくつかの実施形態では、話者認識特徴は少なくとも話者声紋情報を含み得る。
[0140] いくつかの実施形態では、第1のニューラルネットワークは再帰型ニューラルネットワークであり得る。
[0141] いくつかの実施形態では、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するために音声認識のプログラムを実行するように構成されたプロセッサは、第1のニューラルネットワークの最後の隠れ層においてニューロンノードにより出力された話者認識特徴を含むベクトルを、第2のニューラルネットワーク内の入力層を除く層のすべて又は一部に対応するバイアスノードへ送信するように構成されることを含み得る。
[0142] プロセッサが音声認識のプログラムを読み実行するように構成される場合、音声データを収集するように構成されたプロセッサは、図3の音声収集装置の動作を参照し得る。動作のさらなる詳細は図3の説明に見出され得る。話者認識特徴を含むベクトルを抽出すること、話者認識特徴を含むベクトルに従って第2のニューラルネットワークにおいてバイアスを補償すること、及び第2のニューラルネットワークに基づき音声を認識することのさらなる動作詳細もまた、本音声認識方法における上記それらの説明を参照することができる。
[0143] 本出願はさらに音声認識装置に関する。図9は、本開示のいくつかの実施形態による例示的音声認識装置の概要図である。図9に示すように、音声認識装置は、音声データを収集するように構成された収集ユニット61を含む。音声認識装置はまた、収集された音声データを第1のニューラルネットワークに入力することにより、話者認識特徴を含むベクトルを抽出し、話者認識特徴を含むベクトルに従って第2のニューラルネットワーク内のバイアスを補償するように構成された抽出及び補償ユニット62を含む。音声認識装置はさらに、収集された音声データを第2のニューラルネットワークに入力することにより音声を認識するように構成された認識ユニット63を含む。これらのユニット(そして任意の副ユニット)は、他の部品(例えば集積回路の一部)と共に及び/又は関連機能の特定機能を実行するプログラム(コンピュータ可読媒体上に格納された)の一部と共に使用するために設計されたパッケージ化機能ハードウェアユニットであり得る。
[0144] 収集ユニット61は、上記装置内の音声データを収集するためのものと同様な動作を実行するように構成され得る。
[0145] 抽出及び補償ユニット62は、上記装置内の話者認識特徴を含むベクトルを抽出するためのもの、及び第2のニューラルネットワークにおいてバイアスを補償するためのものと同様な動作を実行するように構成され得る。
[0146] 認識ユニット63は、音声を認識するためのものと同様な動作を実行するように構成され得る。
[0147] 収集ユニット61は、独立したデバイス内に装備され得る。代替的に、収集ユニット61は、抽出及び補償ユニット62、認識ユニット63と共に同じデバイス内に装備され得る。
[0148] 収集ユニット61は、図3に示す音声収集装置を参照して実現され得る。抽出及び補償ユニット62並びに認識ユニット63による、第1のニューラルネットワークによる話者認識特徴を含むベクトルを抽出すること、話者認識特徴を含むベクトルに従って第2のニューラルネットワークにおいてバイアスを補償すること、及び音声を認識することのさらなる実施詳細は、上記音声認識方法におけるそれらの説明として参照され得る。
[0149] 上に示すように、上記方法のすべて又はいくつかの工程は、プログラムを介した命令下で当該ハードウェアにより完了され得るということが理解される。プログラムは、読み取り専用メモリ、磁気ディスク又はコンパクトディスクなどのコンピュータ可読記憶媒体内に格納され得る。任意選択的に、上述の実施形態のすべて又はいくつかの工程はまた、1つ又は複数の集積回路を使用して実現され得る。したがって、上記実施形態における様々なモジュール/ユニットはハードウェアの形式で実装されてもよいし、ソフトウェア機能モジュールの形式で実装されてもよい。本出願はハードウェア及びソフトウェアの組み合わせのいかなる特定形式にも限定されない。
[0150] 確かに、本出願の様々な他の実施形態が存在し得る。当業者は本出願の精神及び本質から逸脱することなく本出願に従って様々な変更及び変形をなすことができるだろう。すべてのこれらの対応する変更及び変形はすべて本出願の特許請求の範囲に入るべきである。

Claims (19)

  1. 音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出することと、
    前記話者認識特徴を含む前記ベクトルに従って第2のニューラルネットワーク内のバイアスを補償することと、
    前記第2のニューラルネットワークに基づく音響モデルを介し前記音声データ内の音声を認識することと、を含む音声認識方法。
  2. 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内のバイアスを補償することは、前記話者認識特徴を含む前記ベクトルに前記第2のニューラルネットワークのバイアス項となるべき重み行列を掛けることを含む、請求項1に記載の音声認識方法。
  3. 前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記重み行列は、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークをそれぞれトレーニングし、次に前記トレーニングされた第1のニューラルネットワーク、前記重み行列、及び前記トレーニングされた第2のニューラルネットワークを一括してトレーニングすることによりトレーニングされる、請求項2に記載の音声認識方法。
  4. 前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記重み行列を初期化することと、
    所定客観的判定基準に従って逆伝搬アルゴリズムを使用することにより前記重み行列を更新することと、
    所定客観的判定基準に従って前記誤差逆伝搬アルゴリズムを使用することにより前記第2のニューラルネットワーク及び接続行列を更新することと、をさらに含む請求項3に記載の音声認識方法。
  5. 前記話者認識特徴は少なくとも話者声紋情報を含む、請求項1乃至4のいずれか一項に記載の音声認識方法。
  6. 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内のバイアスを補償することは、前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することを含み、
    前記話者認識特徴を含む前記ベクトルは前記第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルである、請求項1に記載の音声認識方法。
  7. 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することは、前記第1のニューラルネットワークの前記最後の隠れ層においてノードにより出力された前記話者認識特徴を含む前記ベクトルを、前記第2のニューラルネットワーク内の前記入力層を除く層の前記すべて又は一部に対応するバイアスノードへ送信することを含む、請求項6に記載の音声認識方法。
  8. 前記音声データは、収集された元音声データ又は前記収集された元音声データから抽出された音声特徴である、請求項1に記載の音声認識方法。
  9. 前記話者認識特徴は、様々なユーザ又は様々なユーザのクラスタに対応する、請求項1に記載の音声認識方法。
  10. 一組の命令を格納する非一時的コンピュータ可読媒体であって、前記一組の命令は、装置の1つ又は複数のプロセッサによって、前記装置に音声認識の方法を行わせるように、実行可能であり、前記方法は、
    音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出することと、
    前記話者認識特徴を含む前記ベクトルに従って第2のニューラルネットワーク内のバイアスを補償することと、
    前記第2のニューラルネットワークに基づく音響モデルを介し前記音声データ内の音声を認識することと、を含む、非一時的コンピュータ可読媒体。
  11. 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内のバイアスを補償することは、前記話者認識特徴を含む前記ベクトルに前記第2のニューラルネットワークのバイアス項となるべき重み行列を掛けることを含む、請求項10に記載の非一時的コンピュータ可読媒体。
  12. 前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記重み行列は、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークをそれぞれトレーニングし、次に前記トレーニングされた第1のニューラルネットワーク、前記重み行列、及び前記トレーニングされた第2のニューラルネットワークを一括してトレーニングすることによりトレーニングされる、請求項11に記載の非一時的コンピュータ可読媒体。
  13. 前記一組の命令は、前記装置の前記1つ又は複数のプロセッサにより、前記装置に、
    前記第1のニューラルネットワーク、前記第2のニューラルネットワーク、及び前記重み行列を初期化することと、
    所定客観的判定基準に従って逆伝搬アルゴリズムを使用することにより前記重み行列を更新することと、
    所定客観的判定基準に従って前記誤差逆伝搬アルゴリズムを使用することにより前記第2のニューラルネットワーク及び接続行列を更新することと、をさらに行わせるように、実行可能である、請求項12に記載の非一時的コンピュータ可読媒体。
  14. 前記話者認識特徴は少なくとも話者声紋情報を含む、請求項10に記載の非一時的コンピュータ可読媒体。
  15. 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内のバイアスを補償することは、前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することを含み、
    前記話者認識特徴を含む前記ベクトルは前記第1のニューラルネットワーク内の最後の隠れ層の出力ベクトルである、請求項10に記載の非一時的コンピュータ可読媒体。
  16. 前記話者認識特徴を含む前記ベクトルに従って前記第2のニューラルネットワーク内の入力層を除く層のすべて又は一部においてバイアスを補償することは、前記第1のニューラルネットワークの前記最後の隠れ層においてノードにより出力された前記話者認識特徴を含む前記ベクトルを、前記第2のニューラルネットワーク内の前記入力層を除く層の前記すべて又は一部に対応するバイアスノードへ送信することを含む、請求項15に記載の非一時的コンピュータ可読媒体。
  17. 前記音声データは、収集された元音声データ又は前記収集された元音声データから抽出された音声特徴である、請求項10に記載の非一時的コンピュータ可読媒体。
  18. 前記話者認識特徴は、様々なユーザ又は様々なユーザのクラスタに対応する、請求項10に記載の非一時的コンピュータ可読媒体。
  19. 音声データから話者認識特徴を含むベクトルを第1のニューラルネットワークを介し抽出するように構成された抽出ユニットと、
    前記話者認識特徴を含む前記ベクトルに従って第2のニューラルネットワーク内のバイアスを補償し、前記第2のニューラルネットワークに基づく音響モデルを介し前記音声データ内の音声を認識するように構成された認識ユニットと、を含む音声認識装置。
JP2019510589A 2016-08-26 2017-08-24 音声認識方法及び装置 Active JP7023934B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610741622.9 2016-08-26
CN201610741622.9A CN107785015A (zh) 2016-08-26 2016-08-26 一种语音识别方法及装置
PCT/US2017/048499 WO2018039500A1 (en) 2016-08-26 2017-08-24 A speech recognition method and apparatus

Publications (2)

Publication Number Publication Date
JP2019528476A true JP2019528476A (ja) 2019-10-10
JP7023934B2 JP7023934B2 (ja) 2022-02-22

Family

ID=61243250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019510589A Active JP7023934B2 (ja) 2016-08-26 2017-08-24 音声認識方法及び装置

Country Status (5)

Country Link
US (1) US20180061397A1 (ja)
EP (1) EP3504703B1 (ja)
JP (1) JP7023934B2 (ja)
CN (1) CN107785015A (ja)
WO (1) WO2018039500A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022539674A (ja) * 2019-12-04 2022-09-13 グーグル エルエルシー 特定話者スピーチモデルを使用した話者認識
KR102498268B1 (ko) * 2022-07-15 2023-02-09 국방과학연구소 화자 인식을 위한 전자 장치 및 그의 동작 방법
WO2023243083A1 (ja) * 2022-06-17 2023-12-21 日本電信電話株式会社 音声認識モデル学習装置、音声認識モデル学習方法、およびプログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
US10529319B2 (en) * 2017-05-22 2020-01-07 Samsung Electronics Co., Ltd. User adaptive speech recognition method and apparatus
US10325602B2 (en) * 2017-08-02 2019-06-18 Google Llc Neural networks for speaker verification
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
US10783873B1 (en) * 2017-12-15 2020-09-22 Educational Testing Service Native language identification with time delay deep neural networks trained separately on native and non-native english corpora
CN108564940B (zh) * 2018-03-20 2020-04-28 平安科技(深圳)有限公司 语音识别方法、服务器及计算机可读存储介质
CN108615528B (zh) * 2018-03-30 2021-08-17 联想(北京)有限公司 一种信息处理方法及电子设备
CN108831445A (zh) * 2018-05-21 2018-11-16 四川大学 四川方言识别方法、声学模型训练方法、装置及设备
CN108694951B (zh) * 2018-05-22 2020-05-22 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
CN110176243B (zh) * 2018-08-10 2023-10-31 腾讯科技(深圳)有限公司 语音增强方法、模型训练方法、装置和计算机设备
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN109376264A (zh) * 2018-11-09 2019-02-22 广州势必可赢网络科技有限公司 一种音频检测方法、装置、设备及计算机可读存储介质
US11315550B2 (en) * 2018-11-19 2022-04-26 Panasonic Intellectual Property Corporation Of America Speaker recognition device, speaker recognition method, and recording medium
CN109686382A (zh) * 2018-12-29 2019-04-26 平安科技(深圳)有限公司 一种说话人聚类方法和装置
US10839792B2 (en) * 2019-02-05 2020-11-17 International Business Machines Corporation Recognition of out-of-vocabulary in direct acoustics-to-word speech recognition using acoustic word embedding
CN111613231A (zh) * 2019-02-26 2020-09-01 广州慧睿思通信息科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
JP2020154061A (ja) * 2019-03-19 2020-09-24 株式会社フュートレック 話者識別装置、話者識別方法およびプログラム
CN109979436B (zh) * 2019-04-12 2020-11-13 南京工程学院 一种基于频谱自适应法的bp神经网络语音识别系统及方法
CN110047468B (zh) * 2019-05-20 2022-01-25 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN110197658B (zh) * 2019-05-30 2021-01-26 百度在线网络技术(北京)有限公司 语音处理方法、装置以及电子设备
US11183178B2 (en) 2020-01-13 2021-11-23 Microsoft Technology Licensing, Llc Adaptive batching to reduce recognition latency
US20220080262A1 (en) * 2020-09-14 2022-03-17 Train121 Inc. Method and apparatus to generate motion data of a barbell and to process the generated motion data
WO2023068552A1 (ko) * 2021-10-21 2023-04-27 삼성전자주식회사 음성 인식을 위한 전자 장치 및 그 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102806A (ja) * 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258790A (ja) * 1996-03-27 1997-10-03 Seiko Epson Corp ニューラルネットワーク音声モデル再学習方法および装置
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
EP2840546A4 (en) * 2012-07-10 2015-12-02 Nec Corp COMMUNITY SERVER, COMMUNITY METHOD AND PROGRAM
US9620145B2 (en) * 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US9378735B1 (en) * 2013-12-19 2016-06-28 Amazon Technologies, Inc. Estimating speaker-specific affine transforms for neural network based speech recognition systems
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
KR101844932B1 (ko) * 2014-09-16 2018-04-03 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN105845128B (zh) * 2016-04-06 2020-01-03 中国科学技术大学 基于动态剪枝束宽预测的语音识别效率优化方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015102806A (ja) * 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHAOFEI XUE ET AL.: "Fast Adaptation of Deep Neural Network Based on Discriminant Codes for Speech Recognition", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, vol. 22, no. 12, JPN6021035525, December 2014 (2014-12-01), pages 1713 - 1725, XP011557543, ISSN: 0004681413, DOI: 10.1109/TASLP.2014.2346313 *
ZHIYING HUANG ET AL.: "Speaker adaptation of RNN-BLSTM for speech recognition based on speaker code", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICASSP 2016), JPN6021035526, March 2016 (2016-03-01), pages 5305 - 5309, XP032901616, ISSN: 0004681414, DOI: 10.1109/ICASSP.2016.7472690 *
柏木陽佑他: "制約付き話者コードの同時推定によるニューラルネット音響モデルの話者正規化学習", 日本音響学会2014年秋季研究発表会講演論文集, JPN6020009294, September 2014 (2014-09-01), pages 7 - 10, ISSN: 0004681412 *
柏木陽佑他: "話者コードに基づく話者正規化学習を利用したニューラルネット音響モデルの適応", 電子情報通信学会技術研究報告, vol. 114, no. 365, JPN6015029866, December 2014 (2014-12-01), pages 105 - 110, ISSN: 0004681411 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022539674A (ja) * 2019-12-04 2022-09-13 グーグル エルエルシー 特定話者スピーチモデルを使用した話者認識
JP7371135B2 (ja) 2019-12-04 2023-10-30 グーグル エルエルシー 特定話者スピーチモデルを使用した話者認識
US11854533B2 (en) 2019-12-04 2023-12-26 Google Llc Speaker awareness using speaker dependent speech model(s)
WO2023243083A1 (ja) * 2022-06-17 2023-12-21 日本電信電話株式会社 音声認識モデル学習装置、音声認識モデル学習方法、およびプログラム
KR102498268B1 (ko) * 2022-07-15 2023-02-09 국방과학연구소 화자 인식을 위한 전자 장치 및 그의 동작 방법

Also Published As

Publication number Publication date
CN107785015A (zh) 2018-03-09
US20180061397A1 (en) 2018-03-01
WO2018039500A1 (en) 2018-03-01
EP3504703A4 (en) 2019-08-21
EP3504703B1 (en) 2022-08-03
JP7023934B2 (ja) 2022-02-22
EP3504703A1 (en) 2019-07-03

Similar Documents

Publication Publication Date Title
JP7023934B2 (ja) 音声認識方法及び装置
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN108269569B (zh) 语音识别方法和设备
Li et al. Developing far-field speaker system via teacher-student learning
CN106688034B (zh) 具有情感内容的文字至语音转换
US11670299B2 (en) Wakeword and acoustic event detection
US11132990B1 (en) Wakeword and acoustic event detection
CN104541324A (zh) 一种使用动态贝叶斯网络模型的语音识别系统和方法
Lee et al. Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition
Deena et al. Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
US20210073645A1 (en) Learning apparatus and method, and program
KR20190136578A (ko) 음성 인식 방법 및 장치
CN115376495A (zh) 语音识别模型训练方法、语音识别方法及装置
Wu et al. Acoustic to articulatory mapping with deep neural network
US10741184B2 (en) Arithmetic operation apparatus, arithmetic operation method, and computer program product
Sivasankaran et al. Discriminative importance weighting of augmented training data for acoustic model training
CN113555032A (zh) 多说话人场景识别及网络训练方法、装置
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
Li et al. Semi-supervised ensemble DNN acoustic model training
Cornell et al. Implicit acoustic echo cancellation for keyword spotting and device-directed speech detection
JP7423056B2 (ja) 推論器および推論器の学習方法
US20230298572A1 (en) Dummy prototypical networks for few-shot open-set keyword spotting
Guo et al. Unsupervised Adaptation with Adversarial Dropout Regularization for Robust Speech Recognition.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220209

R150 Certificate of patent or registration of utility model

Ref document number: 7023934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150