JP2024502048A

JP2024502048A - 音声認識方法、装置及び記憶媒体

Info

Publication number: JP2024502048A
Application number: JP2023540012A
Authority: JP
Inventors: ファン，シン; ウー，ミンフイ; マー，チーチャン; リュウ，ジュンファ
Original assignee: アイフライテックカンパニー，リミテッド
Priority date: 2020-12-31
Filing date: 2021-01-26
Publication date: 2024-01-17
Also published as: CN112767917A; KR20230159371A; WO2022141706A1; CN112767917B; EP4273855A1

Abstract

音声認識方法、装置、電子機器、記憶媒体及びプログラム製品であって、音声認識方法は、認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンス（１０１）を得ることと、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンス（１０２）を得ることと、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンス（１０３）を得ることと、第１の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンス（１０４）を得ることと、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果（１０５）を得ることとを含む。当該方法はホットワード認識精度を高める。

Description

本出願は、２０２０年１２月３１日に提出した出願番号２０２０１１６４１７５１．３、発明名称「音声認識方法、装置及び記憶媒体」である先の出願の優先権を主張し、そのすべての内容はここで参照として本出願に引用される。

本出願は、音声認識技術分野に関し、具体的に音声認識方法、装置及び記憶媒体に関する。

音声認識分野では、エンドツーエンドモデルから出力された低頻度語の得点が低いため、従来のホットワード得点インセンティブ方法の効果向上が限られている。Googleが提案したCLAS（Contextual Listen, Attend and Spell、CLAS）はモデルレベルでホットワー
ドのインセンティブを行い、良い効果が上げられたが、やり方があまりにも単純で、ホットワードを含まない文をホットワードと誤認識することがよく発生し、全体の認識率が低下し、実際のシステムで直接的に使用することが難しいため、ホットワードの認識精度をいかに向上させるかという問題が急務となっている。

本出願の実施例は、ホットワードの認識精度を高める音声認識方法、装置及び記憶媒体を提供する。

第一態様において、本出願の実施例は音声認識方法を提供し、前記方法は、
認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得ることと、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得ることと、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得ることと、
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得ることと、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることとを含む。

第二態様において、本出願の実施例は音声認識装置を提供し、前記音声認識装置は、
認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得るオーディオエンコーダモジュールと、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得るホットワードテキストエンコーダモジュールと、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得るホットワードオーディオエンコーダモジュールと、
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得るフレーム階層アテンションモジュールと、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４
の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得るデコーダモジュールとを含む。

第三態様において、本出願の実施例は、プロセッサ、メモリ、通信ポート及び上記メモリに格納され、本出願の実施例の第一態様におけるいずれか方法のステップの命令を上記プロセッサによって実行されるように構成されている１つ又は複数のプログラムを含む電子機器を提供する。

第四態様において、本出願の実施例は、本出願の実施例の第一態様に記載された一部又は全部のステップをコンピュータに実行させる、電子データ交換用コンピュータプログラムを格納するコンピュータ読取可能な記憶媒体を提供する。

第五態様において、本出願の実施例は、本出願の実施例の第一態様に記載されたステップの一部又は全部をコンピュータに実行させるように動作するコンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含むコンピュータプログラム製品をさらに提供する、
当該コンピュータプログラム製品はソフトウェアインストールパッケージであってもよい。

本出願の実施例を実施すると以下の有益な効果がある。
上記によれば、本出願の実施例に記載された音声認識方法、装置及び関連製品は、認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得て、第１の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得て、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得て、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。

本出願の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下説明される図面は、本出願の実施例の一部に過ぎず、当業者であれば、創造的な労力を払うことなくこれらの図面に従って他の図面を得ることができる。
図１Ａは本出願の実施例に係る音声認識モデルの構造を示す図である。図１Ｂは本出願の実施例に係る音声認識方法を示すフローチャートである。図１Ｃは本出願の実施例に係るホットワード符号化を例示する図である。図１Ｄは本出願の実施例に係る特徴結合を例示する図である。図２は本出願の実施例に係る別の音声認識方法を示すフローチャートである。図３は本出願の実施例に係る電子機器の構造を示す図である。図４Ａは本出願の実施例に係る音声認識装置の機能ユニット構成を示すブロック図である。図４Ｂは本出願の実施例に係る別の音声認識装置の機能ユニット構成を示すブロック図である。

当業者が本出願の解決案をよりよく理解できるよう、以下、本出願の実施形態の図面を併せて、本出願の実施例の技術案を明確かつ詳細に説明する。記載された実施例は本出願の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本出願の実施例に基づき、当業者は、創造的な労力なしに得られたすべての他の実施例は本出願の保護範囲内にある。

本出願の明細書、特許請求の範囲及び上記図面における「第１」、「第２」などの用語は、異なる対象を区別するためのものであり、特定の順序を説明するためのものではない。また、用語の「含む」及び「有する」及びそれらの任意の変形は、排他的でないものをカバーすることを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、リストされているステップ又はユニットに限定されず、想定例には、リストされていないステップ又はユニットがさらに含まれ、又は別の想定例には、これらのプロセス、方法、製品又は装置に固有の他のステップ又はユニットがさらに含まれる。

本明細書における「実施例」は、実施例を参照して説明される特定の特徴、構造又は特性が本出願の少なくとも１つの実施例に含まれることができることを意味する。本明細書の任意の部分に当該フレーズが現れることは、必ずしもすべてが同じ実施例を指すわけではなく、また、他の実施例と相互に排他的である独立した又は代替的な実施例を指すわけでもない。本明細書に記載されている実施例が他の実施例と組み合わせてもよいことは、当業者にとっては明示的にも暗黙的にも理解されるべきである。

本出願の実施例に係る電子機器は、音声認識機能を備えたさまざまなハンドヘルドデバイス、ボイスレコーダー、スマートロボット、スマートリーダー、スマート翻訳機、スマートヘッドホン、スマート辞書、スマート読書機、車載機器、ウェアラブルデバイス、コンピューティングデバイス又は無線モデムに接続された他の処理機器、およびさまざまな形態のユーザデバイス（User Equipment，UE）、モバイルステーション（Mobile Station，MS）、端末装置（terminal device）などを含め、また電子機器は、サーバ又はスマー
トホームデバイスであってもよい。

本出願の実施例において、スマートホーム機器は、冷蔵庫、洗濯機、炊飯器、スマートカーテン、スマートライト、スマートベッド、スマートゴミ箱、電子レンジ、オーブン、蒸し器、エアコン、レンジフード、サーバ、スマートドア、スマート窓、ワードローブ、スマートスピーカー、スマートホーム、スマート椅子、スマート物干し、スマートシャワー、ウォーターサーバ、浄水器、空気清浄機、チャイム、監視システム、スマートガレージ、テレビ、プロジェクタ、スマート食卓、スマートソファ、マッサージチェア、ランニングマシンなど、少なくとも１つであってもよい。

以下、本出願の実施例について詳細に説明する。

図１Ａに示すように、図１Ａは、本出願の実施例に係る音声認識モデルを示し、当該音声認識モデルは、オーディオエンコーダモジュール、ホットワードテキストエンコーダモジュール、ホットワードオーディオエンコーダモジュール、フレーム階層アテンションモジュール、ワード階層アテンションモジュール及びデコーダモジュールを含み、デコーダモジュールはデコーダを含んでも良い。当該音声認識モデルは、音声認識機能を実現する
のに用いられる。具体的には以下のとおりである。

まず、オーディオエンコーダモジュールを用いて、認識対象音声データの音声特徴ベクトルシーケンスX＝[x₁,x₂,……,x_K ]に対して符号化を行い、第１の特徴ベクトルシーケ
ンスH^x＝[h₁ ^x,h₂ ^x,……,h_K ^x ]を得る。そのうち、x_kは、kフレーム目の音声特徴ベクトル、h_k ^xはオーディオエンコーダモジュールの最後１つのニューラルネットワーク層から出
力される特徴ベクトルを表し、h_k ^xはx_kがオーディオエンコーダモジュールで変換された
後の結果に対応する。また、電子機器は、ホットワードテキストエンコーダモジュールを用いて、予め設定されたホットワードシソーラスにおける各ホットワードを個別に符号化し、長さが異なるホットワードを固定次元のベクトルに符号化することを実現し、ホットワードを表す特徴ベクトルシーケンスのセット、すなわち、第２の特徴ベクトルシーケンスH^z＝[h₀ ^z,h₁ ^z,……,h_N ^z]を得る。そのうち、h_n ^zはn番目のホットワードがホットワー
ドエンコーダモジュールで符号化された後の特徴ベクトルである。予め設定されたホットワードシソーラスは、ユーザの需要に応じて事前に設定することができ、例えば、自分の身分又は職業に合わせて基本ホットワードシソーラスから適切なホットワードを予め設定されたホットワードシソーラスとして抽出する。基本ホットワードシソーラスは、身分又は職業に合わせて事前に作成されることができる。予め設定されたホットワードシソーラスは、ユーザの過去状況に応じて自動的に生成することができ、例えば、ユーザが使用するとき、使用中に出てきたホットワードを予め設定されたホットワードシソーラスに自動的に生成することができる。また、例として、音声アシストアプリケーションの場合は、ユーザの電話帳の名前をホットワードとして読み取り、これらのホットワードから予め設定されたホットワードシソーラスを生成する。また、例として、入力ツールなどを使用するとき、合法的に許可された後、ユーザがピンインで入力した地名や名前などのテキストをホットワードとして記憶し、そのホットワードを予め設定されたホットワードシソーラスに生成する。予め設定されたホットワードシソーラスはローカル又はクラウドに保存されることができる。

次に、ホットワードオーディオエンコーダモジュールを用いて上記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントを個別に符号化することができ、このホットワードオーディオエンコーダモジュールは前述したオーディオエンコーダモジュールと共有することができる。共有とは、両者が同一のエンコーダであることを意味する。そのため、長さが異なるホットワードオーディオセグメントを固定次元のベクトルに符号化することができ、すなわち、ホットワードオーディオセグメントの最後の１フレームのエンコーダ又はすべてのフレームの平均の出力でホットワードオーディオセグメント全体の特徴表現ベクトルを表すことで、ホットワードオーディオを示す第３の特徴ベクトルシーケンスH^w＝[h₀ ^w,h₁ ^w,……,h_N ^w]を得る。そのうちh_n ^wは、n番目のホットワードオーディオセグメントがホットワードエンコーダモジュールで符号化された後の特徴ベクトルである。その後、フレーム階層アテンションモジュールは各フレームのオーディオ符号化特徴表現（第１の特徴ベクトルシーケンス）及びホットワードオーディオ符号化特徴表現（第３の特徴ベクトルシーケンス）に対して、フレーム階層上でアテンション操作を行い、ホットワード情報を融合し、新しいオーディオ符号化特徴表現、すなわち第４の特徴ベクトルシーケンス（以下の数１）

を形成し、よって２種類の復号化操作を行うことができ、具体的に以下のとおりである。

第一、ワード階層アテンションモジュールは、デコーダモジュールがt時刻目に出力し
た状態ベクトルd_t、フレーム階層アテンションモジュールが出力した第４の特徴ベクトル
シーケンス（以下の数２）

及びホットワードテキストエンコーダが出力した第２の特徴ベクトルシーケンスH^z及びホットワードオーディオエンコーダモジュールが出力した第３の特徴ベクトルシーケンスH^wを入力とし、アテンションメカニズムを用いて、t番目の文字を予測するためのオーディ
オ文脈特徴ベクトルC_t ^x、ホットワードオーディオ文脈特徴ベクトルC_t ^w及びホットワードテキスト文脈特徴ベクトルC_t ^zを得て、デコーダモジュールに入力し、復号化を行う。

第二、デコーダモジュールは、フレーム階層アテンションモジュールが出力した第４の特徴ベクトルシーケンス（以下の数３）

及びホットワードテキストエンコーダが出力した第２の特徴ベクトルシーケンスH^z及びホットワードオーディオエンコーダが出力した第３の特徴ベクトルシーケンスH^wをそのままにデコーダに入力し、復号化を行う。

具体的な実施において、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。

さらに、図１Ｂに示すように、図１Ｂは本出願の実施例に係る音声認識方法を示すフローチャートである。図１Ｂに示す音声認識方法は、図１Ａに示す音声認識モデルに適用され、当該音声認識モデルは、電子機器に適用され、本音声認識方法は以下を含む。

１０１：認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得る。
そのうち、本出願の実施例において特に限定しないが、認識対象音声データは、予め格納又はリアルタイムに収集した音声データ又は音声特徴ベクトルシーケンスであってもよく、音声データは、録音データ、リアルタイムに録音した録音データ、ビデオデータから抽出した録音データ、合成した録音データなどの少なくとも１つであってもよい。音声特徴ベクトルシーケンスは、特に限定しないが、Filter Bank特徴、メル周波数ケプストラ
ム係数（Mel Frequency Cepstrum Coefficient、MFCC）特徴、知覚的線形予測（Perceptual Linear Predictive、PLP）係数特徴などの少なくとも１つであってもよい。例えば、
認識対象音声データが音声データであれば、電子機器が当該音声データの特徴抽出を行い、音声特徴ベクトルシーケンスを得た後、音声特徴ベクトルシーケンスを符号化し、第１の特徴ベクトルシーケンスを得る。また、認識対象音声データが音声特徴ベクトルシーケンスであれば、電子機器が当該音声特徴ベクトルシーケンスを直接的に符号化し、第１の特徴ベクトルシーケンスを得る。

具体的な実施において、図１Ｂに示すように、電子機器がオーディオエンコーダモジュールを用いて認識対象音声データを符号化し、第１の特徴ベクトルシーケンスを得る。当該オーディオエンコーダモジュールは、１層又は複数層の符号化層を含んでもよい、符号化層としては、長短期記憶ニューラルネットワーク（Long Short-Term Memory、LSTM）の
長短期記憶層又は畳み込みニューラルネットワークの畳み込み層であってもよい。当該長短期記憶ニューラルネットワークは、単方向又は双方向の長短期記憶ニューラルネットワークにおける長短期記憶層であってもよい。例を挙げると、本出願の実施例において、３層の単方向長短期記憶層を選択し、入力した音声特徴ベクトルシーケンスX＝[x₁,x₂,……,x_K]を符号化し、第１の特徴ベクトルシーケンスH^x＝[h₁ ^x,h₂ ^x,……,h_K ^x]を出力してもよい。

１０２：予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得る。
そのうち、予め設定されたホットワードシソーラスは、予めに電子機器に保存されてもよい、予め設定されたホットワードシソーラスは複数のホットワードのテキスト情報を含んでもよい。電子機器は、ホットワードテキストエンコーダモジュールを用いて予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得る。又は、別の実施形態において、予め設定されたホットワードシソーラスは別のサーバに保存され、アクセスにより予め設定されたホットワードシソーラスを取得してもよい。

具体的な実施において、異なるホットワードに含まれる文字数が同じであってもよいし、同じでなくてもよい。文字数が同じではない場合、日本語のホットワードである「東京」は２文字であり、「神奈川」は３文字であることを例にすると、モデル処理のために、長く変化された入力を固定次元のベクトルで表してもよい。ホットワードテキストエンコーダモジュールの役割は、長さの異なるホットワードを固定次元のベクトルに符号化することであり、それは１層又は複数層の符号化層を含んでもよい、当該符号化層は、長短期記憶ニューラルネットワークにおける長短期記憶層又は畳み込みニューラルネットワークの畳み込み層であってもよいし、当該長短期記憶ニューラルネットワークは、単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層であってもよい。

具体的な実施において、双方向の長短期記憶層のホットワードに対する符号化効果は、単方向の長短期記憶層よりよい。１層の双方向長短期記憶層を選択し、ホットワードである「神奈川」を例にすると、当該ホットワードは「神」、「奈」、「川」との３文字で構成され、１層の双方向長短期記憶層のホットワードエンコーダで符号化されることは、図１Ｃに示すように、左側が双方向の長短期記憶層の順方向部分で、右側が逆方向部分であり、順方向及び逆方向の最後ステップで出力されたベクトルh_f ^z及びh_b ^zを結合して得られたベクトルh^zをホットワードの符号化ベクトル表現とし、複数のホットワードの符号化ベクトル表現は第２の特徴ベクトルシーケンスを構成することができる。
仮に合計N+1個のホットワードZ＝[z₀,z₁,……,z_N]であれば、ホットワードエンコーダ
モジュールを用いて各ホットワードを個別に処理し、第２の特徴ベクトルシーケンスH^z＝[h₀ ^z,h₁ ^z,……,h_N ^z]を得る。そのうち、h_i ^zはi番目のホットワードz_iの符号化ベクトルである。特に説明すべきことは、z₀が特別のホットワード「<no-bias>」であり、ホットワ
ードが存在しないことを意味する。その後の復号化中に選択されたホットワードが「<no-bias>」であれば、音声にホットワードが存在しない場合、又はこれから認識する音声セ
グメントがホットワードでない場合への処理のため、<no-bias>にインセンティブを与え
ることはしない。

１０３：前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得る。
そのうち、電子機器は、ホットワードオーディオエンコーダモジュールを用いて予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得る。第３の特徴ベクトルシーケンスは、ホットワードオーディオセグメントに含まれているオーディオ情報の特徴を表現する
ことができる。

具体的な実施において、ホットワードオーディオエンコーダモジュール及び上記オーディオエンコーダモジュールは共有してもよい、すなわち両者はアルゴリズムを共有してもよい。例えば、両者は同一のエンコーダである。ホットワードオーディオエンコーダモジュールは、１層又は複数層の符号化層を含んでもよい、当該符号化層は、長短期記憶ニューラルネットワークにおける長短期記憶層又は畳み込みニューラルネットワークにおける畳み込み層であってもよいし、当該長短期記憶ニューラルネットワークは、単方向又は双方向の長短期記憶ニューラルネットワークにおける長短期記憶層であってもよい。又は、他の実施形態において、ホットワードオーディオエンコーダモジュール及び上記オーディオエンコーダモジュールは独立した２つのエンコーダであってもよいので、本出願では特に限定しない。

そのうち、ホットワードのオーディオセグメントは、オーディオからの抽出、手動収集、音声合成システムによる合成などによって得られるので、ここでは特に限定しない。最後に、ホットワードのオーディオセグメントが得られる。例えば、当該ホットワードのオーディオセグメントは予め保存されたものであってもよいし、ホットワードから合成されたオーディオセグメントであってもよい。例を挙げて簡単に説明すれば、本出願の実施例において、３層の単方向長短期記憶層を選択し、入力されたホットワードオーディオセグメント特徴ベクトルシーケンスX＝[x₁,x₂,……,x_K]を符号化し、最後の１フレームの出力を当該ホットワードのオーディオセグメントの特徴表現ベクトルとする。符号化方式はLSTM（再帰的ニューラルネットワーク）であるため、最後の１フレームがオーディオシーケンス全体の情報を表せる。当然、他の実施形態において、最後の１フレームでなく、例えばすべてのフレームの平均値を取っても良い。仮に合計N+1個のホットワードZ＝[z₀,z₁,
……,z_N]であれば、ホットワードオーディオエンコーダモジュールを用いて各ホットワードオーディオを個別に符号化し、ホットワードオーディオベクトルシーケンスのセット、すなわち第３の特徴ベクトルシーケンスH^w ＝[h₀ ^w,h₁ ^w,……,h_N ^w]を得る。そのうち、h_i ^wはi番目のホットワードz_iのオーディオ符号化ベクトルである。特に説明すべきなのは、z₀が特別のホットワード「<no-bias>」であり、ホットワードが存在しないことを意味する。具体的な実施において、すべてのホットワードベクトルの平均値に取り替えられ、このすべてのホットワードベクトルは第２の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスのうち、少なくとも１つの特徴ベクトルシーケンスのすべてのベクトルであってもよい。その後の復号化中に選択されたホットワードが「<no-bias>」であれば、音声
にホットワードが存在しない場合、又はこれから認識する音声セグメントがホットワードでない場合への処理のため、<no-bias>にインセンティブを与えることはしない。

１０４：前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得る。

具体的な実施において、電子機器は、フレーム階層アテンションモジュールを用いて第１の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、両者の特徴を融合し、第４の特徴ベクトルシーケンスを得る。このように、ホットワードインセンティブ効果を明らかに向上させる。

そのうち、フレーム階層アテンションモジュールの役割は、各フレームオーディオエンコーダモジュールの出力に予め設定されたホットワードシソーラスのホットワードテキスト情報を融合した後、ホットワード情報の特徴表現を有する第４の特徴ベクトルシーケンスを形成し、各フレームの認識対象音声データのオーディオ特徴表現（第１の特徴ベクトルシーケンス）にホットワードロバスト性が高くなることである。具体的には、第１のアテンション操作のアテンションメカニズムは、オーディオエンコーダモジュールが出力す
る１フレームのベクトルh_i ^xをクエリ項目（query）とし、ホットワードオーディオエンコーダが出力する第３の特徴ベクトルシーケンスH^z＝[h₀ ^z,h₁ ^z,……,h_N ^z]に対してアテンションメカニズム操作を行う。

想定例では、上記ステップ１０４で前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得ることは、
４１：前記第１の特徴ベクトルシーケンスにおける各第１の特徴ベクトル及び前記第３の特徴ベクトルシーケンスにおける各第３の特徴ベクトルに対してマッチング演算を行い、各第３の特徴ベクトルに対応するマッチング係数を得ることと、
４２：前記各第３の特徴ベクトルに対応するマッチング係数及び対応する第３の特徴ベクトルに対して演算を行い、前記各第３の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
４３：前記各第３の特徴ベクトルに対応する新しい特徴ベクトル及び対応する第３の特徴ベクトルを結合し、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを前記第４の特徴ベクトルシーケンスとすることとを含む。

具体的には、図１Ｄに示すように、第１の特徴ベクトルシーケンスのいずれか一つの第１の特徴ベクトルを例にクエリ項目とすると、電子機器がクエリ項目及び第３の特徴ベクトルシーケンスにおける各特徴ベクトルを用いてアテンションメカニズムに基づいてマッチング係数を求める。例えば、内積を求める方式又は特徴距離方式により、マッチング係数を計算し、正規化法によりマッチング係数W_nを得て、次にマッチング係数W_n及び対応する特徴ベクトルh_n ^zに対して演算を行う。当該演算方式は、ドット積の和、加重平均、内
積などのいずれかであり、ここで特に限定しない。演算後、１つの新しい特徴ベクトルh_i ^z、すなわちクエリ項目に最もマッチングする特徴ベクトルを得て、クエリ項目に結合し
、融合後の最後のオーディオ符号化特徴表現h_i ^xを得て、各フレームオーディオエンコー
ダが出力するベクトルに対して上記操作を行い、最終的な第４の特徴ベクトルシーケンス（以下の数４）

を得る。本フレーム階層アテンションモジュールの主要目的は予め設定されたホットワードシソーラスのホットワードオーディオ情報の内容をオーディオの符号化に追加することであるため、その後の復号化モジュールのホットワードの復号化精度に有利である。

１０５：前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る。

そのうち、具体的な実施において、電子機器は、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得る。又は、電子機器は、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス、第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、その結果をデコーダに入力し、復号化操作を行い、認識結果を得る。デコーダは、複数のニューラルネットワーク層を含んでもよい。復号化操作の方式は、Beam Search復号化であってもよいし、当然、他の復号化方式であってもよいので、ここでは省
略する。

本出願の実施例において、ステップ１０１の前に、テキスト注釈付きの音声データを大
量収集し、その音声特徴を抽出することができる。当該音声特徴は、PLP、MFCC、FilterBankなどの少なくとも１つであってもよいので、ここでは特に限定しない。ここで収集さ
れたテキスト注釈付きの音声データは、ホットワードオーディオエンコーダモジュールの訓練に用いられてもよい。ある音声データの音声特徴シーケンス及びテキスト注釈付きのシーケンスは以下の方式で表せる。
音声特徴シーケンスX＝[x₁,x₂,……,x_k,……,x_K]
テキスト注釈付きのシーケンスY＝[y₀,y₁,……,y_t,……,y_T]
そのうち、x_kは、音声特徴シーケンスXにおけるkフレーム目の音声特徴ベクトルを表し、Kは音声フレームの総数とする。y_tは、テキスト注釈付きのシーケンスYのt番目の文字
、T+1は、当該総テキスト注釈付きの文字総数であり、そのうち、y₀はセンテンスの開始
タグ「<s>」とし、y_T はセンテンスの終了タグ「</s>」とする。日本語の音声認識を例とし、単一の文字をモデリング単位とする。あるセンテンスのテキスト内容は「今日は東京は風が強い」とし、合計１０文字にセンテンスの開始タグ及び終了タグを加えて、テキスト注釈付きのシーケンスは合計１２文字とすれば、テキスト注釈付きのシーケンスY＝[<s>,今,日,は,東,京,は,風,が,強,い,</s>]である。

具体的な実施において、音声認識モデルは、任意のホットワードの認識機能を備えることができ、これはモデル訓練でホットワードを限定できないことを意味する。したがって、本出願の実施例では、訓練データのテキスト注釈からランダムに選定された注釈セグメントをホットワードとしてモデル訓練全体に参加してもよい。以下、Ｂセンテンスの音声データに対してモデル訓練を１回行うことを例とし、Ｂは１より大きな整数として詳しく説明する。例えば、ＰとＮとの２つのパラメータを設定してもよい、Ｐはあるセンテンスの訓練データについてホットワードを選定するかどうかの確率とし、Ｎは選定したホットワードの最大文字数とする。本出願の実施例において、Ｐ＝０.５、Ｎ＝４とし、つまり
、任意センテンスの訓練データも５０％の確率で選定され、テキスト注釈から連続して最大４文字を選定してホットワードとしてもよい。「今日は東京は風が強い」を例として、当該センテンスからホットワードを選定する前後の注釈の比較は下の表に示す。

原始注釈における「東」、「京」がホットワードとして選定された場合、その後ろに特殊なタグ「<bias>」を付けてもよい。「<bias>」の役割は、訓練エラーを導入し、モデル訓練時にホットワードに関するモデルパラメータ(ホットワードオーディオエンコーダモ
ジュールのモデルパラメータ又はホットワードテキストエンコーダモジュールのモデルパラメータなど）を強制的に更新することである。「東」、「京」がホットワードとして選定されると、それを今回モデル更新のためのホットワードリストに追加し、ホットワードオーディオエンコーダモジュール又はホットワードテキストエンコーダモジュールの入力とする。モデル更新を行うたびにホットワードの選定を個別に行い、初期時刻ホットワードリストは空でも構わない。データを処理した後、ニューラルネットワークの最適化方法によりモデルパラメータを更新してもよい。訓練段階で、サンプルデータ及び当該サンプルデータに対応する真の認識結果を取得し、サンプルデータの符号化を行い、第１の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得て、第１の特徴ベクトルシーケンス及び第３の特
徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得て、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、予測認識結果を得て、真の認識結果及び予め設定された認識結果の間の偏差に基づいて、モデルパラメータの更新を実現することができる。

想定例では、上記ステップ１０５で前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることは、
Ａ５１：前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
Ａ５２：前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることとを含んでもよい。

そのうち、電子機器は、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る。ワード階層アテンションモジュールの役割は、各復号化時刻でオーディオ特徴ベクトルシーケンス、ホットワードテキスト特徴ベクトルシーケンス及びホットワードオーディオ特徴ベクトルシーケンスから復号化待ち時刻に必要なオーディオに関する特徴ベクトル及びホットワードに関する特徴ベクトルを抽出することである。t番目の文字を例として、モデルがt番目の文字を予測する時、オーディオに関する特徴ベクトルがt時刻目の復号化待ち文字のオーディオ内容を
表し、ホットワードテキストに関する特徴ベクトルがt時刻目の可能なホットワードテキ
スト内容を表し、ホットワードオーディオに関する特徴ベクトルがt時刻目の可能なホッ
トワードオーディオ内容を表すことと考えられる。

そのうち、ワード階層アテンションメカニズムについて、アテンションメカニズムは１つのベクトルをクエリ項目（query）とし、一連の特徴ベクトルシーケンスに対してアテ
ンションメカニズム操作を行い、クエリ項目と最もマッチングする特徴ベクトルを抽出して出力とする。具体的には、クエリ項目と特徴ベクトルシーケンスにおける各特徴ベクトルとのマッチング係数を計算し、その後、これらのマッチング係数を対応する特徴ベクトルにかけて合計を求め、得られた新しい特徴ベクトルを、クエリ項目と最もマッチングする特徴ベクトルとする。

想定例では、上記ステップＡ５１で前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることは、
Ａ５１１：現在時刻における前記デコーダの第１の状態特徴ベクトルを得ることと、
Ａ５１２：前記第１の状態特徴ベクトルに基づいて、前記第２の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
Ａ５１３：前記第１の状態特徴ベクトルに基づいて、前記第３の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードオーディオ文脈特徴ベクトルシーケンスを得ることと、
Ａ５１４：前記第１の状態特徴ベクトルに基づいて、前記第４の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記オーディオ文脈特徴ベクトルシーケンスを得ることとを含んでもよい。

具体的な実施において、仮に現在時刻におけるデコーダの第１の状態特徴ベクトルはd_tとすると、d_tをクエリ項目として、上記のアテンションメカニズムを用いて、上記フレーム階層アテンションモジュールが出力した第４の特徴ベクトルシーケンス（以下の数５）

に対してアテンションメカニズム操作を行い、オーディオ文脈特徴ベクトルシーケンスc_t ^x を得る。以下の数６

の計算にホットワードを使用し、以下の数７

には潜在的なホットワードの完全なオーディオ情報が含まれているので、このように計算して得られたc_t ^x にもホットワードが含まれているか、どのホットワードであるかという情報が含まれている。同じように、d_t をクエリ項目として、ホットワードテキスト符号
化モジュールが出力した第２の特徴ベクトルシーケンスH^zに対してアテンションメカニズム操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンスc_t ^zを得る。同じよう
に、d_tをクエリ項目として、ホットワードオーディオ符号化モジュールが出力した第３の特徴ベクトルシーケンスH^wに対してアテンションメカニズム操作を行い、ホットワードオーディオ文脈特徴ベクトルシーケンスc_t ^wを得る。
さらに、計算よりc_t ^x、c_t ^z、c_t ^w を得た後、この３つのベクトルを結合したものをデ
コーダモジュールに渡し、t時刻目の復号化を行ってもよい。予め設定されたホットワー
ドシソーラスにおけるホットワードに対応するホットワードオーディオ情報を含むc_t ^w が追加されたので、この後のホットワードの復号化精度に有利である。

又は、他の実施形態において、第１の特徴ベクトルシーケンスに基づいて、第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対してそれぞれに第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る。

さらに、想定例では、前記デコーダは、第１の単方向長短期記憶層を含み、上記ステップＡ５１１で第１の過去時刻における前記デコーダの第１の状態特徴ベクトルを得ることは、
Ａ５１１１：第１の過去時刻の認識結果及び当該第１の過去時刻における前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを得ることと、
Ａ５１１２：前記第１の過去時刻の認識結果及び前記第１の過去時刻における前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第１の単方向長
短期記憶層に入力して、前記第１の状態特徴ベクトルを得ることとを含んでもよい。

そのうち、上記第１の過去時刻は、現在時刻の前の少なくとも１つの時刻であり、つまり、第１の過去時刻は、現在時刻の前の１つの時刻であってもよいし、又は、現在時刻の前の複数の時刻であってもよい。上記デコーダは、２層の単方向長短期記憶層を含んでもよい、当該２層の単方向長短期記憶層は、第１の単方向長短期記憶層及び第２の単方向長短期記憶層を含んでもよい。具体的な実施において、電子機器は、第１の過去時刻のデコーダの認識結果及び当該第１の過去時刻におけるホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを取得し、それを第１の単方向長短期記憶層に入力し、第１の状態特徴ベクトルを得る。また、第１の過去時刻の認識結果及びに対応する入力内容を用いて記憶（特徴）融合を行うことで、モデル予測能力の向上に有利である。

具体的な実施において、第１の過去時刻におけるホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスは次のように得られる。第１の過去時刻のデコーダの第１の状態特徴ベクトルを取得し、当該第１の状態特徴ベクトルに基づいて、第２の特徴ベクトルシーケンスに対してアテンション操作を行い、第１の過去時刻のホットワードテキスト文脈特徴ベクトルシーケンスを得て、第１の状態特徴ベクトルに基づいて、第３の特徴ベクトルシーケンスに対してアテンション操作を行い、第１の過去時刻のホットワードオーディオ文脈特徴ベクトルシーケンスを得て、第１の状態特徴ベクトルに基づいて、第４の特徴ベクトルシーケンスに対してアテンション操作を行い、第１の過去時刻のオーディオ文脈特徴ベクトルシーケンスを得る。例えば、仮に第１の過去時刻のデコーダの第１の状態特徴ベクトルをd_t-1 とすると、当該d_t-1 をクエリ項目として、第１の過去時刻で入力された第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス、第４の特徴ベクトルシーケンスに対してアテンション操作を行ってもよい。d_t-1は第２の過去時刻の認識結果及び第２の過去時刻におけるホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを第１の単方向長短期記憶層に入力して得られた第１の状態特徴ベクトルであってもよい。上記第２の過去時刻は、第１の過去時刻の前の少なくとも１つの時刻であってもよい。つまり、第２の過去時刻は、第１の過去時刻の前の１つの時刻であってもよいし、又は、第１の過去時刻の前の複数の時刻であってもよい。

又は、別の実施形態において、現在時刻の前の全部又は一部の認識結果及び当該第１の過去時刻で前記デコーダに入力された前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、第１の状態特徴ベクトルを得る。よって、現在時刻で前記デコーダに入力された前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得る。

さらに、想定例では、前記デコーダは、第２の単方向長短期記憶層を含み、上記ステップＡ５２：前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることは、現在時刻で前記デコーダに入力された第１の状態特徴ベクトルを用いて、それぞれ前記現在時刻における第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して前記第２のアテンション操作を行うことによって得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベク
トルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることを含んでもよい。

具体的な実施において、現在時刻が現在の復号化時刻であると理解してもよい、例えば、第１の過去時刻は現在時刻の前の１つの時刻であり、t番目のワードを復号化する場合
、現在時刻の前の１つの時刻、つまり第t-1個のワードを復号化する時の時刻は第１の過
去時刻である。デコーダは、２層の単方向長短期記憶層を含んでもよい、t番目の文字（
時刻）を例として、t番目の文字を復号化する時に、第１の長短期記憶層は、t-1時刻の認識結果文字y_t-1及びワード階層アテンションモジュールから出力するベクトルc_t-1（t-1
個の文字時点でデコーダに入力されたホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンス）を入力として、計算してデコーダの第１の状態特徴ベクトルd_tを得る。d_tをワード階層アテンションモジュールに入力して、t時刻目のワード階層アテンションモジ
ュールの出力c_tを計算する。c_tは、t時刻目におけるホットワードテキスト文脈特徴ベク
トルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスであり、そして、c_tは、第２の長短期記憶層の入力として、
計算してデコーダの出力h_t ^dを取得し、最後に、出力する文字の事後確率の計算を行い、
認識結果を得る。

上述した本出願の実施例によれば、第一、ホットワードテキスト情報を入力とするのに加えて、ホットワード音声セグメントを追加の入力インセンティブ源として追加し、ホットワードテキストを音声セグメントの入力に合わせることはホットワード入力情報の豊富さを効果的に増やし、いきおいホットワードインセンティブの効果を大いに高めることができる。第二、２層のインセンティブ、すなわち二回アテンション操作を導入することは、いきおいホットワードインセンティブの効果を高めことができ、２つの入力及び２階層のホットワードインセンティブ解決案が補完し合い、共同でホットワード認識効果を高めるため、ホットワードの認識精度に有利である。

想定例では、上記ステップ１０５で前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることは、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得るように実施することができる。

具体的な実施において、電子機器は、直接的に第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、認識結果を得る。ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。

さらに、想定例では、前記デコーダは、２層の単方向長短期記憶層を含み、前記２層の単方向長短期記憶層は、第１の単方向長短期記憶層及び第２の単方向長短期記憶層を含み、上記ステップで前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、前記認識結果を得ることは、Ｂ５１：第１の過去時刻の認識結果及び当該第１の過去時刻における前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベ
クトルシーケンス及び前記第４の特徴ベクトルシーケンスを取得することと、
Ｂ５２：前記第１の過去時刻の認識結果及び前記第１の過去時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、第２の状態特徴ベクトルを得ることと、
Ｂ５３：現在時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第２の状態特徴ベクトルを用いて、前記現在時刻における前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して前記第１のアテンション操作を行うことによって得られる前記第４の特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることと含んでもよい。

そのうち、デコーダは、複数のニューラルネットワーク層を含んでもよい。例えば、デコーダは、２層の単方向長短期記憶層を含んでもよい、当該２層の単方向長短期記憶層は、第１の単方向長短期記憶層及び第２の単方向長短期記憶層を含む。

具体的な実施において、電子機器は、第１の過去時刻の認識結果及び第１の過去時刻でデコーダに入力された第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスを取得し、それを第１の単方向長短期記憶層に入力し、第２の状態特徴ベクトルを得て、現在時刻でデコーダに入力された第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスを第２の単方向長短期記憶層に入力し、現在時刻の認識結果を得る。そのうち、第４の特徴ベクトルシーケンスは、第２の状態特徴ベクトルを用いて現在時刻における第１の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスの少なくとも１つの特徴ベクトルシーケンスに対して第１のアテンション操作を行うことによって得られる。例えば、第２の状態特徴ベクトルを用いて現在時刻における第１の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスに対してそれぞれに第１のアテンション操作を行ってもよい。さらに、デコーダの第２の単方向長短期記憶層からの出力内容を得るだけでなく、出力する内容の事後確率を計算し、最終的な復号化結果、すなわち現在時刻の認識結果を得る。

上記によれば、本出願の実施例に記載された音声認識方法は、認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得て、第１の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得て、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得て、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。

図１Ｂに示す実施例と同様、図２に示すように、図２は本出願の実施例に係る音声認識方法を示すフローチャートである。図２に示す音声認識方法は、図１Ａに示す音声認識モデルに適用され、当該音声認識モデルは、電子機器に適用され、本音声認識方法は、
２０１：認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得ることと、
２０２：予め設定されたホットワードシソーラスにおける各ホットワードに対して符号
化を行い、第２の特徴ベクトルシーケンスを得ることと、
２０３：前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得ることと、
２０４：前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得ることと、
２０５：前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
２０６：前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、認識結果を得ることとを含む。
そのうち、上記ステップ２０１からステップ２０６までの具体的な説明は、上記図１Ｂに示す音声認識方法のステップを参照できるので、ここでは省略する。

上記によれば、本出願の実施例に記載されている音声認識方法は、第一、ホットワードテキスト情報を入力とするのに加えて、ホットワード音声セグメントを追加の入力インセンティブ源として追加し、ホットワードテキストを音声セグメントに合わせる入力はホットワード入力情報の豊富さを効果的に増やし、いきおいホットワードインセンティブの効果を大いに高めることができる。第二、２層のインセンティブ、すなわち二回アテンション操作を導入することは、いきおいホットワードインセンティブの効果を高めことができ、２つの入力及び２階層のホットワードインセンティブ解決案が補完し合い、共同でホットワード認識効果を高めるため、ホットワードの認識精度に有利である。

上記の実施例と同様、図３に示すように、図３は、本出願の実施例に係る電子機器の構造を示す図である。当該電子機器は、プロセッサ、メモリ、通信ポート及び１つ又は複数のプログラムを含み、そのうち、上記１つ又は複数のプログラムは、上記メモリに格納され、上記プロセッサによって実行されるように構成され、本出願の実施例において、上記プログラムは、
認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得ることと、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得ることと、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得ることと、
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得ることと、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることとを実行するための命令を含む。

上記によれば、本出願の実施例に記載された電子装置は、認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得て、第１の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得て、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得て、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメ
ントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。

想定例では、前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得る態様において、上記プログラムは、
前記第１の特徴ベクトルシーケンスにおける各第１の特徴ベクトル及び前記第３の特徴ベクトルシーケンスにおける各第３の特徴ベクトルに対してマッチング演算を行い、各第３の特徴ベクトルに対応するマッチング係数を得ることと、
前記各第３の特徴ベクトルに対応するマッチング係数及び対応する第３の特徴ベクトルに対して演算を行い、前記各第３の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
前記各第３の特徴ベクトルに対応する新しい特徴ベクトル及び対応する前記第１の特徴ベクトルを結合し、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを前記第４の特徴ベクトルシーケンスとすることとを実行するための命令を含む。

想定例では、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、上記プログラムは、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることとを実行するための命令を含む。

想定例では、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る態様において、上記プログラムは、
現在時刻における前記デコーダの第１の状態特徴ベクトルを得ることと、
前記第１の状態特徴ベクトルに基づいて、前記第２の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
前記第１の状態特徴ベクトルに基づいて、前記第３の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第１の状態特徴ベクトルに基づいて前記第４の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記オーディオ文脈特徴ベクトルシーケンスを得ることとを実行するための命令を含む。

想定例では、前記デコーダは、第１の単方向長短期記憶層を含み、第１の過去時刻における前記デコーダの第１の状態特徴ベクトルを取得する態様において、上記プログラムは、
文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケン
ス及び前記オーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第１の過去時刻の認識結果及び前記第１の過去時刻における前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、前記第１の状態特徴ベクトルを得ることとを実行するための命令を含む。

想定例では、前記デコーダは、第２の単方向長短期記憶層を含み、前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、認識結果を得る態様において、上記プログラムは、
現在時刻で前記デコーダに入力された、第１の状態特徴ベクトルを用いて、前記現在時刻における第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対してそれぞれに前記第２のアテンション操作を行うことによって得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることを実行するための命令を含む。

想定例では、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、上記プログラムは、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得ることを実行するための命令を含む。

想定例では、前記デコーダは、２層の単方向長短期記憶層を含み、前記２層の単方向長短期記憶層は、第１の単方向長短期記憶層及び第２の単方向長短期記憶層を含み、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、前記認識結果を得る態様において、上記プログラムは、
第１の過去時刻の認識結果及び当該第１の過去時刻における前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを取得することと、
前記第１の過去時刻の認識結果及び前記第１の過去時刻における前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力して、第２の状態特徴ベクトルを得ることと、
現在時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第２の状態特徴ベクトルを用いて、前記現在時刻における前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して前記第１のアテンション操作を行うことによって得られる前記第４の特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることとを実行するための命令を含む。

想定例では、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得ることは、
１層又は複数層の単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層である長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を含む符号化層を用いて、前記予め設定されたホットワードシソー
ラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、前記第３の特徴ベクトルシーケンスを得ることを含む。

以上は、方法の実施から本出願の実施例の解決案を説明している。電子機器が上記機能を実現するよう、各機能を実行するために必要なハードウェア構造及び/又はソフトウェ
アモジュールを含むことが理解される。本明細書に係る実施例に記載されている各例のユニット及びアルゴリズムステップを参考すれば、ハードウェア又はハードウェアとコンピュータソフトウェアとの組み合わせで本出願を実施することを当業者は容易に想到できる。ある機能がハードウェア又はコンピュータソフトウェアでハードウェアを駆動することによって実行されるのは、技術的解決案の特定用途と設計制約条件によって異なる。専門技術者は、特定の用途ごとに異なる方法を使用して、記載された機能を実現することができるが、そのような実施は、本出願の範囲を超えるものとみなされるべきではない。

本出願の実施例は、上記方法の例のように電子機器の機能ユニットを区分してもよい。例えば、機能ごとに各機能ユニットを区分してもよいし、２つ以上の機能を処理ユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態でもよいし、ソフトウェア機能ユニットの形態でもよい。説明すべき点については、本出願の実施例におけるユニットの区分は、概略的なものであり、論理機能の区分にすぎず、実際に実施される場合には、別の区分方法があってもよい。

図４Ａは、本出願の実施例に係る音声認識装置４００の機能ユニット構成を示すブロック図である。当該音声認識装置４００は、電子機器に適用され、前記音声認識装置４００は、
認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得るオーディオエンコーダモジュール４０１と、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得るホットワードテキストエンコーダモジュール４０２と、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得るホットワードオーディオエンコーダモジュール４０３と、
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得るフレーム階層アテンションモジュール４０４と、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得るデコーダモジュール４０５とを含む。

上記によれば、本出願の実施例に記載されている音声認識装置は、認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得て、第１の特徴ベクトルシーケンス及び第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得て、第２の特徴ベクトルシーケンス、第３の特徴ベクトルシーケンス及び第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得て、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い
、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。

想定例では、前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得る態様において、前記フレーム階層アテンションモジュール４０４は、具体的に、
前記第１の特徴ベクトルシーケンスにおける各第１の特徴ベクトル及び前記第３の特徴ベクトルシーケンスにおける各第３の特徴ベクトルに対してマッチング演算を行い、各第３の特徴ベクトルに対応するマッチング係数を得ることと、
前記各第３の特徴ベクトルに対応するマッチング係数及び対応する第３の特徴ベクトルに対して演算を行い、前記各第３の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
前記各第３の特徴ベクトルに対応する新しい特徴ベクトル及び対応する前記第１の特徴ベクトルを結合し、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを前記第４の特徴ベクトルシーケンスとすることに用いられる。

想定例では、図４Ｂに示すように、図４Ｂは図４Ａに示す音声認識装置のまた一つの変形構造であり、図４Ａに比べると、そのデコーダモジュール４０５は、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得るワード階層アテンションモジュール４０５１と、
前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得るデコーダ４０５２とを含んでもよい。

想定例では、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る態様において、前記ワード階層アテンションモジュール４０５１は、具体的に、
現在時刻における前記デコーダの第１の状態特徴ベクトルを得ることと、
前記第１の状態特徴ベクトルに基づいて、前記第２の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
前記第１の状態特徴ベクトルに基づいて、前記第３の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第１の状態特徴ベクトルに基づいて前記第４の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記オーディオ文脈特徴ベクトルシーケンスを得ることに用いられる。

想定例では、前記デコーダは、第１の単方向長短期記憶層を含み、第１の過去時刻における前記デコーダの第１の状態特徴ベクトルを取得する態様において、前記ワード階層アテンションモジュール４０５１は、具体的に、
第１の過去時刻の認識結果及び当該第１の過去時刻における前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第１の過去時刻の認識結果及び前記第１の過去時刻における前記ホットワードテキ
スト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、前記第１の状態特徴ベクトルを得ることに用いられる。

想定例では、前記デコーダは、第２の単方向長短期記憶層を含み、前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、認識結果を得る態様において、前記デコーダ４０５２は、具体的に、
現在時刻で前記デコーダに入力された、第１の状態特徴ベクトルを用いて、前記現在時刻における第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対してそれぞれに前記第２のアテンション操作を行うことによって得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力して、前記現在時刻の認識結果を得ることに用いられる。

想定例では、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、前記デコーダモジュール４０５は、具体的に、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得ることに用いられる。

想定例では、前記デコーダは、２層の単方向長短期記憶層を含み、前記２層の単方向長短期記憶層は、第１の単方向長短期記憶層及び第２の単方向長短期記憶層を含み、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、前記認識結果を得る態様において、前記デコーダモジュール４０５は、具体的に、
第１の過去時刻の認識結果及び当該第１の過去時刻における前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを取得することと、
前記第１の過去時刻の認識結果及び前記第１の過去時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、第２の状態特徴ベクトルを得ることと、
現在時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第２の状態特徴ベクトルを用いて、前記現在時刻における前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して前記第１のアテンション操作を行うことによって得られる前記第４の特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることに用いられる。

想定例では、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得る態様において、前記ホットワードオーディオエンコーダモジュール４０３は、具体的に、
１層又は複数層の、単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層である長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を含む符号化層を用いて、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、前記第３の特徴ベクトルシーケンスを得ることに用いられる。

なお、本実施例の音声認識装置の各プログラムモジュールの機能は、上述した方法実施例に係る方法によって具現化することが理解される。その具体的な実施手順は、上述した方法実施例の説明を参照できるので、ここでは省略する。

本出願の実施例は、さらにコンピュータ記憶媒体を提供し、このうち、当該コンピュータ記憶媒体には電子データ交換のためのコンピュータプログラムが格納され、当該コンピュータプログラムは、コンピュータに、上記方法の実施例に記載される任意の方法の一部又は全部のステップを実行させ、上記のコンピュータは電子機器を含む。

本出願の実施例はさらにコンピュータプログラム製品を提供し、上記のコンピュータプログラム製品は、コンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含み、上記のコンピュータプログラムは、コンピュータに、上記方法の実施例に記載される任意の方法の一部又は全部のステップを実行させるように動作する。当該コンピュータプログラム製品はソフトウェアインストールパッケージであってもよい。上記のコンピュータは電子機器を含む。

説明すべき点については、前述した各方法の実施例については、説明を簡単にするために、一連の動作の組み合わせとして説明されているが、当業者には、本出願によれば、いくつかのステップが他の順序又は同時に実行されてもよいので、本出願は、説明される動作の順序によって限定されないことが認識されるべきである。また、明細書に記載される実施例は、すべて好ましい実施例であり、関連する動作及びモジュールは必ずしも本出願に必須なものではないことも当業者には認識されるべきである。

上記の実施例では、各実施例の説明に異なる重点が置かれており、実施例では詳細に説明されていない部分については、他の実施例の説明を参照できる。

本出願に係るいくつかの実施例では、開示される装置は他の形態により実施されてもよいことが理解されるべきである。例えば、上述した装置の実施例は単に例示的であり、上記ユニットの区分のように、論理機能の区分にすぎず、実際に実施される場合には、複数のユニット又はコンポーネントが組み合わせるか、他のシステムに統合されてもよく、又はいくつかの特徴が無視されてもよく、又は実行されなくてもよいなど、追加の区分方法が存在してもよい。また、表示又は検討されている相互の結合又は直接結合又は通信接続は、いくつかのインターフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよいし、電気的又は他の形態であってもよい。

分離された構成要素として説明された上述ユニットは、物理的に分離されていてもよいし、分離されていなくてもよい。ユニットとして表示される構成要素は、物理的な構成要素であってもよいし、物理的な構成要素でなくてもよい。つまり、１つの場所に配置されていてもよいし、複数のネットワーク構成要素に分散されていてもよい。これらのユニットの一部又は全部は、実際の必要に応じて、本実施例の解決策の目的を達成するために選択されてもよい。

また、本出願の各実施例における各機能ユニットは、１つの処理ユニットに統合されていてもよいし、各ユニットが物理的に個別に存在していてもよいし、さらに２つ以上のユニットが１つのユニットに統合されていてもよい。上記の統合されたユニットは、ハードウェアの形態でもよいし、ソフトウェア機能ユニットの形態でもよい。

上記の統合ユニットは、ソフトウェア機能ユニットの形態で実現され、独立した製品として販売又は使用される場合には、コンピュータ読取可能なメモリに格納されてもよい。
このような理解に基づいて、本出願の技術案が本質的に又は従来技術に貢献する部分、又は当該技術案の全部若しくは一部がソフトウェア製品の形で具現化されることができる。当該コンピュータソフトウェア製品はメモリに記憶され、１台のコンピュータ装置（パーソナルコンピュータ、サーバー又はネットワーク装置など）に、本出願の各実施例における上記方法の全部又は一部のステップを実行させるよう、いくつかの命令を含む。上述したメモリは、USBメモリ、読み取り専用メモリ（ROM、Read-Only Memory）、ランダムアクセスメモリ（RAM、Random Access Memory）、リムーバブルハードディスク、磁気ディス
ク又は光ディスクなど、プログラムコードを記憶するさまざまな媒体を含む。

当業者であれば、上記の実施例の各方法の全部又は一部のステップが、関連するハードウェアにプログラムが指示することによって達成され得ることが理解される。当該プログラムは、コンピュータの読取可能なメモリに記憶することができる。メモリには、フラッシュドライブ、読み取り専用メモリ（英語：Read-Only Memory、以下「ROM」という）、
ランダムアクセスメモリ（英語：Random Access Memory、以下「RAM」という）、磁気デ
ィスク又は光ディスクなどを含むことができる。

以上、本出願の実施例について詳細に説明しているが、本明細書では、具体的な例を用いて本出願の原理及び実施形態について説明している。上記実施例の説明は、本出願の方法及びその核心的な考えの理解のみを助けるために用いられる。また、当業者にとっては、本出願の考えにより、具体的な実施形態及び応用範囲においていずれも変更点があり、上述したように、本明細書の内容は本出願に対する制限と理解すべきではない。

Claims

音声認識方法であって、
認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得ることと、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得ることと、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得ることと、
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得ることと、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることと、
を含むことを特徴とする方法。
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得ることは、
前記第１の特徴ベクトルシーケンスにおける各第１の特徴ベクトル及び前記第３の特徴ベクトルシーケンスにおける各第３の特徴ベクトルに対してマッチング演算を行い、各第３の特徴ベクトルに対応するマッチング係数を得ることと、
前記各第３の特徴ベクトルに対応するマッチング係数及び対応する第３の特徴ベクトルに対して演算を行い、前記各第３の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
前記各第３の特徴ベクトルに対応する新しい特徴ベクトル及び対応する前記第１の特徴ベクトルを結合し、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを前記第４の特徴ベクトルシーケンスとすることと、
を含むことを特徴とする請求項１に記載の方法。
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることは、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることと、
を含むことを特徴とする請求項１又は２に記載の方法。
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることは、
現在時刻における前記デコーダの第１の状態特徴ベクトルを取得することと、
前記第１の状態特徴ベクトルに基づいて、前記第２の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
前記第１の状態特徴ベクトルに基づいて、前記第３の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードオーディオ文脈特徴ベクトル
シーケンスを得ることと、
前記第１の状態特徴ベクトルに基づいて、前記第４の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記オーディオ文脈特徴ベクトルシーケンスを得ることと、
を含むことを特徴とする請求項３に記載の方法。
前記デコーダは第１の単方向長短期記憶層を含み、前記デコーダの第１の過去時刻における第１の状態特徴ベクトルを取得することは、
第１の過去時刻の認識結果及び当該第１の過去時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを取得することと、
前記第１の過去時刻の認識結果及び前記第１の過去時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、前記第１の状態特徴ベクトルを得ることと、
を含むことを特徴とする請求項４に記載の方法。
前記デコーダは第２の単方向長短期記憶層を含み、前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを、デコーダに入力し、復号化操作を行い、認識結果を得ることは、
現在時刻で前記デコーダに入力された、前記第１の状態特徴ベクトルを用いて前記現在時刻における第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対してそれぞれに前記第２のアテンション操作を行うことにより得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることを含む、
ことを特徴とする請求項３に記載の方法。
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることは、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得ることを含む、
ことを特徴とする請求項１に記載の方法。
前記デコーダは第１の単方向長短期記憶層と第２の単方向長短期記憶層と、すなわち２つの単方向長短期記憶層を含み、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを、デコーダに入力し、復号化操作を行い、前記認識結果を得ることは、
第１の過去時刻の認識結果及び当該第１の過去時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを取得することと、
前記第１の過去時刻の認識結果及び前記第１の過去時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、第２の状態特徴ベクトルを得ることと、
現在時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第２の状態特徴ベクトルを用いて前記現在時刻における
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して前記第１のアテンション操作を行うことにより得られる前記第４の特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることとを含む、ことを特徴とする請求項７に記載の方法。
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得ることは、
単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層である長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を含む１層又は複数層の符号化層を用いて、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、前記第３の特徴ベクトルシーケンスを得ることを含む、
ことを特徴とする請求項１から８のいずれか１項に記載の方法。
音声認識装置であって、
認識対象音声データに対して符号化を行い、第１の特徴ベクトルシーケンスを得るオーディオエンコーダモジュールと、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第２の特徴ベクトルシーケンスを得るホットワードテキストエンコーダモジュールと、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得るホットワードオーディオエンコーダモジュールと、
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得るフレーム階層アテンションモジュールと、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して復号化操作を行い、認識結果を得るデコーダモジュールとを含む、
ことを特徴とする音声認識装置。
前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して第１のアテンション操作を行い、第４の特徴ベクトルシーケンスを得る態様において、前記フレーム階層アテンションモジュールは、具体的に、
前記第１の特徴ベクトルシーケンスにおける各第１の特徴ベクトル及び前記第３の特徴ベクトルシーケンスにおける各第３の特徴ベクトルに対してマッチング演算を行い、各第３の特徴ベクトルに対応するマッチング係数を得ることと、
前記各第３の特徴ベクトルに対応するマッチング係数及び対応する第３の特徴ベクトルに対して演算を行い、前記各第３の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
前記各第３の特徴ベクトルに対応する新しい特徴ベクトル及び対応する前記第１の特徴ベクトルを結合し、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第３の特徴ベクトルに対応する特徴表現ベクトルを前記第４の特徴ベクトルシーケンスとすることに用いられる、
ことを特徴とする請求項１０に記載の装置。
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、前記エンコーダモジュールは、具体的に、
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキス
ト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることに用いられる、
ことを特徴とする請求項１０又は１１に記載の装置。
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対して第２のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る態様において、前記エンコーダモジュールは、具体的に、
現在時刻における前記デコーダの第１の状態特徴ベクトルを取得することと、
前記第１の状態特徴ベクトルに基づいて、前記第２の特徴ベクトルシーケンスに対してアテンション操作を行い、前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
前記第１の状態特徴ベクトルに基づいて、前記第３の特徴ベクトルシーケンスに対してアテンション操作を行い、前記ホットワードオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第１の状態特徴ベクトルに基づいて、前記第４の特徴ベクトルシーケンスに対してアテンション操作を行い、前記オーディオ文脈特徴ベクトルシーケンスを得ることに用いられる、
ことを特徴とする請求項１２に記載の装置。
前記デコーダは第１の単方向長短期記憶層を含み、前記デコーダの第１の過去時刻における第１の状態特徴ベクトルを取得する態様において、前記エンコーダモジュールは、具体的に、
第１の過去時刻の認識結果及び当該第１の過去時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを取得することと、
前記第１の過去時刻の認識結果及び前記第１の過去時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、前記第１の状態特徴ベクトルを得ることに用いられる、
ことを特徴とする請求項１３に記載の装置。
前記デコーダは第２の単方向長短期記憶層を含み、前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを、デコーダに入力し、復号化操作を行い、認識結果を得る態様において、前記エンコーダモジュールは、具体的に、
現在時刻で前記デコーダに入力された、前記第１の状態特徴ベクトルを用いて前記現在時刻における第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスに対してそれぞれに前記第２のアテンション操作を行うことにより得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることに用いられる、
ことを特徴とする請求項１０に記載の装置。
前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４
の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、前記エンコーダモジュールは、具体的に、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得ることに用いられる、
ことを特徴とする請求項１０に記載の装置。
前記デコーダは第１の単方向長短期記憶層と第２の単方向長短期記憶層と、すなわち２つの単方向長短期記憶層を含み、前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを、デコーダに入力し、復号化操作を行い、前記認識結果を得る態様において、前記エンコーダモジュールは、具体的に、
第１の過去時刻の認識結果及び当該第１の過去時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを取得することと、
前記第１の過去時刻の認識結果及び前記第１の過去時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第４の特徴ベクトルシーケンスを前記第１の単方向長短期記憶層に入力し、第２の状態特徴ベクトルを得ることと、
現在時刻で前記デコーダに入力された前記第２の特徴ベクトルシーケンス、前記第３の特徴ベクトルシーケンス及び前記第２の状態特徴ベクトルを用いて前記現在時刻における前記第１の特徴ベクトルシーケンス及び前記第３の特徴ベクトルシーケンスに対して前記第１のアテンション操作を行うことにより得られる前記第４の特徴ベクトルシーケンスを前記第２の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることに用いられる、
ことを特徴とする請求項１６に記載の装置。
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第３の特徴ベクトルシーケンスを得る態様において、前記ホットワードオーディオエンコーダモジュールは、具体的に、
単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層である長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を含む１層又は複数層の符号化層を用いて、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、前記第３の特徴ベクトルシーケンスを得ることに用いられる、
ことを特徴とする請求項１０から１７のいずれか１項に記載の装置。
電子機器であって、
プロセッサと、メモリと、通信ポートと、前記メモリに格納され、請求項１から９のいずれか１項に記載の方法の各ステップの命令を前記プロセッサによって実行されるように構成されている１つ又は複数のプログラムとを含む、
ことを特徴とする電子機器。
コンピュータ読取可能な記憶媒体であって、
請求項１から９のいずれか１項に記載の方法をコンピュータに実行させる電子データ交換用コンピュータプログラムを格納する、
ことを特徴とするコンピュータ読取可能な記憶媒体。
コンピュータプログラム製品であって、
請求項１から９のいずれか１項に記載の方法をコンピュータに実行させるように動作するコンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含む
、
ことを特徴とするコンピュータプログラム製品。