JP2024502048A - 音声認識方法、装置及び記憶媒体 - Google Patents

音声認識方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP2024502048A
JP2024502048A JP2023540012A JP2023540012A JP2024502048A JP 2024502048 A JP2024502048 A JP 2024502048A JP 2023540012 A JP2023540012 A JP 2023540012A JP 2023540012 A JP2023540012 A JP 2023540012A JP 2024502048 A JP2024502048 A JP 2024502048A
Authority
JP
Japan
Prior art keywords
feature vector
vector sequence
hotword
sequence
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023540012A
Other languages
English (en)
Inventor
ファン,シン
ウー,ミンフイ
マー,チーチャン
リュウ,ジュンファ
Original Assignee
アイフライテック カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイフライテック カンパニー,リミテッド filed Critical アイフライテック カンパニー,リミテッド
Publication of JP2024502048A publication Critical patent/JP2024502048A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音声認識方法、装置、電子機器、記憶媒体及びプログラム製品であって、音声認識方法は、認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンス(101)を得ることと、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンス(102)を得ることと、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンス(103)を得ることと、第1の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンス(104)を得ることと、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果(105)を得ることとを含む。当該方法はホットワード認識精度を高める。

Description

本出願は、2020年12月31日に提出した出願番号202011641751.3、発明名称「音声認識方法、装置及び記憶媒体」である先の出願の優先権を主張し、そのすべての内容はここで参照として本出願に引用される。
本出願は、音声認識技術分野に関し、具体的に音声認識方法、装置及び記憶媒体に関する。
音声認識分野では、エンドツーエンドモデルから出力された低頻度語の得点が低いため、従来のホットワード得点インセンティブ方法の効果向上が限られている。Googleが提案したCLAS(Contextual Listen, Attend and Spell、CLAS)はモデルレベルでホットワー
ドのインセンティブを行い、良い効果が上げられたが、やり方があまりにも単純で、ホットワードを含まない文をホットワードと誤認識することがよく発生し、全体の認識率が低下し、実際のシステムで直接的に使用することが難しいため、ホットワードの認識精度をいかに向上させるかという問題が急務となっている。
本出願の実施例は、ホットワードの認識精度を高める音声認識方法、装置及び記憶媒体を提供する。
第一態様において、本出願の実施例は音声認識方法を提供し、前記方法は、
認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得ることと、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得ることと、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得ることと、
前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得ることと、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることとを含む。
第二態様において、本出願の実施例は音声認識装置を提供し、前記音声認識装置は、
認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得るオーディオエンコーダモジュールと、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得るホットワードテキストエンコーダモジュールと、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得るホットワードオーディオエンコーダモジュールと、
前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得るフレーム階層アテンションモジュールと、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4
の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得るデコーダモジュールとを含む。
第三態様において、本出願の実施例は、プロセッサ、メモリ、通信ポート及び上記メモリに格納され、本出願の実施例の第一態様におけるいずれか方法のステップの命令を上記プロセッサによって実行されるように構成されている1つ又は複数のプログラムを含む電子機器を提供する。
第四態様において、本出願の実施例は、本出願の実施例の第一態様に記載された一部又は全部のステップをコンピュータに実行させる、電子データ交換用コンピュータプログラムを格納するコンピュータ読取可能な記憶媒体を提供する。
第五態様において、本出願の実施例は、本出願の実施例の第一態様に記載されたステップの一部又は全部をコンピュータに実行させるように動作するコンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含むコンピュータプログラム製品をさらに提供する、
当該コンピュータプログラム製品はソフトウェアインストールパッケージであってもよい。
本出願の実施例を実施すると以下の有益な効果がある。
上記によれば、本出願の実施例に記載された音声認識方法、装置及び関連製品は、認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得て、第1の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得て、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得て、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。
本出願の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下説明される図面は、本出願の実施例の一部に過ぎず、当業者であれば、創造的な労力を払うことなくこれらの図面に従って他の図面を得ることができる。
図1Aは本出願の実施例に係る音声認識モデルの構造を示す図である。 図1Bは本出願の実施例に係る音声認識方法を示すフローチャートである。 図1Cは本出願の実施例に係るホットワード符号化を例示する図である。 図1Dは本出願の実施例に係る特徴結合を例示する図である。 図2は本出願の実施例に係る別の音声認識方法を示すフローチャートである。 図3は本出願の実施例に係る電子機器の構造を示す図である。 図4Aは本出願の実施例に係る音声認識装置の機能ユニット構成を示すブロック図である。 図4Bは本出願の実施例に係る別の音声認識装置の機能ユニット構成を示すブロック図である。
当業者が本出願の解決案をよりよく理解できるよう、以下、本出願の実施形態の図面を併せて、本出願の実施例の技術案を明確かつ詳細に説明する。記載された実施例は本出願の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本出願の実施例に基づき、当業者は、創造的な労力なしに得られたすべての他の実施例は本出願の保護範囲内にある。
本出願の明細書、特許請求の範囲及び上記図面における「第1」、「第2」などの用語は、異なる対象を区別するためのものであり、特定の順序を説明するためのものではない。また、用語の「含む」及び「有する」及びそれらの任意の変形は、排他的でないものをカバーすることを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、リストされているステップ又はユニットに限定されず、想定例には、リストされていないステップ又はユニットがさらに含まれ、又は別の想定例には、これらのプロセス、方法、製品又は装置に固有の他のステップ又はユニットがさらに含まれる。
本明細書における「実施例」は、実施例を参照して説明される特定の特徴、構造又は特性が本出願の少なくとも1つの実施例に含まれることができることを意味する。本明細書の任意の部分に当該フレーズが現れることは、必ずしもすべてが同じ実施例を指すわけではなく、また、他の実施例と相互に排他的である独立した又は代替的な実施例を指すわけでもない。本明細書に記載されている実施例が他の実施例と組み合わせてもよいことは、当業者にとっては明示的にも暗黙的にも理解されるべきである。
本出願の実施例に係る電子機器は、音声認識機能を備えたさまざまなハンドヘルドデバイス、ボイスレコーダー、スマートロボット、スマートリーダー、スマート翻訳機、スマートヘッドホン、スマート辞書、スマート読書機、車載機器、ウェアラブルデバイス、コンピューティングデバイス又は無線モデムに接続された他の処理機器、およびさまざまな形態のユーザデバイス(User Equipment,UE)、モバイルステーション(Mobile Station,MS)、端末装置(terminal device)などを含め、また電子機器は、サーバ又はスマー
トホームデバイスであってもよい。
本出願の実施例において、スマートホーム機器は、冷蔵庫、洗濯機、炊飯器、スマートカーテン、スマートライト、スマートベッド、スマートゴミ箱、電子レンジ、オーブン、蒸し器、エアコン、レンジフード、サーバ、スマートドア、スマート窓、ワードローブ、スマートスピーカー、スマートホーム、スマート椅子、スマート物干し、スマートシャワー、ウォーターサーバ、浄水器、空気清浄機、チャイム、監視システム、スマートガレージ、テレビ、プロジェクタ、スマート食卓、スマートソファ、マッサージチェア、ランニングマシンなど、少なくとも1つであってもよい。
以下、本出願の実施例について詳細に説明する。
図1Aに示すように、図1Aは、本出願の実施例に係る音声認識モデルを示し、当該音声認識モデルは、オーディオエンコーダモジュール、ホットワードテキストエンコーダモジュール、ホットワードオーディオエンコーダモジュール、フレーム階層アテンションモジュール、ワード階層アテンションモジュール及びデコーダモジュールを含み、デコーダモジュールはデコーダを含んでも良い。当該音声認識モデルは、音声認識機能を実現する
のに用いられる。具体的には以下のとおりである。
まず、オーディオエンコーダモジュールを用いて、認識対象音声データの音声特徴ベクトルシーケンスX=[x1,x2,……,xK ]に対して符号化を行い、第1の特徴ベクトルシーケ
ンスHx=[h1 x,h2 x,……,hK x ]を得る。そのうち、xkは、kフレーム目の音声特徴ベクトル、hk xはオーディオエンコーダモジュールの最後1つのニューラルネットワーク層から出
力される特徴ベクトルを表し、hk xはxkがオーディオエンコーダモジュールで変換された
後の結果に対応する。また、電子機器は、ホットワードテキストエンコーダモジュールを用いて、予め設定されたホットワードシソーラスにおける各ホットワードを個別に符号化し、長さが異なるホットワードを固定次元のベクトルに符号化することを実現し、ホットワードを表す特徴ベクトルシーケンスのセット、すなわち、第2の特徴ベクトルシーケンスHz =[h0 z,h1 z,……,hN z]を得る。そのうち、hn zはn番目のホットワードがホットワー
ドエンコーダモジュールで符号化された後の特徴ベクトルである。予め設定されたホットワードシソーラスは、ユーザの需要に応じて事前に設定することができ、例えば、自分の身分又は職業に合わせて基本ホットワードシソーラスから適切なホットワードを予め設定されたホットワードシソーラスとして抽出する。基本ホットワードシソーラスは、身分又は職業に合わせて事前に作成されることができる。予め設定されたホットワードシソーラスは、ユーザの過去状況に応じて自動的に生成することができ、例えば、ユーザが使用するとき、使用中に出てきたホットワードを予め設定されたホットワードシソーラスに自動的に生成することができる。また、例として、音声アシストアプリケーションの場合は、ユーザの電話帳の名前をホットワードとして読み取り、これらのホットワードから予め設定されたホットワードシソーラスを生成する。また、例として、入力ツールなどを使用するとき、合法的に許可された後、ユーザがピンインで入力した地名や名前などのテキストをホットワードとして記憶し、そのホットワードを予め設定されたホットワードシソーラスに生成する。予め設定されたホットワードシソーラスはローカル又はクラウドに保存されることができる。
次に、ホットワードオーディオエンコーダモジュールを用いて上記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントを個別に符号化することができ、このホットワードオーディオエンコーダモジュールは前述したオーディオエンコーダモジュールと共有することができる。共有とは、両者が同一のエンコーダであることを意味する。そのため、長さが異なるホットワードオーディオセグメントを固定次元のベクトルに符号化することができ、すなわち、ホットワードオーディオセグメントの最後の1フレームのエンコーダ又はすべてのフレームの平均の出力でホットワードオーディオセグメント全体の特徴表現ベクトルを表すことで、ホットワードオーディオを示す第3の特徴ベクトルシーケンスHw=[h0 w,h1 w,……,hN w]を得る。そのうちhn wは、n番目のホットワードオーディオセグメントがホットワードエンコーダモジュールで符号化された後の特徴ベクトルである。その後、フレーム階層アテンションモジュールは各フレームのオーディオ符号化特徴表現(第1の特徴ベクトルシーケンス)及びホットワードオーディオ符号化特徴表現(第3の特徴ベクトルシーケンス)に対して、フレーム階層上でアテンション操作を行い、ホットワード情報を融合し、新しいオーディオ符号化特徴表現、すなわち第4の特徴ベクトルシーケンス(以下の数1)
Figure 2024502048000002

を形成し、よって2種類の復号化操作を行うことができ、具体的に以下のとおりである。
第一、ワード階層アテンションモジュールは、デコーダモジュールがt時刻目に出力し
た状態ベクトルdt、フレーム階層アテンションモジュールが出力した第4の特徴ベクトル
シーケンス(以下の数2)
Figure 2024502048000003

及びホットワードテキストエンコーダが出力した第2の特徴ベクトルシーケンスHz及びホットワードオーディオエンコーダモジュールが出力した第3の特徴ベクトルシーケンスHwを入力とし、アテンションメカニズムを用いて、t番目の文字を予測するためのオーディ
オ文脈特徴ベクトルCt x、ホットワードオーディオ文脈特徴ベクトルCt w及びホットワードテキスト文脈特徴ベクトルCt zを得て、デコーダモジュールに入力し、復号化を行う。
第二、デコーダモジュールは、フレーム階層アテンションモジュールが出力した第4の特徴ベクトルシーケンス(以下の数3)
Figure 2024502048000004

及びホットワードテキストエンコーダが出力した第2の特徴ベクトルシーケンスHz及びホットワードオーディオエンコーダが出力した第3の特徴ベクトルシーケンスHwをそのままにデコーダに入力し、復号化を行う。
具体的な実施において、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。
さらに、図1Bに示すように、図1Bは本出願の実施例に係る音声認識方法を示すフローチャートである。図1Bに示す音声認識方法は、図1Aに示す音声認識モデルに適用され、当該音声認識モデルは、電子機器に適用され、本音声認識方法は以下を含む。
101:認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得る。
そのうち、本出願の実施例において特に限定しないが、認識対象音声データは、予め格納又はリアルタイムに収集した音声データ又は音声特徴ベクトルシーケンスであってもよく、音声データは、録音データ、リアルタイムに録音した録音データ、ビデオデータから抽出した録音データ、合成した録音データなどの少なくとも1つであってもよい。音声特徴ベクトルシーケンスは、特に限定しないが、Filter Bank特徴、メル周波数ケプストラ
ム係数(Mel Frequency Cepstrum Coefficient、MFCC)特徴、知覚的線形予測(Perceptual Linear Predictive、PLP)係数特徴などの少なくとも1つであってもよい。例えば、
認識対象音声データが音声データであれば、電子機器が当該音声データの特徴抽出を行い、音声特徴ベクトルシーケンスを得た後、音声特徴ベクトルシーケンスを符号化し、第1の特徴ベクトルシーケンスを得る。また、認識対象音声データが音声特徴ベクトルシーケンスであれば、電子機器が当該音声特徴ベクトルシーケンスを直接的に符号化し、第1の特徴ベクトルシーケンスを得る。
具体的な実施において、図1Bに示すように、電子機器がオーディオエンコーダモジュールを用いて認識対象音声データを符号化し、第1の特徴ベクトルシーケンスを得る。当該オーディオエンコーダモジュールは、1層又は複数層の符号化層を含んでもよい、符号化層としては、長短期記憶ニューラルネットワーク(Long Short-Term Memory、LSTM)の
長短期記憶層又は畳み込みニューラルネットワークの畳み込み層であってもよい。当該長短期記憶ニューラルネットワークは、単方向又は双方向の長短期記憶ニューラルネットワークにおける長短期記憶層であってもよい。例を挙げると、本出願の実施例において、3層の単方向長短期記憶層を選択し、入力した音声特徴ベクトルシーケンスX=[x1,x2,……,xK]を符号化し、第1の特徴ベクトルシーケンスHx=[h1 x,h2 x,……,hK x]を出力してもよい。
102:予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得る。
そのうち、予め設定されたホットワードシソーラスは、予めに電子機器に保存されてもよい、予め設定されたホットワードシソーラスは複数のホットワードのテキスト情報を含んでもよい。電子機器は、ホットワードテキストエンコーダモジュールを用いて予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得る。又は、別の実施形態において、予め設定されたホットワードシソーラスは別のサーバに保存され、アクセスにより予め設定されたホットワードシソーラスを取得してもよい。
具体的な実施において、異なるホットワードに含まれる文字数が同じであってもよいし、同じでなくてもよい。文字数が同じではない場合、日本語のホットワードである「東京」は2文字であり、「神奈川」は3文字であることを例にすると、モデル処理のために、長く変化された入力を固定次元のベクトルで表してもよい。ホットワードテキストエンコーダモジュールの役割は、長さの異なるホットワードを固定次元のベクトルに符号化することであり、それは1層又は複数層の符号化層を含んでもよい、当該符号化層は、長短期記憶ニューラルネットワークにおける長短期記憶層又は畳み込みニューラルネットワークの畳み込み層であってもよいし、当該長短期記憶ニューラルネットワークは、単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層であってもよい。
具体的な実施において、双方向の長短期記憶層のホットワードに対する符号化効果は、単方向の長短期記憶層よりよい。1層の双方向長短期記憶層を選択し、ホットワードである「神奈川」を例にすると、当該ホットワードは「神」、「奈」、「川」との3文字で構成され、1層の双方向長短期記憶層のホットワードエンコーダで符号化されることは、図1Cに示すように、左側が双方向の長短期記憶層の順方向部分で、右側が逆方向部分であり、順方向及び逆方向の最後ステップで出力されたベクトルhf z及びhb zを結合して得られたベクトルhzをホットワードの符号化ベクトル表現とし、複数のホットワードの符号化ベクトル表現は第2の特徴ベクトルシーケンスを構成することができる。
仮に合計N+1個のホットワードZ=[z0,z1,……,zN]であれば、ホットワードエンコーダ
モジュールを用いて各ホットワードを個別に処理し、第2の特徴ベクトルシーケンスHz=[h0 z,h1 z,……,hN z]を得る。そのうち、hi zはi番目のホットワードziの符号化ベクトルである。特に説明すべきことは、z0が特別のホットワード「<no-bias>」であり、ホットワ
ードが存在しないことを意味する。その後の復号化中に選択されたホットワードが「<no-bias>」であれば、音声にホットワードが存在しない場合、又はこれから認識する音声セ
グメントがホットワードでない場合への処理のため、<no-bias>にインセンティブを与え
ることはしない。
103:前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得る。
そのうち、電子機器は、ホットワードオーディオエンコーダモジュールを用いて予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得る。第3の特徴ベクトルシーケンスは、ホットワードオーディオセグメントに含まれているオーディオ情報の特徴を表現する
ことができる。
具体的な実施において、ホットワードオーディオエンコーダモジュール及び上記オーディオエンコーダモジュールは共有してもよい、すなわち両者はアルゴリズムを共有してもよい。例えば、両者は同一のエンコーダである。ホットワードオーディオエンコーダモジュールは、1層又は複数層の符号化層を含んでもよい、当該符号化層は、長短期記憶ニューラルネットワークにおける長短期記憶層又は畳み込みニューラルネットワークにおける畳み込み層であってもよいし、当該長短期記憶ニューラルネットワークは、単方向又は双方向の長短期記憶ニューラルネットワークにおける長短期記憶層であってもよい。又は、他の実施形態において、ホットワードオーディオエンコーダモジュール及び上記オーディオエンコーダモジュールは独立した2つのエンコーダであってもよいので、本出願では特に限定しない。
そのうち、ホットワードのオーディオセグメントは、オーディオからの抽出、手動収集、音声合成システムによる合成などによって得られるので、ここでは特に限定しない。最後に、ホットワードのオーディオセグメントが得られる。例えば、当該ホットワードのオーディオセグメントは予め保存されたものであってもよいし、ホットワードから合成されたオーディオセグメントであってもよい。例を挙げて簡単に説明すれば、本出願の実施例において、3層の単方向長短期記憶層を選択し、入力されたホットワードオーディオセグメント特徴ベクトルシーケンスX=[x1,x2,……,xK]を符号化し、最後の1フレームの出力を当該ホットワードのオーディオセグメントの特徴表現ベクトルとする。符号化方式はLSTM(再帰的ニューラルネットワーク)であるため、最後の1フレームがオーディオシーケンス全体の情報を表せる。当然、他の実施形態において、最後の1フレームでなく、例えばすべてのフレームの平均値を取っても良い。仮に合計N+1個のホットワードZ=[z0,z1,
……,zN]であれば、ホットワードオーディオエンコーダモジュールを用いて各ホットワードオーディオを個別に符号化し、ホットワードオーディオベクトルシーケンスのセット、すなわち第3の特徴ベクトルシーケンスHw =[h0 w,h1 w,……,hN w]を得る。そのうち、hi wはi番目のホットワードziのオーディオ符号化ベクトルである。特に説明すべきなのは、z0が特別のホットワード「<no-bias>」であり、ホットワードが存在しないことを意味する。具体的な実施において、すべてのホットワードベクトルの平均値に取り替えられ、このすべてのホットワードベクトルは第2の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスのうち、少なくとも1つの特徴ベクトルシーケンスのすべてのベクトルであってもよい。その後の復号化中に選択されたホットワードが「<no-bias>」であれば、音声
にホットワードが存在しない場合、又はこれから認識する音声セグメントがホットワードでない場合への処理のため、<no-bias>にインセンティブを与えることはしない。
104:前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得る。
具体的な実施において、電子機器は、フレーム階層アテンションモジュールを用いて第1の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、両者の特徴を融合し、第4の特徴ベクトルシーケンスを得る。このように、ホットワードインセンティブ効果を明らかに向上させる。
そのうち、フレーム階層アテンションモジュールの役割は、各フレームオーディオエンコーダモジュールの出力に予め設定されたホットワードシソーラスのホットワードテキスト情報を融合した後、ホットワード情報の特徴表現を有する第4の特徴ベクトルシーケンスを形成し、各フレームの認識対象音声データのオーディオ特徴表現(第1の特徴ベクトルシーケンス)にホットワードロバスト性が高くなることである。具体的には、第1のアテンション操作のアテンションメカニズムは、オーディオエンコーダモジュールが出力す
る1フレームのベクトルhi xをクエリ項目(query)とし、ホットワードオーディオエンコーダが出力する第3の特徴ベクトルシーケンスHz=[h0 z,h1 z,……,hN z]に対してアテンションメカニズム操作を行う。
想定例では、上記ステップ104で前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得ることは、
41:前記第1の特徴ベクトルシーケンスにおける各第1の特徴ベクトル及び前記第3の特徴ベクトルシーケンスにおける各第3の特徴ベクトルに対してマッチング演算を行い、各第3の特徴ベクトルに対応するマッチング係数を得ることと、
42:前記各第3の特徴ベクトルに対応するマッチング係数及び対応する第3の特徴ベクトルに対して演算を行い、前記各第3の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
43:前記各第3の特徴ベクトルに対応する新しい特徴ベクトル及び対応する第3の特徴ベクトルを結合し、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを前記第4の特徴ベクトルシーケンスとすることとを含む。
具体的には、図1Dに示すように、第1の特徴ベクトルシーケンスのいずれか一つの第1の特徴ベクトルを例にクエリ項目とすると、電子機器がクエリ項目及び第3の特徴ベクトルシーケンスにおける各特徴ベクトルを用いてアテンションメカニズムに基づいてマッチング係数を求める。例えば、内積を求める方式又は特徴距離方式により、マッチング係数を計算し、正規化法によりマッチング係数Wnを得て、次にマッチング係数Wn及び対応する特徴ベクトルhn zに対して演算を行う。当該演算方式は、ドット積の和、加重平均、内
積などのいずれかであり、ここで特に限定しない。演算後、1つの新しい特徴ベクトルhi z、すなわちクエリ項目に最もマッチングする特徴ベクトルを得て、クエリ項目に結合し
、融合後の最後のオーディオ符号化特徴表現hi xを得て、各フレームオーディオエンコー
ダが出力するベクトルに対して上記操作を行い、最終的な第4の特徴ベクトルシーケンス(以下の数4)
Figure 2024502048000005

を得る。本フレーム階層アテンションモジュールの主要目的は予め設定されたホットワードシソーラスのホットワードオーディオ情報の内容をオーディオの符号化に追加することであるため、その後の復号化モジュールのホットワードの復号化精度に有利である。
105:前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る。
そのうち、具体的な実施において、電子機器は、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得る。又は、電子機器は、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス、第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、その結果をデコーダに入力し、復号化操作を行い、認識結果を得る。デコーダは、複数のニューラルネットワーク層を含んでもよい。復号化操作の方式は、Beam Search復号化であってもよいし、当然、他の復号化方式であってもよいので、ここでは省
略する。
本出願の実施例において、ステップ101の前に、テキスト注釈付きの音声データを大
量収集し、その音声特徴を抽出することができる。当該音声特徴は、PLP、MFCC、FilterBankなどの少なくとも1つであってもよいので、ここでは特に限定しない。ここで収集さ
れたテキスト注釈付きの音声データは、ホットワードオーディオエンコーダモジュールの訓練に用いられてもよい。ある音声データの音声特徴シーケンス及びテキスト注釈付きのシーケンスは以下の方式で表せる。
音声特徴シーケンスX=[x1,x2,……,xk,……,xK]
テキスト注釈付きのシーケンスY=[y0,y1,……,yt,……,yT]
そのうち、xkは、音声特徴シーケンスXにおけるkフレーム目の音声特徴ベクトルを表し、Kは音声フレームの総数とする。ytは、テキスト注釈付きのシーケンスYのt番目の文字
、T+1は、当該総テキスト注釈付きの文字総数であり、そのうち、y0はセンテンスの開始
タグ「<s>」とし、yT はセンテンスの終了タグ「</s>」とする。日本語の音声認識を例とし、単一の文字をモデリング単位とする。あるセンテンスのテキスト内容は「今日は東京は風が強い」とし、合計10文字にセンテンスの開始タグ及び終了タグを加えて、テキスト注釈付きのシーケンスは合計12文字とすれば、テキスト注釈付きのシーケンスY=[<s>,今,日,は,東,京,は,風,が,強,い,</s>]である。
具体的な実施において、音声認識モデルは、任意のホットワードの認識機能を備えることができ、これはモデル訓練でホットワードを限定できないことを意味する。したがって、本出願の実施例では、訓練データのテキスト注釈からランダムに選定された注釈セグメントをホットワードとしてモデル訓練全体に参加してもよい。以下、Bセンテンスの音声データに対してモデル訓練を1回行うことを例とし、Bは1より大きな整数として詳しく説明する。例えば、PとNとの2つのパラメータを設定してもよい、Pはあるセンテンスの訓練データについてホットワードを選定するかどうかの確率とし、Nは選定したホットワードの最大文字数とする。本出願の実施例において、P=0.5、N=4とし、つまり
、任意センテンスの訓練データも50%の確率で選定され、テキスト注釈から連続して最大4文字を選定してホットワードとしてもよい。「今日は東京は風が強い」を例として、当該センテンスからホットワードを選定する前後の注釈の比較は下の表に示す。
Figure 2024502048000006
原始注釈における「東」、「京」がホットワードとして選定された場合、その後ろに特殊なタグ「<bias>」を付けてもよい。「<bias>」の役割は、訓練エラーを導入し、モデル訓練時にホットワードに関するモデルパラメータ(ホットワードオーディオエンコーダモ
ジュールのモデルパラメータ又はホットワードテキストエンコーダモジュールのモデルパラメータなど)を強制的に更新することである。「東」、「京」がホットワードとして選定されると、それを今回モデル更新のためのホットワードリストに追加し、ホットワードオーディオエンコーダモジュール又はホットワードテキストエンコーダモジュールの入力とする。モデル更新を行うたびにホットワードの選定を個別に行い、初期時刻ホットワードリストは空でも構わない。データを処理した後、ニューラルネットワークの最適化方法によりモデルパラメータを更新してもよい。訓練段階で、サンプルデータ及び当該サンプルデータに対応する真の認識結果を取得し、サンプルデータの符号化を行い、第1の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得て、第1の特徴ベクトルシーケンス及び第3の特
徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得て、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、予測認識結果を得て、真の認識結果及び予め設定された認識結果の間の偏差に基づいて、モデルパラメータの更新を実現することができる。
想定例では、上記ステップ105で前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることは、
A51:前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
A52:前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることとを含んでもよい。
そのうち、電子機器は、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る。ワード階層アテンションモジュールの役割は、各復号化時刻でオーディオ特徴ベクトルシーケンス、ホットワードテキスト特徴ベクトルシーケンス及びホットワードオーディオ特徴ベクトルシーケンスから復号化待ち時刻に必要なオーディオに関する特徴ベクトル及びホットワードに関する特徴ベクトルを抽出することである。t番目の文字を例として、モデルがt番目の文字を予測する時、オーディオに関する特徴ベクトルがt時刻目の復号化待ち文字のオーディオ内容を
表し、ホットワードテキストに関する特徴ベクトルがt時刻目の可能なホットワードテキ
スト内容を表し、ホットワードオーディオに関する特徴ベクトルがt時刻目の可能なホッ
トワードオーディオ内容を表すことと考えられる。
そのうち、ワード階層アテンションメカニズムについて、アテンションメカニズムは1つのベクトルをクエリ項目(query)とし、一連の特徴ベクトルシーケンスに対してアテ
ンションメカニズム操作を行い、クエリ項目と最もマッチングする特徴ベクトルを抽出して出力とする。具体的には、クエリ項目と特徴ベクトルシーケンスにおける各特徴ベクトルとのマッチング係数を計算し、その後、これらのマッチング係数を対応する特徴ベクトルにかけて合計を求め、得られた新しい特徴ベクトルを、クエリ項目と最もマッチングする特徴ベクトルとする。
想定例では、上記ステップA51で前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることは、
A511:現在時刻における前記デコーダの第1の状態特徴ベクトルを得ることと、
A512:前記第1の状態特徴ベクトルに基づいて、前記第2の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
A513:前記第1の状態特徴ベクトルに基づいて、前記第3の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードオーディオ文脈特徴ベクトルシーケンスを得ることと、
A514:前記第1の状態特徴ベクトルに基づいて、前記第4の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記オーディオ文脈特徴ベクトルシーケンスを得ることとを含んでもよい。
具体的な実施において、仮に現在時刻におけるデコーダの第1の状態特徴ベクトルはdtとすると、dtをクエリ項目として、上記のアテンションメカニズムを用いて、上記フレーム階層アテンションモジュールが出力した第4の特徴ベクトルシーケンス(以下の数5)
Figure 2024502048000007

に対してアテンションメカニズム操作を行い、オーディオ文脈特徴ベクトルシーケンスct x を得る。以下の数6
Figure 2024502048000008

の計算にホットワードを使用し、以下の数7
Figure 2024502048000009

には潜在的なホットワードの完全なオーディオ情報が含まれているので、このように計算して得られたct x にもホットワードが含まれているか、どのホットワードであるかという情報が含まれている。同じように、dt をクエリ項目として、ホットワードテキスト符号
化モジュールが出力した第2の特徴ベクトルシーケンスHzに対してアテンションメカニズム操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンスct zを得る。同じよう
に、dtをクエリ項目として、ホットワードオーディオ符号化モジュールが出力した第3の特徴ベクトルシーケンスHwに対してアテンションメカニズム操作を行い、ホットワードオーディオ文脈特徴ベクトルシーケンスct wを得る。
さらに、計算よりct x 、ct z、ct w を得た後、この3つのベクトルを結合したものをデ
コーダモジュールに渡し、t時刻目の復号化を行ってもよい。予め設定されたホットワー
ドシソーラスにおけるホットワードに対応するホットワードオーディオ情報を含むct w が追加されたので、この後のホットワードの復号化精度に有利である。
又は、他の実施形態において、第1の特徴ベクトルシーケンスに基づいて、第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対してそれぞれに第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る。
さらに、想定例では、前記デコーダは、第1の単方向長短期記憶層を含み、上記ステップA511で第1の過去時刻における前記デコーダの第1の状態特徴ベクトルを得ることは、
A5111:第1の過去時刻の認識結果及び当該第1の過去時刻における前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを得ることと、
A5112:前記第1の過去時刻の認識結果及び前記第1の過去時刻における前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第1の単方向長
短期記憶層に入力して、前記第1の状態特徴ベクトルを得ることとを含んでもよい。
そのうち、上記第1の過去時刻は、現在時刻の前の少なくとも1つの時刻であり、つまり、第1の過去時刻は、現在時刻の前の1つの時刻であってもよいし、又は、現在時刻の前の複数の時刻であってもよい。上記デコーダは、2層の単方向長短期記憶層を含んでもよい、当該2層の単方向長短期記憶層は、第1の単方向長短期記憶層及び第2の単方向長短期記憶層を含んでもよい。具体的な実施において、電子機器は、第1の過去時刻のデコーダの認識結果及び当該第1の過去時刻におけるホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを取得し、それを第1の単方向長短期記憶層に入力し、第1の状態特徴ベクトルを得る。また、第1の過去時刻の認識結果及びに対応する入力内容を用いて記憶(特徴)融合を行うことで、モデル予測能力の向上に有利である。
具体的な実施において、第1の過去時刻におけるホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスは次のように得られる。第1の過去時刻のデコーダの第1の状態特徴ベクトルを取得し、当該第1の状態特徴ベクトルに基づいて、第2の特徴ベクトルシーケンスに対してアテンション操作を行い、第1の過去時刻のホットワードテキスト文脈特徴ベクトルシーケンスを得て、第1の状態特徴ベクトルに基づいて、第3の特徴ベクトルシーケンスに対してアテンション操作を行い、第1の過去時刻のホットワードオーディオ文脈特徴ベクトルシーケンスを得て、第1の状態特徴ベクトルに基づいて、第4の特徴ベクトルシーケンスに対してアテンション操作を行い、第1の過去時刻のオーディオ文脈特徴ベクトルシーケンスを得る。例えば、仮に第1の過去時刻のデコーダの第1の状態特徴ベクトルをdt-1 とすると、当該dt-1 をクエリ項目として、第1の過去時刻で入力された第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス、第4の特徴ベクトルシーケンスに対してアテンション操作を行ってもよい。dt-1は第2の過去時刻の認識結果及び第2の過去時刻におけるホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを第1の単方向長短期記憶層に入力して得られた第1の状態特徴ベクトルであってもよい。上記第2の過去時刻は、第1の過去時刻の前の少なくとも1つの時刻であってもよい。つまり、第2の過去時刻は、第1の過去時刻の前の1つの時刻であってもよいし、又は、第1の過去時刻の前の複数の時刻であってもよい。
又は、別の実施形態において、現在時刻の前の全部又は一部の認識結果及び当該第1の過去時刻で前記デコーダに入力された前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、第1の状態特徴ベクトルを得る。よって、現在時刻で前記デコーダに入力された前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得る。
さらに、想定例では、前記デコーダは、第2の単方向長短期記憶層を含み、上記ステップA52:前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることは、現在時刻で前記デコーダに入力された第1の状態特徴ベクトルを用いて、それぞれ前記現在時刻における第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して前記第2のアテンション操作を行うことによって得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベク
トルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることを含んでもよい。
具体的な実施において、現在時刻が現在の復号化時刻であると理解してもよい、例えば、第1の過去時刻は現在時刻の前の1つの時刻であり、t番目のワードを復号化する場合
、現在時刻の前の1つの時刻、つまり第t-1個のワードを復号化する時の時刻は第1の過
去時刻である。デコーダは、2層の単方向長短期記憶層を含んでもよい、t番目の文字(
時刻)を例として、t番目の文字を復号化する時に、第1の長短期記憶層は、t-1時刻の認識結果文字yt-1及びワード階層アテンションモジュールから出力するベクトルct-1(t-1
個の文字時点でデコーダに入力されたホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンス)を入力として、計算してデコーダの第1の状態特徴ベクトルdtを得る。dtをワード階層アテンションモジュールに入力して、t時刻目のワード階層アテンションモジ
ュールの出力ctを計算する。ctは、t時刻目におけるホットワードテキスト文脈特徴ベク
トルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスであり、そして、ct は、第2の長短期記憶層の入力として、
計算してデコーダの出力ht dを取得し、最後に、出力する文字の事後確率の計算を行い、
認識結果を得る。
上述した本出願の実施例によれば、第一、ホットワードテキスト情報を入力とするのに加えて、ホットワード音声セグメントを追加の入力インセンティブ源として追加し、ホットワードテキストを音声セグメントの入力に合わせることはホットワード入力情報の豊富さを効果的に増やし、いきおいホットワードインセンティブの効果を大いに高めることができる。第二、2層のインセンティブ、すなわち二回アテンション操作を導入することは、いきおいホットワードインセンティブの効果を高めことができ、2つの入力及び2階層のホットワードインセンティブ解決案が補完し合い、共同でホットワード認識効果を高めるため、ホットワードの認識精度に有利である。
想定例では、上記ステップ105で前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることは、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得るように実施することができる。
具体的な実施において、電子機器は、直接的に第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、認識結果を得る。ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。
さらに、想定例では、前記デコーダは、2層の単方向長短期記憶層を含み、前記2層の単方向長短期記憶層は、第1の単方向長短期記憶層及び第2の単方向長短期記憶層を含み、上記ステップで前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、前記認識結果を得ることは、B51:第1の過去時刻の認識結果及び当該第1の過去時刻における前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベ
クトルシーケンス及び前記第4の特徴ベクトルシーケンスを取得することと、
B52:前記第1の過去時刻の認識結果及び前記第1の過去時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、第2の状態特徴ベクトルを得ることと、
B53:現在時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第2の状態特徴ベクトルを用いて、前記現在時刻における前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して前記第1のアテンション操作を行うことによって得られる前記第4の特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることと含んでもよい。
そのうち、デコーダは、複数のニューラルネットワーク層を含んでもよい。例えば、デコーダは、2層の単方向長短期記憶層を含んでもよい、当該2層の単方向長短期記憶層は、第1の単方向長短期記憶層及び第2の単方向長短期記憶層を含む。
具体的な実施において、電子機器は、第1の過去時刻の認識結果及び第1の過去時刻でデコーダに入力された第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスを取得し、それを第1の単方向長短期記憶層に入力し、第2の状態特徴ベクトルを得て、現在時刻でデコーダに入力された第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスを第2の単方向長短期記憶層に入力し、現在時刻の認識結果を得る。そのうち、第4の特徴ベクトルシーケンスは、第2の状態特徴ベクトルを用いて現在時刻における第1の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスの少なくとも1つの特徴ベクトルシーケンスに対して第1のアテンション操作を行うことによって得られる。例えば、第2の状態特徴ベクトルを用いて現在時刻における第1の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスに対してそれぞれに第1のアテンション操作を行ってもよい。さらに、デコーダの第2の単方向長短期記憶層からの出力内容を得るだけでなく、出力する内容の事後確率を計算し、最終的な復号化結果、すなわち現在時刻の認識結果を得る。
上記によれば、本出願の実施例に記載された音声認識方法は、認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得て、第1の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得て、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得て、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。
図1Bに示す実施例と同様、図2に示すように、図2は本出願の実施例に係る音声認識方法を示すフローチャートである。図2に示す音声認識方法は、図1Aに示す音声認識モデルに適用され、当該音声認識モデルは、電子機器に適用され、本音声認識方法は、
201:認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得ることと、
202:予め設定されたホットワードシソーラスにおける各ホットワードに対して符号
化を行い、第2の特徴ベクトルシーケンスを得ることと、
203:前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得ることと、
204:前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得ることと、
205:前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
206:前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、認識結果を得ることとを含む。
そのうち、上記ステップ201からステップ206までの具体的な説明は、上記図1Bに示す音声認識方法のステップを参照できるので、ここでは省略する。
上記によれば、本出願の実施例に記載されている音声認識方法は、第一、ホットワードテキスト情報を入力とするのに加えて、ホットワード音声セグメントを追加の入力インセンティブ源として追加し、ホットワードテキストを音声セグメントに合わせる入力はホットワード入力情報の豊富さを効果的に増やし、いきおいホットワードインセンティブの効果を大いに高めることができる。第二、2層のインセンティブ、すなわち二回アテンション操作を導入することは、いきおいホットワードインセンティブの効果を高めことができ、2つの入力及び2階層のホットワードインセンティブ解決案が補完し合い、共同でホットワード認識効果を高めるため、ホットワードの認識精度に有利である。
上記の実施例と同様、図3に示すように、図3は、本出願の実施例に係る電子機器の構造を示す図である。当該電子機器は、プロセッサ、メモリ、通信ポート及び1つ又は複数のプログラムを含み、そのうち、上記1つ又は複数のプログラムは、上記メモリに格納され、上記プロセッサによって実行されるように構成され、本出願の実施例において、上記プログラムは、
認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得ることと、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得ることと、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得ることと、
前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得ることと、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることとを実行するための命令を含む。
上記によれば、本出願の実施例に記載された電子装置は、認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得て、第1の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得て、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得て、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメ
ントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。
想定例では、前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得る態様において、上記プログラムは、
前記第1の特徴ベクトルシーケンスにおける各第1の特徴ベクトル及び前記第3の特徴ベクトルシーケンスにおける各第3の特徴ベクトルに対してマッチング演算を行い、各第3の特徴ベクトルに対応するマッチング係数を得ることと、
前記各第3の特徴ベクトルに対応するマッチング係数及び対応する第3の特徴ベクトルに対して演算を行い、前記各第3の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
前記各第3の特徴ベクトルに対応する新しい特徴ベクトル及び対応する前記第1の特徴ベクトルを結合し、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを前記第4の特徴ベクトルシーケンスとすることとを実行するための命令を含む。
想定例では、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、上記プログラムは、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることとを実行するための命令を含む。
想定例では、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る態様において、上記プログラムは、
現在時刻における前記デコーダの第1の状態特徴ベクトルを得ることと、
前記第1の状態特徴ベクトルに基づいて、前記第2の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
前記第1の状態特徴ベクトルに基づいて、前記第3の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第1の状態特徴ベクトルに基づいて前記第4の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記オーディオ文脈特徴ベクトルシーケンスを得ることとを実行するための命令を含む。
想定例では、前記デコーダは、第1の単方向長短期記憶層を含み、第1の過去時刻における前記デコーダの第1の状態特徴ベクトルを取得する態様において、上記プログラムは、
文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケン
ス及び前記オーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第1の過去時刻の認識結果及び前記第1の過去時刻における前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、前記第1の状態特徴ベクトルを得ることとを実行するための命令を含む。
想定例では、前記デコーダは、第2の単方向長短期記憶層を含み、前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、認識結果を得る態様において、上記プログラムは、
現在時刻で前記デコーダに入力された、第1の状態特徴ベクトルを用いて、前記現在時刻における第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対してそれぞれに前記第2のアテンション操作を行うことによって得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることを実行するための命令を含む。
想定例では、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、上記プログラムは、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得ることを実行するための命令を含む。
想定例では、前記デコーダは、2層の単方向長短期記憶層を含み、前記2層の単方向長短期記憶層は、第1の単方向長短期記憶層及び第2の単方向長短期記憶層を含み、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、前記認識結果を得る態様において、上記プログラムは、
第1の過去時刻の認識結果及び当該第1の過去時刻における前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを取得することと、
前記第1の過去時刻の認識結果及び前記第1の過去時刻における前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力して、第2の状態特徴ベクトルを得ることと、
現在時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第2の状態特徴ベクトルを用いて、前記現在時刻における前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して前記第1のアテンション操作を行うことによって得られる前記第4の特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることとを実行するための命令を含む。
想定例では、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得ることは、
1層又は複数層の単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層である長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を含む符号化層を用いて、前記予め設定されたホットワードシソー
ラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、前記第3の特徴ベクトルシーケンスを得ることを含む。
以上は、方法の実施から本出願の実施例の解決案を説明している。電子機器が上記機能を実現するよう、各機能を実行するために必要なハードウェア構造及び/又はソフトウェ
アモジュールを含むことが理解される。本明細書に係る実施例に記載されている各例のユニット及びアルゴリズムステップを参考すれば、ハードウェア又はハードウェアとコンピュータソフトウェアとの組み合わせで本出願を実施することを当業者は容易に想到できる。ある機能がハードウェア又はコンピュータソフトウェアでハードウェアを駆動することによって実行されるのは、技術的解決案の特定用途と設計制約条件によって異なる。専門技術者は、特定の用途ごとに異なる方法を使用して、記載された機能を実現することができるが、そのような実施は、本出願の範囲を超えるものとみなされるべきではない。
本出願の実施例は、上記方法の例のように電子機器の機能ユニットを区分してもよい。例えば、機能ごとに各機能ユニットを区分してもよいし、2つ以上の機能を処理ユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態でもよいし、ソフトウェア機能ユニットの形態でもよい。説明すべき点については、本出願の実施例におけるユニットの区分は、概略的なものであり、論理機能の区分にすぎず、実際に実施される場合には、別の区分方法があってもよい。
図4Aは、本出願の実施例に係る音声認識装置400の機能ユニット構成を示すブロック図である。当該音声認識装置400は、電子機器に適用され、前記音声認識装置400は、
認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得るオーディオエンコーダモジュール401と、
予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得るホットワードテキストエンコーダモジュール402と、
前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得るホットワードオーディオエンコーダモジュール403と、
前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得るフレーム階層アテンションモジュール404と、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得るデコーダモジュール405とを含む。
上記によれば、本出願の実施例に記載されている音声認識装置は、認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得て、予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得て、第1の特徴ベクトルシーケンス及び第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得て、第2の特徴ベクトルシーケンス、第3の特徴ベクトルシーケンス及び第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得て、ホットワードテキスト情報だけでなく、それに対応するオーディオセグメントも入力とし、さらに認識対象音声データ及びホットワードテキスト情報のオーディオセグメントに対してアテンション操作を行って融合したものを入力とすることで、明らかにホットワードインセンティブ効果を向上させ、また、三者の復号化操作を行い
、ホットワード認識効果を向上させ、ホットワードの認識精度を高めることができる。
想定例では、前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得る態様において、前記フレーム階層アテンションモジュール404は、具体的に、
前記第1の特徴ベクトルシーケンスにおける各第1の特徴ベクトル及び前記第3の特徴ベクトルシーケンスにおける各第3の特徴ベクトルに対してマッチング演算を行い、各第3の特徴ベクトルに対応するマッチング係数を得ることと、
前記各第3の特徴ベクトルに対応するマッチング係数及び対応する第3の特徴ベクトルに対して演算を行い、前記各第3の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
前記各第3の特徴ベクトルに対応する新しい特徴ベクトル及び対応する前記第1の特徴ベクトルを結合し、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを前記第4の特徴ベクトルシーケンスとすることに用いられる。
想定例では、図4Bに示すように、図4Bは図4Aに示す音声認識装置のまた一つの変形構造であり、図4Aに比べると、そのデコーダモジュール405は、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得るワード階層アテンションモジュール4051と、
前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得るデコーダ4052とを含んでもよい。
想定例では、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る態様において、前記ワード階層アテンションモジュール4051は、具体的に、
現在時刻における前記デコーダの第1の状態特徴ベクトルを得ることと、
前記第1の状態特徴ベクトルに基づいて、前記第2の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
前記第1の状態特徴ベクトルに基づいて、前記第3の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードオーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第1の状態特徴ベクトルに基づいて前記第4の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記オーディオ文脈特徴ベクトルシーケンスを得ることに用いられる。
想定例では、前記デコーダは、第1の単方向長短期記憶層を含み、第1の過去時刻における前記デコーダの第1の状態特徴ベクトルを取得する態様において、前記ワード階層アテンションモジュール4051は、具体的に、
第1の過去時刻の認識結果及び当該第1の過去時刻における前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを得ることと、
前記第1の過去時刻の認識結果及び前記第1の過去時刻における前記ホットワードテキ
スト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、前記第1の状態特徴ベクトルを得ることに用いられる。
想定例では、前記デコーダは、第2の単方向長短期記憶層を含み、前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、認識結果を得る態様において、前記デコーダ4052は、具体的に、
現在時刻で前記デコーダに入力された、第1の状態特徴ベクトルを用いて、前記現在時刻における第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対してそれぞれに前記第2のアテンション操作を行うことによって得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力して、前記現在時刻の認識結果を得ることに用いられる。
想定例では、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、前記デコーダモジュール405は、具体的に、
前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得ることに用いられる。
想定例では、前記デコーダは、2層の単方向長短期記憶層を含み、前記2層の単方向長短期記憶層は、第1の単方向長短期記憶層及び第2の単方向長短期記憶層を含み、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスをデコーダに入力して、復号化操作を行い、前記認識結果を得る態様において、前記デコーダモジュール405は、具体的に、
第1の過去時刻の認識結果及び当該第1の過去時刻における前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを取得することと、
前記第1の過去時刻の認識結果及び前記第1の過去時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、第2の状態特徴ベクトルを得ることと、
現在時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第2の状態特徴ベクトルを用いて、前記現在時刻における前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して前記第1のアテンション操作を行うことによって得られる前記第4の特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることに用いられる。
想定例では、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得る態様において、前記ホットワードオーディオエンコーダモジュール403は、具体的に、
1層又は複数層の、単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層である長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を含む符号化層を用いて、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、前記第3の特徴ベクトルシーケンスを得ることに用いられる。
なお、本実施例の音声認識装置の各プログラムモジュールの機能は、上述した方法実施例に係る方法によって具現化することが理解される。その具体的な実施手順は、上述した方法実施例の説明を参照できるので、ここでは省略する。
本出願の実施例は、さらにコンピュータ記憶媒体を提供し、このうち、当該コンピュータ記憶媒体には電子データ交換のためのコンピュータプログラムが格納され、当該コンピュータプログラムは、コンピュータに、上記方法の実施例に記載される任意の方法の一部又は全部のステップを実行させ、上記のコンピュータは電子機器を含む。
本出願の実施例はさらにコンピュータプログラム製品を提供し、上記のコンピュータプログラム製品は、コンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含み、上記のコンピュータプログラムは、コンピュータに、上記方法の実施例に記載される任意の方法の一部又は全部のステップを実行させるように動作する。当該コンピュータプログラム製品はソフトウェアインストールパッケージであってもよい。上記のコンピュータは電子機器を含む。
説明すべき点については、前述した各方法の実施例については、説明を簡単にするために、一連の動作の組み合わせとして説明されているが、当業者には、本出願によれば、いくつかのステップが他の順序又は同時に実行されてもよいので、本出願は、説明される動作の順序によって限定されないことが認識されるべきである。また、明細書に記載される実施例は、すべて好ましい実施例であり、関連する動作及びモジュールは必ずしも本出願に必須なものではないことも当業者には認識されるべきである。
上記の実施例では、各実施例の説明に異なる重点が置かれており、実施例では詳細に説明されていない部分については、他の実施例の説明を参照できる。
本出願に係るいくつかの実施例では、開示される装置は他の形態により実施されてもよいことが理解されるべきである。例えば、上述した装置の実施例は単に例示的であり、上記ユニットの区分のように、論理機能の区分にすぎず、実際に実施される場合には、複数のユニット又はコンポーネントが組み合わせるか、他のシステムに統合されてもよく、又はいくつかの特徴が無視されてもよく、又は実行されなくてもよいなど、追加の区分方法が存在してもよい。また、表示又は検討されている相互の結合又は直接結合又は通信接続は、いくつかのインターフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよいし、電気的又は他の形態であってもよい。
分離された構成要素として説明された上述ユニットは、物理的に分離されていてもよいし、分離されていなくてもよい。ユニットとして表示される構成要素は、物理的な構成要素であってもよいし、物理的な構成要素でなくてもよい。つまり、1つの場所に配置されていてもよいし、複数のネットワーク構成要素に分散されていてもよい。これらのユニットの一部又は全部は、実際の必要に応じて、本実施例の解決策の目的を達成するために選択されてもよい。
また、本出願の各実施例における各機能ユニットは、1つの処理ユニットに統合されていてもよいし、各ユニットが物理的に個別に存在していてもよいし、さらに2つ以上のユニットが1つのユニットに統合されていてもよい。上記の統合されたユニットは、ハードウェアの形態でもよいし、ソフトウェア機能ユニットの形態でもよい。
上記の統合ユニットは、ソフトウェア機能ユニットの形態で実現され、独立した製品として販売又は使用される場合には、コンピュータ読取可能なメモリに格納されてもよい。
このような理解に基づいて、本出願の技術案が本質的に又は従来技術に貢献する部分、又は当該技術案の全部若しくは一部がソフトウェア製品の形で具現化されることができる。当該コンピュータソフトウェア製品はメモリに記憶され、1台のコンピュータ装置(パーソナルコンピュータ、サーバー又はネットワーク装置など)に、本出願の各実施例における上記方法の全部又は一部のステップを実行させるよう、いくつかの命令を含む。上述したメモリは、USBメモリ、読み取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、リムーバブルハードディスク、磁気ディス
ク又は光ディスクなど、プログラムコードを記憶するさまざまな媒体を含む。
当業者であれば、上記の実施例の各方法の全部又は一部のステップが、関連するハードウェアにプログラムが指示することによって達成され得ることが理解される。当該プログラムは、コンピュータの読取可能なメモリに記憶することができる。メモリには、フラッシュドライブ、読み取り専用メモリ(英語:Read-Only Memory、以下「ROM」という)、
ランダムアクセスメモリ(英語:Random Access Memory、以下「RAM」という)、磁気デ
ィスク又は光ディスクなどを含むことができる。
以上、本出願の実施例について詳細に説明しているが、本明細書では、具体的な例を用いて本出願の原理及び実施形態について説明している。上記実施例の説明は、本出願の方法及びその核心的な考えの理解のみを助けるために用いられる。また、当業者にとっては、本出願の考えにより、具体的な実施形態及び応用範囲においていずれも変更点があり、上述したように、本明細書の内容は本出願に対する制限と理解すべきではない。

Claims (21)

  1. 音声認識方法であって、
    認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得ることと、
    予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得ることと、
    前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得ることと、
    前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得ることと、
    前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることと、
    を含むことを特徴とする方法。
  2. 前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得ることは、
    前記第1の特徴ベクトルシーケンスにおける各第1の特徴ベクトル及び前記第3の特徴ベクトルシーケンスにおける各第3の特徴ベクトルに対してマッチング演算を行い、各第3の特徴ベクトルに対応するマッチング係数を得ることと、
    前記各第3の特徴ベクトルに対応するマッチング係数及び対応する第3の特徴ベクトルに対して演算を行い、前記各第3の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
    前記各第3の特徴ベクトルに対応する新しい特徴ベクトル及び対応する前記第1の特徴ベクトルを結合し、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを前記第4の特徴ベクトルシーケンスとすることと、
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることは、
    前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
    前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることと、
    を含むことを特徴とする請求項1又は2に記載の方法。
  4. 前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることは、
    現在時刻における前記デコーダの第1の状態特徴ベクトルを取得することと、
    前記第1の状態特徴ベクトルに基づいて、前記第2の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
    前記第1の状態特徴ベクトルに基づいて、前記第3の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記ホットワードオーディオ文脈特徴ベクトル
    シーケンスを得ることと、
    前記第1の状態特徴ベクトルに基づいて、前記第4の特徴ベクトルシーケンスに対してアテンション操作を行い、前記現在時刻の前記オーディオ文脈特徴ベクトルシーケンスを得ることと、
    を含むことを特徴とする請求項3に記載の方法。
  5. 前記デコーダは第1の単方向長短期記憶層を含み、前記デコーダの第1の過去時刻における第1の状態特徴ベクトルを取得することは、
    第1の過去時刻の認識結果及び当該第1の過去時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを取得することと、
    前記第1の過去時刻の認識結果及び前記第1の過去時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、前記第1の状態特徴ベクトルを得ることと、
    を含むことを特徴とする請求項4に記載の方法。
  6. 前記デコーダは第2の単方向長短期記憶層を含み、前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを、デコーダに入力し、復号化操作を行い、認識結果を得ることは、
    現在時刻で前記デコーダに入力された、前記第1の状態特徴ベクトルを用いて前記現在時刻における第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対してそれぞれに前記第2のアテンション操作を行うことにより得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることを含む、
    ことを特徴とする請求項3に記載の方法。
  7. 前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得ることは、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得ることを含む、
    ことを特徴とする請求項1に記載の方法。
  8. 前記デコーダは第1の単方向長短期記憶層と第2の単方向長短期記憶層と、すなわち2つの単方向長短期記憶層を含み、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを、デコーダに入力し、復号化操作を行い、前記認識結果を得ることは、
    第1の過去時刻の認識結果及び当該第1の過去時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを取得することと、
    前記第1の過去時刻の認識結果及び前記第1の過去時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、第2の状態特徴ベクトルを得ることと、
    現在時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第2の状態特徴ベクトルを用いて前記現在時刻における
    前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して前記第1のアテンション操作を行うことにより得られる前記第4の特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることとを含む、ことを特徴とする請求項7に記載の方法。
  9. 前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得ることは、
    単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層である長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を含む1層又は複数層の符号化層を用いて、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、前記第3の特徴ベクトルシーケンスを得ることを含む、
    ことを特徴とする請求項1から8のいずれか1項に記載の方法。
  10. 音声認識装置であって、
    認識対象音声データに対して符号化を行い、第1の特徴ベクトルシーケンスを得るオーディオエンコーダモジュールと、
    予め設定されたホットワードシソーラスにおける各ホットワードに対して符号化を行い、第2の特徴ベクトルシーケンスを得るホットワードテキストエンコーダモジュールと、
    前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得るホットワードオーディオエンコーダモジュールと、
    前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得るフレーム階層アテンションモジュールと、
    前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して復号化操作を行い、認識結果を得るデコーダモジュールとを含む、
    ことを特徴とする音声認識装置。
  11. 前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して第1のアテンション操作を行い、第4の特徴ベクトルシーケンスを得る態様において、前記フレーム階層アテンションモジュールは、具体的に、
    前記第1の特徴ベクトルシーケンスにおける各第1の特徴ベクトル及び前記第3の特徴ベクトルシーケンスにおける各第3の特徴ベクトルに対してマッチング演算を行い、各第3の特徴ベクトルに対応するマッチング係数を得ることと、
    前記各第3の特徴ベクトルに対応するマッチング係数及び対応する第3の特徴ベクトルに対して演算を行い、前記各第3の特徴ベクトルに対応する新しい特徴ベクトルを得ることと、
    前記各第3の特徴ベクトルに対応する新しい特徴ベクトル及び対応する前記第1の特徴ベクトルを結合し、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを得て、前記各第3の特徴ベクトルに対応する特徴表現ベクトルを前記第4の特徴ベクトルシーケンスとすることに用いられる、
    ことを特徴とする請求項10に記載の装置。
  12. 前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、前記エンコーダモジュールは、具体的に、
    前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキス
    ト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得ることと、
    前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、認識結果を得ることに用いられる、
    ことを特徴とする請求項10又は11に記載の装置。
  13. 前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対して第2のアテンション操作を行い、ホットワードテキスト文脈特徴ベクトルシーケンス、ホットワードオーディオ文脈特徴ベクトルシーケンス及びオーディオ文脈特徴ベクトルシーケンスを得る態様において、前記エンコーダモジュールは、具体的に、
    現在時刻における前記デコーダの第1の状態特徴ベクトルを取得することと、
    前記第1の状態特徴ベクトルに基づいて、前記第2の特徴ベクトルシーケンスに対してアテンション操作を行い、前記ホットワードテキスト文脈特徴ベクトルシーケンスを得ることと、
    前記第1の状態特徴ベクトルに基づいて、前記第3の特徴ベクトルシーケンスに対してアテンション操作を行い、前記ホットワードオーディオ文脈特徴ベクトルシーケンスを得ることと、
    前記第1の状態特徴ベクトルに基づいて、前記第4の特徴ベクトルシーケンスに対してアテンション操作を行い、前記オーディオ文脈特徴ベクトルシーケンスを得ることに用いられる、
    ことを特徴とする請求項12に記載の装置。
  14. 前記デコーダは第1の単方向長短期記憶層を含み、前記デコーダの第1の過去時刻における第1の状態特徴ベクトルを取得する態様において、前記エンコーダモジュールは、具体的に、
    第1の過去時刻の認識結果及び当該第1の過去時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを取得することと、
    前記第1の過去時刻の認識結果及び前記第1の過去時刻の前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、前記第1の状態特徴ベクトルを得ることに用いられる、
    ことを特徴とする請求項13に記載の装置。
  15. 前記デコーダは第2の単方向長短期記憶層を含み、前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを、デコーダに入力し、復号化操作を行い、認識結果を得る態様において、前記エンコーダモジュールは、具体的に、
    現在時刻で前記デコーダに入力された、前記第1の状態特徴ベクトルを用いて前記現在時刻における第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスに対してそれぞれに前記第2のアテンション操作を行うことにより得られる前記ホットワードテキスト文脈特徴ベクトルシーケンス、前記ホットワードオーディオ文脈特徴ベクトルシーケンス及び前記オーディオ文脈特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることに用いられる、
    ことを特徴とする請求項10に記載の装置。
  16. 前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4
    の特徴ベクトルシーケンスに基づいて、復号化操作を行い、認識結果を得る態様において、前記エンコーダモジュールは、具体的に、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスをデコーダに入力し、復号化操作を行い、前記認識結果を得ることに用いられる、
    ことを特徴とする請求項10に記載の装置。
  17. 前記デコーダは第1の単方向長短期記憶層と第2の単方向長短期記憶層と、すなわち2つの単方向長短期記憶層を含み、前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを、デコーダに入力し、復号化操作を行い、前記認識結果を得る態様において、前記エンコーダモジュールは、具体的に、
    第1の過去時刻の認識結果及び当該第1の過去時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを取得することと、
    前記第1の過去時刻の認識結果及び前記第1の過去時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第4の特徴ベクトルシーケンスを前記第1の単方向長短期記憶層に入力し、第2の状態特徴ベクトルを得ることと、
    現在時刻で前記デコーダに入力された前記第2の特徴ベクトルシーケンス、前記第3の特徴ベクトルシーケンス及び前記第2の状態特徴ベクトルを用いて前記現在時刻における前記第1の特徴ベクトルシーケンス及び前記第3の特徴ベクトルシーケンスに対して前記第1のアテンション操作を行うことにより得られる前記第4の特徴ベクトルシーケンスを前記第2の単方向長短期記憶層に入力し、前記現在時刻の認識結果を得ることに用いられる、
    ことを特徴とする請求項16に記載の装置。
  18. 前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、第3の特徴ベクトルシーケンスを得る態様において、前記ホットワードオーディオエンコーダモジュールは、具体的に、
    単方向又は双方向の長短期記憶ニューラルネットワークの長短期記憶層である長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を含む1層又は複数層の符号化層を用いて、前記予め設定されたホットワードシソーラスにおける各ホットワードのオーディオセグメントに対して符号化を行い、前記第3の特徴ベクトルシーケンスを得ることに用いられる、
    ことを特徴とする請求項10から17のいずれか1項に記載の装置。
  19. 電子機器であって、
    プロセッサと、メモリと、通信ポートと、前記メモリに格納され、請求項1から9のいずれか1項に記載の方法の各ステップの命令を前記プロセッサによって実行されるように構成されている1つ又は複数のプログラムとを含む、
    ことを特徴とする電子機器。
  20. コンピュータ読取可能な記憶媒体であって、
    請求項1から9のいずれか1項に記載の方法をコンピュータに実行させる電子データ交換用コンピュータプログラムを格納する、
    ことを特徴とするコンピュータ読取可能な記憶媒体。
  21. コンピュータプログラム製品であって、
    請求項1から9のいずれか1項に記載の方法をコンピュータに実行させるように動作するコンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含む

    ことを特徴とするコンピュータプログラム製品。
JP2023540012A 2020-12-31 2021-01-26 音声認識方法、装置及び記憶媒体 Pending JP2024502048A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011641751.3 2020-12-31
CN202011641751.3A CN112767917B (zh) 2020-12-31 2020-12-31 语音识别方法、装置及存储介质
PCT/CN2021/073773 WO2022141706A1 (zh) 2020-12-31 2021-01-26 语音识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
JP2024502048A true JP2024502048A (ja) 2024-01-17

Family

ID=75698522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023540012A Pending JP2024502048A (ja) 2020-12-31 2021-01-26 音声認識方法、装置及び記憶媒体

Country Status (5)

Country Link
EP (1) EP4273855A1 (ja)
JP (1) JP2024502048A (ja)
KR (1) KR20230159371A (ja)
CN (1) CN112767917B (ja)
WO (1) WO2022141706A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112995B (zh) * 2021-05-28 2022-08-05 思必驰科技股份有限公司 词声学特征系统、词声学特征系统的训练方法及系统
CN113436614B (zh) * 2021-07-02 2024-02-13 中国科学技术大学 语音识别方法、装置、设备、系统及存储介质
CN113488052B (zh) * 2021-07-22 2022-09-02 深圳鑫思威科技有限公司 无线语音传输和ai语音识别互操控方法
CN113782007A (zh) * 2021-09-07 2021-12-10 上海企创信息科技有限公司 一种语音识别方法、装置、语音识别设备及存储介质
CN117116264A (zh) * 2023-02-20 2023-11-24 荣耀终端有限公司 一种语音识别方法、电子设备以及介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
CN110162749B (zh) * 2018-10-22 2023-07-21 哈尔滨工业大学(深圳) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN109829172B (zh) * 2019-01-04 2023-07-04 北京先声智能科技有限公司 一种基于神经翻译的双向解码自动语法改错模型
EP3948852A1 (en) * 2019-05-06 2022-02-09 Google LLC Contextual biasing for speech recognition
CN110648658B (zh) * 2019-09-06 2022-04-08 北京达佳互联信息技术有限公司 一种语音识别模型的生成方法、装置及电子设备
CN111199727B (zh) * 2020-01-09 2022-12-06 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111783466A (zh) * 2020-07-15 2020-10-16 电子科技大学 一种面向中文病历的命名实体识别方法
CN111933115B (zh) * 2020-10-12 2021-02-09 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN112767917A (zh) 2021-05-07
KR20230159371A (ko) 2023-11-21
WO2022141706A1 (zh) 2022-07-07
CN112767917B (zh) 2022-05-17
EP4273855A1 (en) 2023-11-08

Similar Documents

Publication Publication Date Title
JP2024502048A (ja) 音声認識方法、装置及び記憶媒体
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
WO2021217935A1 (zh) 问题生成模型的训练方法、问题生成方法及其相关设备
US20220180202A1 (en) Text processing model training method, and text processing method and apparatus
JP7346609B2 (ja) 自然言語理解(nlu)フレームワークを使用して意味探索を実行するシステムおよび方法
JP7407968B2 (ja) 音声認識方法、装置、設備及び記憶媒体
CN108153913B (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
CN108899013B (zh) 语音搜索方法、装置和语音识别系统
CN110475129A (zh) 视频处理方法、介质及服务器
JP7229345B2 (ja) 文処理方法、文復号方法、装置、プログラム及び機器
CN108959388B (zh) 信息生成方法及装置
CN115495568B (zh) 一种对话模型的训练方法及装置、对话响应方法及装置
CN113434664A (zh) 文本摘要生成方法、装置、介质及电子设备
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN113450765A (zh) 语音合成方法、装置、设备及存储介质
CN113626608B (zh) 增强语义的关系抽取方法、装置、计算机设备及存储介质
CN113157941A (zh) 业务特征数据处理、文本生成方法、装置及电子设备
CN116825084A (zh) 跨语种的语音合成方法、装置、电子设备和存储介质
CN113128176A (zh) 总结模型的训练方法和工单生成方法及相关设备、装置
CN117496960A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN112151021A (zh) 语言模型的训练方法、语音识别方法、装置及电子设备
CN113095435B (zh) 视频描述生成方法、装置、设备及计算机可读存储介质
CN112528679B (zh) 一种意图理解模型训练方法及装置、意图理解方法及装置
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230829