JP7302132B2 - 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体 - Google Patents

音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体 Download PDF

Info

Publication number
JP7302132B2
JP7302132B2 JP2022084092A JP2022084092A JP7302132B2 JP 7302132 B2 JP7302132 B2 JP 7302132B2 JP 2022084092 A JP2022084092 A JP 2022084092A JP 2022084092 A JP2022084092 A JP 2022084092A JP 7302132 B2 JP7302132 B2 JP 7302132B2
Authority
JP
Japan
Prior art keywords
feature
encoding
features
segment
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022084092A
Other languages
English (en)
Other versions
JP2023041610A (ja
Inventor
フ、シャオイン
チェン、ツィジエ
リアン、ミンシン
ヤン、ミンシュン
ジア、レイ
ワン、ハイフェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023041610A publication Critical patent/JP2023041610A/ja
Application granted granted Critical
Publication of JP7302132B2 publication Critical patent/JP7302132B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本開示は、人工知能技術の分野に関し、特にインテリジェント音声、深層学習、及び自然言語処理などの分野の音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体に関する。
自動音声認識とは、コンピュータによって入力された音声を対応するテキストに自動的に変換するプロセスを指し、深層学習技術の音声認識分野における深く研究、特にエンドツーエンド音声認識技術の提案に伴い、音声認識システムの性能が大幅に向上させる。また、各種インテリジェント機器の普及に伴い、大規模語彙量の音声認識製品はインテリジェントカスタマーサービス、車載ナビゲーション、およびインテリジェントスピーカーなどの分野で広く応用されている。
大規模語彙量の音声認識では、オーディオデータの長さは、ほとんど1000フレーム以上、さらには10000フレーム以上であることが多い。音声認識を行う時、認識結果の精度を確保するだけでなく、認識結果のリアルタイム表示の要求を満たす必要があるなどの、比較的速い認識効率(すなわち応答速度)が必要である。しかし、従来の技術では、より良い実現方法はまだない。
本開示は、音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体を提供する。
音声認識方法であって、
認識待ち音声のオーディオ特徴を取得するステップと、
前記オーディオ特徴を符号化し、符号化特徴を取得するステップと、
前記符号化特徴に対して切断処理を行って、連続するN個の特徴セグメントを取得するステップであって、Nは1より大きい正整数であるステップと、
任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化して、符号化結果を復号化し、前記特徴セグメントに対応する認識結果を取得するステップと、を含み、前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。
符号化・復号化方法であって、
処理待ち対象に対応する特徴を取得するステップであって、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含むステップと、
エンコーダを使用して前記特徴を符号化して、符号化結果を取得するステップと、
前記デコーダを使用して前記符号化結果を復号化して、前記処理待ち対象に対応する処理結果を取得するステップと、を含む。
音声認識装置であって、
特徴取得モジュール、特徴符号化モジュール、セグメント取得モジュール、及びセグメント符号化・復号化モジュールを含み、
前記特徴取得モジュールは、認識待ち音声のオーディオ特徴を取得し、
前記特徴符号化モジュールは、前記オーディオ特徴を符号化し、符号化特徴を取得し、
前記セグメント取得モジュールは、前記符号化特徴に対して切断処理を行って、連続するN個の特徴セグメントを取得し、Nは1より大きい正整数であり、
前記セグメント符号化・復号化モジュールは、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化して、符号化結果を復号化し、前記特徴セグメントに対応する認識結果を取得し、
前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。
符号化・復号化装置であって、
取得モジュール、符号化モジュール、及び復号化モジュールを含み、
前記取得モジュールは、処理待ち対象に対応する特徴を取得し、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含み、
前記符号化モジュールは、エンコーダを使用して前記特徴を符号化して、符号化結果を取得し、
前記復号化モジュールは、前記デコーダを使用して前記符号化結果を復号化して、前記処理待ち対象に対応する処理結果を取得する。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
非一時的なコンピュータ読み取り可能な記憶媒体であって、
コンピュータに上記の方法を実行させるコンピュータ命令が記憶されている。
コンピュータプログラムであって、
プロセッサによって実行される時に上記の方法を実現する。
上記の開示の一実施例は以下の利点または有益な効果を有する。認識待ち音声に対応する各特徴セグメントを取得することができ、履歴特徴セグメントに結びつけて現在処理される特徴セグメントに対して符号化などを行うことができ、認識結果の精度を向上させ、履歴特徴セグメントに対して特徴抽象化を行って、履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に基づいて符号化などを行って、認識効率を向上させることができる。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の音声認識方法の実施例のフローチャートである。 本開示の特徴セグメントを分割する方式の概略図である。 本開示の第2のデコーダと第1のデコーダの作業方式の概略図である。 本開示の音声認識方法の全体的な実現プロセス概略図である。 本開示の符号化・復号化方法の実施例のフローチャートである。 本開示の音声認識装置の実施例600の構成の構造概略図である。 本開示の符号化・復号化装置の実施例700の構成の構造概略図である。 本開示の実施例を実施するために使用される電子機器800の概略ブロック図を示す。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができることを認識できるはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
また、本明細書の用語「及び/又は」は、関連対象の関連関係のみを説明するものであり、3種類の関係が存在可能であることを表し、例えば、A及び/又はBは、Aのみが存在するか、A及びBが同時に存在するか、Bのみが存在するという3つの場合を表すことができる。符号「/」は、一般的に前後の関連対象が「又は」の関係であることを表すことを理解されたい。
図1は本開示の音声認識方法の実施例のフローチャートである。図1に示すように、以下の具体的な実現方式を含む。
ステップ101では、認識待ち音声のオーディオ特徴を取得する。
ステップ102、取得されたオーディオ特徴を符号化し、符号化特徴を取得する。
ステップ103では、符号化特徴に対して切断処理を行って、連続するN個の特徴セグメントを取得し、Nは1より大きい正整数である。
ステップ104では、任意の特徴セグメントについて、対応する履歴特徴抽象化情報をそれぞれ取得し、履歴特徴抽象化情報に結びつけて当該特徴セグメントを符号化し、符号化結果を復号化し、当該特徴セグメントに対応する認識結果を取得し、履歴特徴抽象化情報は既に認識された各履歴特徴セグメントを特徴抽象化して取得した情報である。
上記の方法の実施例に記載された解決策から分かることは、認識待ち音声に対応する各特徴セグメントを取得することができ、履歴特徴セグメントに結びつけて現在処理される特徴セグメントに対して符号化などを行うことができ、認識結果の精度を向上させ、履歴特徴セグメントに対して特徴抽象化を行って、履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に基づいて符号化などを行って、認識効率を向上させることができる。
図1に示す実施例の実行主体は、ユーザ機器またはサーバなどであってもよいが、これらに限定せず、例えば、ユーザ機器が、ユーザの音声をリアルタイムで収集し、図1に示す方式で収集された音声を処理することができ、または、ユーザ機器がユーザの音声をリアルタイムで収集し、収集された音声をサーバに送信することができ、サーバが図1に示す方式で処理することができる。
認識待ち音声について、まず、そのオーディオ特徴を取得することができる。どのように認識待ち音声のオーディオ特徴を取得することは、限定せず、例えば、既存のオーディオ特徴の抽出方式を使用して認識待ち音声のオーディオ特徴を取得することができる。
その後、取得されたオーディオ特徴を符号化し、符号化結果すなわち符号化特徴を取得することができ、ボトルネック特徴(Bottleneck Feature)とも呼ぶことができる。本開示の一実施例では、符号化する前、まず、取得されたオーディオ特徴に対して畳み込みダウンサンプリングを行い、ダウンサンプリング後のオーディオ特徴を符号化して、符号化特徴を取得することもできる。
例えば、2つの畳み込み(convolution)層を使用するとができ、各畳み込み層でそれぞれストライド(stride)が2の畳み込みダウンサンプリングを行うことができる。
上記の処理により、取得されたオーディオ特徴のフレームレートを下げることができ、例えば、元の1/4に下げることができ、オーディオ特徴のキー情報が失われないことを確保しない状況で、後続処理の作業量を低減し、リソース消費を低減し、処理効率などを向上させる。
本開示の一実施例では、第1のエンコーダを使用して取得されたオーディオ特徴またはダウンサンプリング後のオーディオ特徴に対して符号化を行うことができ、第1のエンコーダは因果的拡張畳み込みコンバーター(Conformer)エンコーダであってもよく、コンバーターはTransformerモデルを指し、第1のエンコーダはM層の因果的Conformerモデルを含むことができ、Mは正整数であり、因果的Conformerモデルには、時間マスクに基づく注意力モデルと因果的畳み込み(Casual Convolution)モデルを同時に融合し、具体的には、時間マスクに基づく注意力モデルは、時間マスクに基づくマルチヘッド自己注意力(Time-Masked MHSA)モデルであってもよく、MHSAは、マルチヘッド自己注意力(Multi-Head Self-Attention )を指す。Mの具体的な値は、実際のニーズに応じて決定することができ、通常、1より大きい。
因果的Conformerモデルには注意力モデルと畳み込みモデルを同時に融合するため、オーディオ特徴における長距離関係と局所関係を同時に効果的にモデリングすることができ、モデルの記述能力を大幅に向上させ、また、注意力モデルと畳み込みモデルに時間マスクと因果畳み込みをそれぞれ導入し、オーディオ特徴が符号化のプロセス中に履歴オーディオ特徴のみに依存することを確保し、ストリーミング音声認識の要求を満たす。
実際のアプリケーションでは、各因果的Conformerモデルには時間マスクに基づく注意力モデルと因果的畳み込みモデルを含むことができる以外、前後にそれぞれ1つのフィードフォワードニューラルネットワーク(Feed Forward)モデルを含むこともでき、具体的にどの内容を含むかは、実際のニーズに応じて決定することができ、ここでは単なる例で説明する。
本開示の一実施例では、さらに、オーディオ特徴に対して行われる符号化とコネクショニスト時系列分類(CTC、Connectionist Temporal Classification)損失(loss)を組み合わせて、符号化特徴に対応するピーク情報(CTC Peak)を決定することができ、これに応じて、前記ピーク情報に基づいて符号化特徴に対して切断処理を行うことができる。その中、各ピークは1つの音節または1グループの音素をそれぞれ示すことができる。
本開示の一実施例では、隣接する各2つのピーク間に位置する符号化特徴をそれぞれ1つの特徴セグメントとすることができる。
図2は本開示の特徴セグメントを分割する方式の概略図である。図2に示すように、取得された符号化特徴について、ピーク情報を使用してそれを切断することができ、複数の連続する不等長の特徴セグメントを取得することができる。
ピーク情報によって、所望の特徴セグメントを簡単かつ効率的に取得することができ、後続処理に良好な基盤を築くことを分かることができる。
実際のアプリケーションでは、取得された各特徴セグメントを順次に処理することができる。その中、各特徴セグメントについて、以下の処理をそれぞれ実行することができ、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて当該特徴セグメントを符号化し、符号化結果を復号化し、当該特徴セグメントに対応する認識結果を取得し、履歴特徴抽象化情報は既に認識された各履歴特徴セグメントを特徴抽象化して取得した情報である。
本開示の一実施例では、各特徴セグメントについて、履歴特徴抽象化情報と組み合わせることができ、第2のエンコーダを使用して当該特徴セグメントを符号化し、第1のデコーダを使用して符号化結果を復号化することができ、その中、履歴特徴抽象化情報はデコーダの出力情報に基づいて生成することができる。
現在使用されてる各種モデルにおいて、例えば、Transformerモデルでは、エンコーダとデコーダとの関係は、エンコーダの出力がデコーダの入力であることにのみ具現され、エンコーダの符号化プロセスは、デコーダの影響を直接に受けず、デコーダはエンドツーエンドの結合モデリングをする時、誤差伝達の方式でエンコーダの符号化プロセスに間接的に影響するが、本開示の解決策では、デコーダの出力を使用してエンコーダの入力を生成することができ、このようなエンコーダとデコーダの相互作用の方式は、両者が1つの統一された全体をより効果的に形成することができ、エンドツーエンドモデルのモデリング能力を大幅に向上させ、エンドツーエンドモデルの最適化方法に新しい解決アイデアを提供し、エンドツーエンドモデルの構造的革新でもある。
第2のエンコーダと第1のデコーダはConformer構造に基づくストリーミングマルチレベル切断注意力(SMLTA、 Streaming Multi-Layer Truncated Attention)モデルを共に構成し、第2のエンコーダは、ストリーミングトランキングのConformerエンコーダ(Streaming Truncated Conformer Encoder)であってもよく、第1のデコーダは、Transformerデコーダ(Transformer Decoder)であってもよい。
本開示の一実施例では、第2のエンコーダは、P層のConformerモデルを含むことができ、Pは正整数であり、第1のデコーダの数はQ個であってもよく、Qは正整数であり、Q個の第1のデコーダは順次に接続することができる。PとQの具体的な値はすべて実際のニーズに応じて決定することができ、符号化と復号化の性能を向上させるために、PとQの値は通常、すべて1より大きい。
つまり、各特徴セグメントについて、P層の積み重ねられたConformerモデルをそれぞれ使用して当該特徴セグメントを層ごとに符号化することができ、Q個の積み重ねられた第1のデコーダを使用して符号化後の特徴を復号化することができ、例えば、注意力方式で選定し、対応する確率分布を取得し、所望の認識結果を取得することができる。
本開示のオーディオ特徴を特徴セグメントに切断する方式は、デコーダが音声入力のプロセス中に同期して復号化することができ、復号化のリアルタイム性に対するストリーミング音声認識の要求を満たすことができる。
本開示の一実施例では、任意のConformerモデルについて、以下の処理をそれぞれ実行することができ、任意の第1のデコーダから取得された隠れ層特徴(または隠れ特徴と呼ぶ)を使用して、当該Conformerモデルにおける現在処理される特徴セグメントに対して特徴抽象化を行って、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを現在処理される特徴セグメントの当該Conformerモデルに対応する履歴特徴ベクトルとし、取得された履歴特徴ベクトルは、次の特徴セグメントを処理するために使用することができる。
これに応じて、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得する時、以下の処理を行うことができ、任意のConformerモデルについて、各履歴特徴セグメントの当該Conformerモデルに対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を所望の履歴特徴抽象化情報とする。
図3は本開示の第2のデコーダと第1のデコーダの作業方式の概略図である。図3に示すように、現在処理される特徴セグメントについて、P層の積み重ねられたConformerモデルを使用してそれに対して層ごとに符号化することができ、現在処理される特徴セグメントが特徴セグメントtであり、各層Conformerモデルでは、各履歴特徴セグメントの当該Conformerモデルに対応する履歴特徴ベクトルをそれぞれスプライシングすることができ、すなわち図に示すh1、h2、…、ht-1をスプライシングし、スプライシング結果を特徴セグメントtに対応する履歴特徴抽象化情報とし、取得された履歴特徴抽象化情報と特徴セグメントtを組み合わせて符号化することができ、各層Conformerモデルでの処理方式は同じであり、また、Q個(層)の積み重ねられた第1のデコーダを使用して特徴セグメントtに対して対応する符号化を行った後の特徴を復号化することができ、任意の第1のデコーダから隠れ層特徴を取得することができ、好ましく、より多くの音声と音響情報が含まれるので、最後の第1のデコーダから隠れ層特徴を取得することができ、さらに、取得された隠れ層特徴を使用して注意力方式で各層Conformerモデルにける特徴セグメントtに対してそれぞれ特徴抽象化を行い、固定長さの特徴ベクトルを取得することができ、図に示すhtのように、次の特徴セグメント、例えば、特徴セグメントt+1を処理する時、h1、h2、…、ht-1、及びhtをスプライシングすることができ、スプライシング結果を特徴セグメントt+1に対応する履歴特徴抽象化情報とすることができる。その中、特徴ベクトルの具体的な長さは実際のニーズに応じて決定することができる。
上記の説明を要約すると、図4は本開示の音声認識方法の全体的な実現プロセス概略図である。具体的な実現は前述の関連説明を参照することができ、ここでは詳細に説明しない。
要するに、本開示で記載される解決策では、各履歴特徴セグメントを組み合わせて現在処理される特徴セグメントに対して符号化などを行って、認識結果の精度を向上させることができ、各履歴特徴セグメントに対して特徴抽象化を行って、履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に基づいて符号化などを行って、認識効率を向上させることができ、また、分割された特徴セグメントを固定長さの特徴ベクトルに抽象化することによって、音声データに対する効果的な圧縮を実現し、記憶と計算リソースに対する占有などを低減することができ、大量のトレーニングデータ、及び大規模なパラメータモデルのエンドツーエンドのオンライン音声認識などのシナリオにに適用することができる。
また、本開示で記載される解決策の特徴セグメントは実際の物理的意味を有し、各特徴セグメントはそれぞれ1つの文字(character)情報に対応し、デコーダによって出力された隠れ層特徴を使用してエンコーダの特徴セグメントに対して特徴抽象化を行った後に取得された特徴ベクトルは、各特徴セグメントに含まれる文字情報に対して行う要約であり、これらの特徴ベクトルをスプライシングして構成された履歴特徴抽象化情報であり、実際には音響特徴レベルの言語モデルを形成し、また、デコーダの出力情報を使用してエンコーダの各層に対してそれぞれ特徴抽象化を行って、より多くの音響特徴における言語関係を発見することができ、モデルの履歴抽象化能力を大幅に向上させ、また、最終的な出力結果ではなくデコーダの隠れ層特徴を使用して特徴抽象化を行い、音声認識を復号化する時に直面する「パス拡張」などの問題をさらに解決することができる。
さらに、本開示で記載される解決策では、履歴特徴を抽象化する時、デコーダによって出力された隠れ層特徴をそれぞれ使用してエンコーダにおける各層に対して特徴抽象化を行って、デコーダがエンコーダの符号化プロセスに直接影響を与えることができるようになり、このようなエンコーダとデコーダの相互作用の方式は、両者が1つの統一された全体をより効果的に形成することができ、エンドツーエンドモデルのモデリング能力を大幅に向上させ、エンドツーエンドモデルの最適化方法に新しい解決アイデアを提供し、エンドツーエンドモデルの構造的革新でもある。
これに応じて、本開示では符号化・復号化方法を提供する。図5は本開示の符号化・復号化方法の実施例のフローチャートである。図5に示すように、以下の具体的な実現方式を含む。
ステップ501では、処理待ち対象に対応する特徴を取得し、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含む。
ステップ502では、エンコーダを使用して前記特徴を符号化して、符号化結果を取得する。
ステップ503では、デコーダを使用して取得された符号化結果を復号化して、処理待ち対象に対応する処理結果を取得する。
上記の方法の実施例に記載された解決策では、エンコーダとデコーダは相互作用し、両者が1つの統一された全体をより効果的に形成することができ、デコーダの出力情報を使用してエンコーダの入力特徴を生成し、エンドツーエンドモデルのモデリング能力を大幅に提供し、エンドツーエンドモデルの構造的革新でもある。
本開示の一実施例では、出力情報は、デコーダによって出力された隠れ層特徴を含むことができる。最終的な出力結果ではなくデコーダの隠れ層特徴を出力情報として使用することで、復号化時に直面する「パス拡張」などの問題をさらに解決することができる。
本開示の一実施例では、処理待ち対象に対応する特徴を取得する時、処理待ち対象に対応する履歴特徴抽象化情報を取得することができ、前記履歴特徴抽象化情報は、履歴処理対象を特徴抽象化して取得された情報である。
本開示の一実施例では、さらに、デコーダから取得された前記隠れ層特徴を使用して、処理待ち対象を特徴抽象化して、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを処理待ち対象に対応する履歴特徴ベクトルとすることができる。これに応じて、処理待ち対象に対応する履歴特徴抽象化情報を取得する方式は、各履歴処理対象に対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を所望の履歴特徴抽象化情報とするステップを含むことができる。
図5に示す方法は、前述の音声認識シナリオに適用することができ、これに応じて、本開示の一実施例では、処理待ち対象は、認識待ち音声に対応する符号化特徴に対して切断処理を行った後に取得した連続するN個の特徴セグメント内の任意の特徴セグメントを含むことができ、Nは1より大きい正整数であり、前記符号化特徴は、認識待ち音声のオーディオ特徴を符号化した後に取得した特徴であり、処理結果は、特徴セグメントに対応する認識結果を含むことができ、処理待ち対象に対応する特徴を取得するステップは、特徴セグメントに対応する履歴特徴抽象化情報を取得するステップを含むことができ、履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。すなわち任意の特徴セグメントについて、対応する履歴特徴抽象化情報に結びつけて、エンコーダを使用してそれに対して符号化し、符号化結果を取得することができ、デコーダを使用して取得された符号化結果を復号化して、当該特徴セグメントに対応する認識結果を取得することができる。
図5に示す方法は、符号化・復号化を行う必要のある様々なシナリオに適用することができ、上記の音声認識シナリオに限定されず、上記は一例に過ぎない。
例えば、機械翻訳における長いテキスト翻訳シナリオとビデオ検出シナリオなどにも適用することができる。その中、長いテキスト翻訳シナリオでは、履歴の翻訳された文に対して特徴抽象化を行い、現在翻訳する文の入力特徴とすることができ、ビデオ検出シナリオでは、履歴の出力された特徴情報を現在の図像の検出プロセスなどに用いることができる。
なお、前述の各方法の実施例について、簡単な説明のために、それをすべて一連の作業の組み合わせとして記載するが、本開示は、本開示に従って、いくつかのステップが他の順序を使用することができるか、または同時に行うことができるため、説明する作業順序によって制限されないことを当業者は認識すべきである。次に、本明細書に記載される実施例はいずれも好ましい実施例に属し、関連する作業およびモジュールは必ずしも本開示に必須ではない。ある実施例においては、詳細には記載されていないが、他の実施例の関連説明を参照することができる。
以上は方法の実施例に関する説明であり、以下は装置の実施例で、本開示に記載された解決策をさらに説明する。
図6は本開示前記音声認識装置の実施例600の構成構造概略図である。図6に示すように、特徴取得モジュール601、特徴符号化モジュール602、セグメント取得モジュール603、及びセグメント符号化・復号化モジュール604を含む。
特徴取得モジュール601は、認識待ち音声のオーディオ特徴を取得するために用いられる。
特徴符号化モジュール602は、取得されたオーディオ特徴を符号化し、符号化特徴を取得するために用いられる。
セグメント取得モジュール603は、取得された符号化特徴に対して切断処理を行って、連続するN個の特徴セグメントを取得するために用いられ、Nは1より大きい正整数である。
セグメント符号化・復号化モジュール604は、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に結びつけて当該特徴セグメントを符号化し、符号化結果を復号化し、当該特徴セグメントに対応する認識結果を取得するために用いられ、履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。
上記の装置の実施例に記載される解決策では、認識待ち音声に対応する各特徴セグメントを取得することができ、各履歴特徴セグメントを組み合わせて現在処理される特徴セグメントに対して符号化などを行って、認識結果の精度を向上させることができ、各履歴特徴セグメントに対して特徴抽象化を行って、履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に基づいて符号化などを行って、認識効率を向上させることができる。
認識待ち音声について、特徴取得モジュール601は、そのオーディオ特徴を取得することができ、その後、特徴符号化モジュール602から取得されたオーディオ特徴を符号化し、符号化特徴を取得することができる。
本開示の一実施例では、符号化する前、特徴取得モジュール601が、さらに、まず、取得されたオーディオ特徴に対して畳み込みダウンサンプリングを行うことができ、次に、特徴符号化モジュール602が、ダウンサンプリング後のオーディオ特徴を符号化して、符号化特徴を取得することができる。例えば、2つの畳み込み層を使用することができ、各畳み込み層でストライドが2の畳み込みダウンサンプリングをそれぞれ行うことができる。
本開示の一実施例では、特徴符号化モジュール602は、第1のエンコーダを使用して取得されたオーディオ特徴またはダウンサンプリング後のオーディオ特徴を符号化することができ、第1のエンコーダは因果的Conformerエンコーダであってもよく、第1のエンコーダはM層の因果的Conformerモデルを含むことができ、Mは正整数であり、因果的Conformerモデルには時間マスクに基づく注意力モデルと因果的畳み込み(Casual Convolution)モデルを同時に融合する。Mの具体的な値は、実際のニーズに応じて決定することができ、通常、1より大きい。
本開示の一実施例では、特徴符号化モジュール602は、さらに、オーディオ特徴に対して行われる符号化とCTC lossを組み合わせて、符号化特徴に対応するピーク情報を決定することができ、これに応じて、セグメント取得モジュール603は、前記ピーク情報に基づいて符号化特徴に対して切断処理を行うことができる。
本開示の一実施例では、セグメント取得モジュール603は、隣接する各2つのピーク間に位置する符号化特徴をそれぞれ1つの特徴セグメントとすることができる。
実際のアプリケーションでは、セグメント符号化・復号化モジュール604は、取得された各特徴セグメントを順次に処理することができる。その中、各特徴セグメントについて、以下の処理をそれぞれ実行することができ、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて当該特徴セグメントを符号化し、符号化結果を復号化し、当該特徴セグメントに対応する認識結果を取得し、履歴特徴抽象化情報は既に認識された各履歴特徴セグメントを特徴抽象化して取得した情報である。
本開示の一実施例では、各特徴セグメントについて、セグメント符号化・復号化モジュール604は、履歴特徴抽象化情報と組み合わせることができ、第2のエンコーダを使用して当該特徴セグメントを符号化し、第1のデコーダを使用して符号化結果を復号化することができ、その中、履歴特徴抽象化情報はデコーダの出力情報に基づいて生成することができる。
本開示の一実施例では、第2のエンコーダは、P層のConformerモデルを含むことができ、Pは正整数であり、第1のデコーダの数はQ個であってもよく、Qは正整数であり、Q個の第1のデコーダは順次に接続することができる。PとQの具体的な値はすべて実際のニーズに応じて決定することができ、符号化と復号化の性能を向上させるために、PとQの値は通常、すべて1より大きい。
本開示の一実施例では、セグメント符号化・復号化モジュール604は、任意のConformerモデルについて、以下の処理をそれぞれ実行することができ、任意の第1のデコーダから取得された隠れ層特徴を使用して、当該Conformerモデルにおける現在処理される特徴セグメントに対して特徴抽象化を行って、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを現在処理される特徴セグメントの当該Conformerモデルに対応する履歴特徴ベクトルとし、取得された履歴特徴ベクトルは、次の特徴セグメントを処理するために用いることができる。
これに応じて、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得する時、セグメント符号化・復号化モジュール604は、以下の処理を行うことができ、任意のConformerモデルについて、各履歴特徴セグメントの当該Conformerモデルに対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を所望の履歴特徴抽象化情報とする。
図7は本開示の符号化・復号化装置の実施例700の構成構造概略図である。図7に示すように、取得モジュール701、符号化モジュール702、及び復号化モジュール703を含む。
取得モジュール701は、処理待ち対象に対応する特徴を取得するために用いられ、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含む。
符号化モジュール702は、エンコーダを使用して前記特徴を符号化して、符号化結果を取得するために用いられる。
復号化モジュール703は、デコーダを使用して前記符号化結果を復号化して、処理すべき対象に対応する処理結果を取得するために用いられる。
上記の装置の実施例に記載される解決策では、エンコーダとデコーダは相互作用し、両者が1つの統一された全体をより効果的に形成することができ、デコーダの出力情報を使用してエンコーダの入力特徴を生成し、エンドツーエンドモデルのモデリング能力を大幅に提供し、エンドツーエンドモデルの構造的革新でもある。
本開示の一実施例では、出力情報は、デコーダによって出力された隠れ層特徴を含むことができる。最終的な出力結果ではなくデコーダの隠れ層特徴を出力情報として使用することで、復号化時に直面する「パス拡張」などの問題をさらに解決することができる。
本開示の一実施例では、取得モジュール701は、処理待ち対象に対応する特徴を取得する時、処理待ち対象に対応する履歴特徴抽象化情報を取得することができ、前記履歴特徴抽象化情報は、履歴処理対象を特徴抽象化して取得された情報である。
本開示の一実施例では、取得モジュール701は、さらに、デコーダから取得された前記隠れ層特徴を使用して、処理待ち対象を特徴抽象化して、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを処理待ち対象に対応する履歴特徴ベクトルとすることができ、これに応じて、処理待ち対象に対応する履歴特徴抽象化情報を取得する方式は、各履歴処理対象に対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を所望の履歴特徴抽象化情報とすることを含むことができる。
図7に示す装置は、前述の音声認識シナリオに適用することができ、これに応じて、本開示の一実施例では、処理待ち対象は、認識待ち音声に対応する符号化特徴に対して切断処理を行った後に取得した連続するN個の特徴セグメント内の任意の特徴セグメントを含むことができ、Nは1より大きい正整数であり、前記符号化特徴は、認識待ち音声のオーディオ特徴を符号化した後に取得した特徴であり、処理結果は、特徴セグメントに対応する認識結果を含むことができ、取得モジュール701は処理待ち対象に対応する特徴を取得する方式は、特徴セグメントに対応する履歴特徴抽象化情報を取得することを含むことができ、前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。すなわち任意の特徴セグメントについて、符号化モジュール702は、対応する履歴特徴抽象化情報に結びつけて、エンコーダを使用してそれに対して符号化し、符号化結果を取得することができ、復号化モジュール703は、デコーダを使用して取得された符号化結果を復号化して、当該特徴セグメントに対応する認識結果を取得することができる。
図7に示す装置は、符号化・復号化を行う必要のある様々なシナリオに適用することができ、上記の音声認識シナリオに限定されず、上記は一例に過ぎない。
例えば、機械翻訳における長いテキスト翻訳シナリオとビデオ検出シナリオなどにも適用することができる。その中、長いテキスト翻訳シナリオでは、履歴の翻訳された文に対して特徴抽象化を行い、現在翻訳する文の入力特徴とすることができ、ビデオ検出シナリオでは、履歴の出力された特徴情報を現在の図像の検出プロセスなどに用いることができる。
図6と図7に示す装置の実施例の具体的な作業プロセスは、前述の方法の実施例の関連説明を参照することができ、詳細に説明しない。
本開示に記載された解決策は、人工知能技術の分野に関し、特にインテリジェント音声、深層学習、及び自然言語処理などの分野に適用することができる。人工知能は、人間のある思考プロセスと知能行為(たとえば、学習、推理、思考、計画など)をコンピュータでシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的に、たとえば、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術および機械学習/ディープラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。
本開示の実施例における音声は、ある特定のユーザに対する音声ではなく、ある特定のユーザの個人情報を反映するものではなく、また、音声認識方法の実行主体は、ユーザの許可を得てユーザから取得する等、種々の公開、合法的な方式により、前記音声を取得することができる。要するに、本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、すべて関連する法律および規定を満たし、公序良俗に違反しない。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図8は本開示の実施例を実施するための電子機器800の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図8に示すように、機器800は計算ユニット801を含み、計算ユニット801は、読み取り専用メモリ(ROM)802に記憶されているコンピュータプログラムまたは記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM803には、機器800が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット801、ROM802、およびRAM803は、バス804を介してお互いに接続される。入出力(I/O)インターフェース805もバス804に接続される。
機器800内の複数のコンポーネントは、I/Oインターフェース805に接続されており、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、ディスク、光ディスクなどの記憶ユニット808と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット809と、を含む。通信ユニット809は、機器800が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット801は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット801のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、本開示に記載された方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、本開示に記載された方法は、記憶ユニット808などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。 いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM802および/または通信ユニット809を介して機器800にロードおよび/またはインストールされる。コンピュータプログラムがRAM803にロードされて計算ユニット801によって実行される場合、上記の本開示に記載された方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット801は、他の任意の適切な方式(例えば、ファームウェアによって)を介して本開示に記載された方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器に結びつけて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (32)

  1. 認識待ち音声のオーディオ特徴を取得するステップと、
    前記オーディオ特徴を符号化し、符号化特徴を取得するステップと、
    前記符号化特徴に対して切断処理を行って、連続するN(Nは1より大きい正整数である)個の特徴セグメントを取得するステップと、
    任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化して、符号化結果を復号化し、前記特徴セグメントに対応する認識結果を取得するステップと、を含み、
    前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である、
    音声認識方法。
  2. 前記オーディオ特徴に対して畳み込みダウンサンプリングを行い、ダウンサンプリング後のオーディオ特徴を符号化するステップをさらに含む、
    請求項1に記載の音声認識方法。
  3. 前記オーディオ特徴に対して行われる符号化とコネクショニスト時系列分類損失に結びつけて、前記符号化特徴に対応するピーク情報を決定するステップをさらに含む、
    前記符号化特徴に対して切断処理を行うステップは、前記ピーク情報に基づいて前記符号化特徴に対して切断処理を行うステップを含む、
    請求項1に記載の音声認識方法。
  4. 前記ピーク情報に基づいて前記符号化特徴に対して切断処理を行うステップは、
    隣接する2つのピーク間ごとに位置する符号化特徴をそれぞれ1つの特徴セグメントとするステップを含む、
    請求項3に記載の音声認識方法。
  5. 前記オーディオ特徴を符号化するステップは、
    第1のエンコーダを使用して前記オーディオ特徴を符号化するステップを含み、
    前記第1のエンコーダは、M(Mは正整数である)層の因果的拡張畳み込みコンバーター(Conformer)モデルを含み、Conformerモデルには、時間マスクに基づく注意力モデルと因果的畳み込みモデルとがともに融合される、
    請求項1に記載の音声認識方法。
  6. 前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化するステップは、前記履歴特徴抽象化情報に結びつけて、第2のエンコーダを使用して前記特徴セグメントを符号化するステップを含み、
    符号化結果を復号化するステップは、第1のデコーダを使用して前記符号化結果を復号化するステップを含み、
    前記履歴特徴抽象化情報は、前記第1のデコーダの出力情報に基づいて生成される、
    請求項1に記載の音声認識方法。
  7. 前記第2のエンコーダは、P(Pは正整数である)層の拡張畳み込みコンバーター(Conformer)モデルを含み、前記第1のデコーダの数はQ(Qは正整数である)個であり、Q個の第1のデコーダは順次に接続される、
    請求項6に記載の音声認識方法。
  8. 任意のConformerモデルについて、それぞれ、
    任意の第1のデコーダから取得された隠れ層特徴を使用して、前記Conformerモデルにおける現在処理される特徴セグメントに対して特徴抽象化を行って、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを前記現在処理される特徴セグメントの前記Conformerモデルに対応する履歴特徴ベクトルとする処理を行い、
    対応する履歴特徴抽象化情報を取得するステップは、任意のConformerモデルについて、各履歴特徴セグメントの前記Conformerモデルに対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を前記履歴特徴抽象化情報とするステップを含む、
    請求項7に記載の音声認識方法。
  9. 処理待ち対象に対応する特徴を取得するステップであって、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含むステップと、
    エンコーダを使用して前記特徴を符号化して、符号化結果を取得するステップと、
    前記デコーダを使用して前記符号化結果を復号化して、前記処理待ち対象に対応する処理結果を取得するステップと、を含む、
    符号化・復号化方法。
  10. 前記履歴出力情報は、前記デコーダによって出力された隠れ層特徴を含む、
    請求項9に記載の符号化・復号化方法。
  11. 処理待ち対象に対応する特徴を取得するステップは、前記処理待ち対象に対応する履歴特徴抽象化情報を取得するステップを含み、
    前記履歴特徴抽象化情報は、履歴処理対象を特徴抽象化して取得された情報である、
    請求項10に記載の符号化・復号化方法。
  12. 前記デコーダから取得された前記隠れ層特徴を使用して、前記処理待ち対象を特徴抽象化して、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを前記処理待ち対象に対応する履歴特徴ベクトルとするステップをさらに含み、
    前記処理待ち対象に対応する履歴特徴抽象化情報を取得するステップは、各履歴処理対象に対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を前記履歴特徴抽象化情報とするステップを含む、
    請求項11に記載の符号化・復号化方法。
  13. 前記処理待ち対象は、認識待ち音声に対応する符号化特徴に対して切断処理を行った後に取得した連続するN(Nは1より大きい正整数である)個の特徴セグメント内の任意の特徴セグメントを含み、
    前記符号化特徴は、前記認識待ち音声のオーディオ特徴を符号化した後に取得した特徴であり、
    前記処理結果は、前記特徴セグメントに対応する認識結果を含む、
    請求項9に記載の符号化・復号化方法。
  14. 特徴取得モジュール、特徴符号化モジュール、セグメント取得モジュール、及びセグメント符号化・復号化モジュールを含み、
    前記特徴取得モジュールは、認識待ち音声のオーディオ特徴を取得し、
    前記特徴符号化モジュールは、前記オーディオ特徴を符号化し、符号化特徴を取得し、
    前記セグメント取得モジュールは、前記符号化特徴に対して切断処理を行って、連続するN(Nは1より大きい正整数である)個の特徴セグメントを取得し、
    前記セグメント符号化・復号化モジュールは、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化して、符号化結果を復号化し、前記特徴セグメントに対応する認識結果を取得し、
    前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である、
    音声認識装置。
  15. 前記特徴取得モジュールは、さらに、前記オーディオ特徴に対して畳み込みダウンサンプリングを行う、
    請求項14に記載の音声認識装置。
  16. 前記特徴符号化モジュールは、さらに、前記オーディオ特徴に対して行われる符号化とコネクショニスト時系列分類損失に結びつけて、前記符号化特徴に対応するピーク情報を決定し、
    前記セグメント取得モジュールは、前記ピーク情報に基づいて前記符号化特徴に対して切断処理を行う、
    請求項14に記載の音声認識装置。
  17. 前記セグメント取得モジュールは、隣接する2つのピーク間ごとに位置する符号化特徴をそれぞれ1つの特徴セグメントとする、
    請求項16に記載の音声認識装置。
  18. 前記特徴符号化モジュールは、第1のエンコーダを使用して前記オーディオ特徴を符号化し、
    前記第1のエンコーダは、M(Mは正整数である)層の因果的拡張畳み込みコンバーター(Conformer)モデルを含み、Conformerモデルには、時間マスクに基づく注意力モデルと因果的畳み込みモデルとがともに融合される、
    請求項14に記載の音声認識装置。
  19. 前記セグメント符号化・復号化モジュールは、前記履歴特徴抽象化情報に結びつけて、第2のエンコーダを使用して前記特徴セグメントを符号化して、第1のデコーダを使用して前記符号化結果を復号化し、
    前記履歴特徴抽象化情報は、前記第1のデコーダの出力情報に基づいて生成される、
    請求項14に記載の音声認識装置。
  20. 前記第2のエンコーダは、P(Pは正整数である)層の拡張畳み込みコンバーター(Conformer)モデルを含み、前記第1のデコーダの数はQ(Qは正整数である)個であり、Q個の第1のデコーダは順次に接続される、
    請求項19に記載の音声認識装置。
  21. 前記セグメント符号化・復号化モジュールは、さらに、任意のConformerモデルについて、それぞれ、
    任意の第1のデコーダから取得された隠れ層特徴を使用して、前記Conformerモデルにおける現在処理される特徴セグメントに対して特徴抽象化を行って、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを前記現在処理される特徴セグメントの前記Conformerモデルに対応する履歴特徴ベクトルとする処理を行い、
    前記セグメント符号化・復号化モジュールは、任意の特徴セグメントについて、それぞれ、
    任意のConformerモデルについて、各履歴特徴セグメントの前記Conformerモデルに対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を前記履歴特徴抽象化情報とすることにより、対応する履歴特徴抽象化情報を取得する、
    請求項20に記載の音声認識装置。
  22. 取得モジュール、符号化モジュール、及び復号化モジュールを含み、
    前記取得モジュールは、処理待ち対象に対応する特徴を取得し、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含み、
    前記符号化モジュールは、エンコーダを使用して前記特徴を符号化して、符号化結果を取得し、
    前記復号化モジュールは、前記デコーダを使用して前記符号化結果を復号化して、前記処理待ち対象に対応する処理結果を取得する、
    符号化・復号化装置。
  23. 前記履歴出力情報は、前記デコーダによって出力された隠れ層特徴を含む、
    請求項22に記載の符号化・復号化装置。
  24. 処理待ち対象に対応する特徴を取得することは、前記処理待ち対象に対応する履歴特徴抽象化情報を取得することを含み、
    前記履歴特徴抽象化情報は、履歴処理対象を特徴抽象化して取得された情報である、
    請求項23に記載の符号化・復号化装置。
  25. 前記取得モジュールは、前記デコーダから取得された前記隠れ層特徴を使用して、前記処理待ち対象を特徴抽象化して、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを前記処理待ち対象に対応する履歴特徴ベクトルとし、
    前記取得モジュールは、各履歴処理対象に対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を前記履歴特徴抽象化情報とする、
    請求項24に記載の符号化・復号化装置。
  26. 前記処理待ち対象は、認識待ち音声に対応する符号化特徴に対して切断処理を行った後に取得した連続するN(Nは1より大きい正整数である)個の特徴セグメント内の任意の特徴セグメントを含み、
    前記符号化特徴は、前記認識待ち音声のオーディオ特徴を符号化した後に取得した特徴であり、
    前記処理結果は、前記特徴セグメントに対応する認識結果を含む、
    請求項22に記載の符号化・復号化装置。
  27. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~8のいずれか一項に記載の音声認識方法を実行する、
    電子機器。
  28. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項9~13のいずれか一項に記載の符号化・復号化方法を実行する、
    電子機器。
  29. コンピュータに請求項1~8のいずれか一項に記載の音声認識方法を実行させるコンピュータ命令が記憶されている、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  30. コンピュータに請求項9~13のいずれか一項に記載の符号化・復号化方法を実行させるコンピュータ命令が記憶されている、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  31. プロセッサによって実行される時に請求項1~8のいずれか一項に記載の音声認識方法を実現する、
    コンピュータプログラム/命令。
  32. プロセッサによって実行される時に請求項9~13のいずれか一項に記載の符号化・復号化方法を実現する、
    コンピュータプログラム/命令。
JP2022084092A 2021-09-13 2022-05-23 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体 Active JP7302132B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111069754.9 2021-09-13
CN202111069754.9A CN113889076B (zh) 2021-09-13 2021-09-13 语音识别及编解码方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023041610A JP2023041610A (ja) 2023-03-24
JP7302132B2 true JP7302132B2 (ja) 2023-07-04

Family

ID=79009223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022084092A Active JP7302132B2 (ja) 2021-09-13 2022-05-23 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体

Country Status (5)

Country Link
US (1) US20230090590A1 (ja)
EP (1) EP4148727A1 (ja)
JP (1) JP7302132B2 (ja)
KR (1) KR20230039505A (ja)
CN (1) CN113889076B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596841B (zh) * 2022-03-15 2024-10-18 腾讯科技(深圳)有限公司 实时语音识别方法、模型训练方法、装置及设备
CN115116454B (zh) * 2022-06-15 2024-10-01 腾讯科技(深圳)有限公司 音频编码方法、装置、设备、存储介质及程序产品
CN115223573A (zh) * 2022-07-15 2022-10-21 北京百度网讯科技有限公司 语音唤醒方法、装置、电子设备以及存储介质
CN115132210B (zh) * 2022-09-02 2022-11-18 北京百度网讯科技有限公司 音频识别方法、音频识别模型的训练方法、装置和设备
CN116741151B (zh) * 2023-08-14 2023-11-07 成都筑猎科技有限公司 一种基于呼叫中心的用户呼叫实时监测系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020112787A (ja) 2019-01-08 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN111627418A (zh) 2020-05-27 2020-09-04 携程计算机技术(上海)有限公司 语音合成模型的训练方法、合成方法、系统、设备和介质
CN112735428A (zh) 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049668B2 (en) * 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11475890B2 (en) * 2019-06-24 2022-10-18 Google Llc Generating automated assistant responses and/or actions directly from dialog history and resources
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN112037760B (zh) * 2020-08-24 2022-01-07 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
CN112331185B (zh) * 2020-11-10 2023-08-11 珠海格力电器股份有限公司 一种语音交互方法、系统、存储介质及电子设备
CN112382278B (zh) * 2020-11-18 2021-08-17 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN112530437B (zh) * 2020-11-18 2023-10-20 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN112908305B (zh) * 2021-01-30 2023-03-21 云知声智能科技股份有限公司 一种提升语音识别准确性的方法和设备
CN113362812B (zh) * 2021-06-30 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020112787A (ja) 2019-01-08 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN111627418A (zh) 2020-05-27 2020-09-04 携程计算机技术(上海)有限公司 语音合成模型的训练方法、合成方法、系统、设备和介质
CN112735428A (zh) 2020-12-27 2021-04-30 科大讯飞(上海)科技有限公司 一种热词获取方法、语音识别方法及相关设备

Also Published As

Publication number Publication date
KR20230039505A (ko) 2023-03-21
US20230090590A1 (en) 2023-03-23
CN113889076A (zh) 2022-01-04
JP2023041610A (ja) 2023-03-24
EP4148727A1 (en) 2023-03-15
CN113889076B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
JP7302132B2 (ja) 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
CN113408299B (zh) 语义表示模型的训练方法、装置、设备和存储介质
JP7264951B2 (ja) オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN112489637A (zh) 语音识别方法和装置
US11294945B2 (en) Unsupervised text summarization with reinforcement learning
CN113590858A (zh) 目标对象的生成方法、装置、电子设备以及存储介质
CN112989970A (zh) 文档版面分析方法、装置、电子设备及可读存储介质
US20230014105A1 (en) Image description generation method, apparatus and system, and medium and electronic device
CN112506949A (zh) 结构化查询语言查询语句生成方法、装置及存储介质
CN114548110A (zh) 语义理解方法、装置、电子设备及存储介质
CN115238045B (zh) 一种生成式事件论元抽取方法、系统及存储介质
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
EP4195092A1 (en) Text processing method and apparatus, system, device, and storage medium
CN113689868B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN115640520A (zh) 跨语言跨模态模型的预训练方法、设备和存储介质
CN114937478A (zh) 用于训练模型的方法、用于生成分子的方法和装置
CN114913325A (zh) 语义分割方法、装置及计算机程序产品
US20230410794A1 (en) Audio recognition method, method of training audio recognition model, and electronic device
US20230027813A1 (en) Object detecting method, electronic device and storage medium
CN114841175A (zh) 机器翻译方法、装置、设备及存储介质
CN114783428A (zh) 语音翻译、模型训练方法、装置、设备及存储介质
CN113408298A (zh) 语义解析方法、装置、电子设备及存储介质
CN109285559B (zh) 角色转换点检测方法及装置、存储介质、电子设备
JP7495543B2 (ja) 事前トレーニングモデルのプロンプトベクトルの決定方法、装置及び電子機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R150 Certificate of patent or registration of utility model

Ref document number: 7302132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150