JP7302132B2

JP7302132B2 - 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体

Info

Publication number: JP7302132B2
Application number: JP2022084092A
Authority: JP
Inventors: フ、シャオイン; チェン、ツィジエ; リアン、ミンシン; ヤン、ミンシュン; ジア、レイ; ワン、ハイフェン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-13
Filing date: 2022-05-23
Publication date: 2023-07-04
Anticipated expiration: 2042-05-23
Also published as: KR20230039505A; US20230090590A1; CN113889076A; JP2023041610A; EP4148727A1; CN113889076B

Description

本開示は、人工知能技術の分野に関し、特にインテリジェント音声、深層学習、及び自然言語処理などの分野の音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体に関する。

自動音声認識とは、コンピュータによって入力された音声を対応するテキストに自動的に変換するプロセスを指し、深層学習技術の音声認識分野における深く研究、特にエンドツーエンド音声認識技術の提案に伴い、音声認識システムの性能が大幅に向上させる。また、各種インテリジェント機器の普及に伴い、大規模語彙量の音声認識製品はインテリジェントカスタマーサービス、車載ナビゲーション、およびインテリジェントスピーカーなどの分野で広く応用されている。

大規模語彙量の音声認識では、オーディオデータの長さは、ほとんど１０００フレーム以上、さらには１００００フレーム以上であることが多い。音声認識を行う時、認識結果の精度を確保するだけでなく、認識結果のリアルタイム表示の要求を満たす必要があるなどの、比較的速い認識効率(すなわち応答速度)が必要である。しかし、従来の技術では、より良い実現方法はまだない。

本開示は、音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体を提供する。

音声認識方法であって、
認識待ち音声のオーディオ特徴を取得するステップと、
前記オーディオ特徴を符号化し、符号化特徴を取得するステップと、
前記符号化特徴に対して切断処理を行って、連続するＮ個の特徴セグメントを取得するステップであって、Ｎは１より大きい正整数であるステップと、
任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化して、符号化結果を復号化し、前記特徴セグメントに対応する認識結果を取得するステップと、を含み、前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。

符号化・復号化方法であって、
処理待ち対象に対応する特徴を取得するステップであって、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含むステップと、
エンコーダを使用して前記特徴を符号化して、符号化結果を取得するステップと、
前記デコーダを使用して前記符号化結果を復号化して、前記処理待ち対象に対応する処理結果を取得するステップと、を含む。

音声認識装置であって、
特徴取得モジュール、特徴符号化モジュール、セグメント取得モジュール、及びセグメント符号化・復号化モジュールを含み、
前記特徴取得モジュールは、認識待ち音声のオーディオ特徴を取得し、
前記特徴符号化モジュールは、前記オーディオ特徴を符号化し、符号化特徴を取得し、
前記セグメント取得モジュールは、前記符号化特徴に対して切断処理を行って、連続するＮ個の特徴セグメントを取得し、Ｎは１より大きい正整数であり、
前記セグメント符号化・復号化モジュールは、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化して、符号化結果を復号化し、前記特徴セグメントに対応する認識結果を取得し、
前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。

符号化・復号化装置であって、
取得モジュール、符号化モジュール、及び復号化モジュールを含み、
前記取得モジュールは、処理待ち対象に対応する特徴を取得し、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含み、
前記符号化モジュールは、エンコーダを使用して前記特徴を符号化して、符号化結果を取得し、
前記復号化モジュールは、前記デコーダを使用して前記符号化結果を復号化して、前記処理待ち対象に対応する処理結果を取得する。

電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。

非一時的なコンピュータ読み取り可能な記憶媒体であって、
コンピュータに上記の方法を実行させるコンピュータ命令が記憶されている。

コンピュータプログラムであって、
プロセッサによって実行される時に上記の方法を実現する。

上記の開示の一実施例は以下の利点または有益な効果を有する。認識待ち音声に対応する各特徴セグメントを取得することができ、履歴特徴セグメントに結びつけて現在処理される特徴セグメントに対して符号化などを行うことができ、認識結果の精度を向上させ、履歴特徴セグメントに対して特徴抽象化を行って、履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に基づいて符号化などを行って、認識効率を向上させることができる。

本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の音声認識方法の実施例のフローチャートである。本開示の特徴セグメントを分割する方式の概略図である。本開示の第２のデコーダと第１のデコーダの作業方式の概略図である。本開示の音声認識方法の全体的な実現プロセス概略図である。本開示の符号化・復号化方法の実施例のフローチャートである。本開示の音声認識装置の実施例６００の構成の構造概略図である。本開示の符号化・復号化装置の実施例７００の構成の構造概略図である。本開示の実施例を実施するために使用される電子機器８００の概略ブロック図を示す。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができることを認識できるはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

また、本明細書の用語「及び／又は」は、関連対象の関連関係のみを説明するものであり、３種類の関係が存在可能であることを表し、例えば、Ａ及び／又はＢは、Ａのみが存在するか、Ａ及びＢが同時に存在するか、Ｂのみが存在するという３つの場合を表すことができる。符号「／」は、一般的に前後の関連対象が「又は」の関係であることを表すことを理解されたい。

図１は本開示の音声認識方法の実施例のフローチャートである。図１に示すように、以下の具体的な実現方式を含む。

ステップ１０１では、認識待ち音声のオーディオ特徴を取得する。

ステップ１０２、取得されたオーディオ特徴を符号化し、符号化特徴を取得する。

ステップ１０３では、符号化特徴に対して切断処理を行って、連続するＮ個の特徴セグメントを取得し、Ｎは１より大きい正整数である。

ステップ１０４では、任意の特徴セグメントについて、対応する履歴特徴抽象化情報をそれぞれ取得し、履歴特徴抽象化情報に結びつけて当該特徴セグメントを符号化し、符号化結果を復号化し、当該特徴セグメントに対応する認識結果を取得し、履歴特徴抽象化情報は既に認識された各履歴特徴セグメントを特徴抽象化して取得した情報である。

上記の方法の実施例に記載された解決策から分かることは、認識待ち音声に対応する各特徴セグメントを取得することができ、履歴特徴セグメントに結びつけて現在処理される特徴セグメントに対して符号化などを行うことができ、認識結果の精度を向上させ、履歴特徴セグメントに対して特徴抽象化を行って、履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に基づいて符号化などを行って、認識効率を向上させることができる。

図１に示す実施例の実行主体は、ユーザ機器またはサーバなどであってもよいが、これらに限定せず、例えば、ユーザ機器が、ユーザの音声をリアルタイムで収集し、図１に示す方式で収集された音声を処理することができ、または、ユーザ機器がユーザの音声をリアルタイムで収集し、収集された音声をサーバに送信することができ、サーバが図１に示す方式で処理することができる。

認識待ち音声について、まず、そのオーディオ特徴を取得することができる。どのように認識待ち音声のオーディオ特徴を取得することは、限定せず、例えば、既存のオーディオ特徴の抽出方式を使用して認識待ち音声のオーディオ特徴を取得することができる。

その後、取得されたオーディオ特徴を符号化し、符号化結果すなわち符号化特徴を取得することができ、ボトルネック特徴（ＢｏｔｔｌｅｎｅｃｋＦｅａｔｕｒｅ）とも呼ぶことができる。本開示の一実施例では、符号化する前、まず、取得されたオーディオ特徴に対して畳み込みダウンサンプリングを行い、ダウンサンプリング後のオーディオ特徴を符号化して、符号化特徴を取得することもできる。

例えば、２つの畳み込み（ｃｏｎｖｏｌｕｔｉｏｎ）層を使用するとができ、各畳み込み層でそれぞれストライド（ｓｔｒｉｄｅ）が２の畳み込みダウンサンプリングを行うことができる。

上記の処理により、取得されたオーディオ特徴のフレームレートを下げることができ、例えば、元の１／４に下げることができ、オーディオ特徴のキー情報が失われないことを確保しない状況で、後続処理の作業量を低減し、リソース消費を低減し、処理効率などを向上させる。

本開示の一実施例では、第１のエンコーダを使用して取得されたオーディオ特徴またはダウンサンプリング後のオーディオ特徴に対して符号化を行うことができ、第１のエンコーダは因果的拡張畳み込みコンバーター（Ｃｏｎｆｏｒｍｅｒ）エンコーダであってもよく、コンバーターはＴｒａｎｓｆｏｒｍｅｒモデルを指し、第１のエンコーダはＭ層の因果的Ｃｏｎｆｏｒｍｅｒモデルを含むことができ、Ｍは正整数であり、因果的Ｃｏｎｆｏｒｍｅｒモデルには、時間マスクに基づく注意力モデルと因果的畳み込み（ＣａｓｕａｌＣｏｎｖｏｌｕｔｉｏｎ）モデルを同時に融合し、具体的には、時間マスクに基づく注意力モデルは、時間マスクに基づくマルチヘッド自己注意力（Ｔｉｍｅ－ＭａｓｋｅｄＭＨＳＡ）モデルであってもよく、ＭＨＳＡは、マルチヘッド自己注意力（Ｍｕｌｔｉ－ＨｅａｄＳｅｌｆ－Ａｔｔｅｎｔｉｏｎ）を指す。Ｍの具体的な値は、実際のニーズに応じて決定することができ、通常、１より大きい。

因果的Ｃｏｎｆｏｒｍｅｒモデルには注意力モデルと畳み込みモデルを同時に融合するため、オーディオ特徴における長距離関係と局所関係を同時に効果的にモデリングすることができ、モデルの記述能力を大幅に向上させ、また、注意力モデルと畳み込みモデルに時間マスクと因果畳み込みをそれぞれ導入し、オーディオ特徴が符号化のプロセス中に履歴オーディオ特徴のみに依存することを確保し、ストリーミング音声認識の要求を満たす。

実際のアプリケーションでは、各因果的Ｃｏｎｆｏｒｍｅｒモデルには時間マスクに基づく注意力モデルと因果的畳み込みモデルを含むことができる以外、前後にそれぞれ１つのフィードフォワードニューラルネットワーク（ＦｅｅｄＦｏｒｗａｒｄ）モデルを含むこともでき、具体的にどの内容を含むかは、実際のニーズに応じて決定することができ、ここでは単なる例で説明する。

本開示の一実施例では、さらに、オーディオ特徴に対して行われる符号化とコネクショニスト時系列分類（ＣＴＣ、ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）損失（ｌｏｓｓ）を組み合わせて、符号化特徴に対応するピーク情報（ＣＴＣＰｅａｋ）を決定することができ、これに応じて、前記ピーク情報に基づいて符号化特徴に対して切断処理を行うことができる。その中、各ピークは１つの音節または１グループの音素をそれぞれ示すことができる。

本開示の一実施例では、隣接する各２つのピーク間に位置する符号化特徴をそれぞれ１つの特徴セグメントとすることができる。

図２は本開示の特徴セグメントを分割する方式の概略図である。図２に示すように、取得された符号化特徴について、ピーク情報を使用してそれを切断することができ、複数の連続する不等長の特徴セグメントを取得することができる。

ピーク情報によって、所望の特徴セグメントを簡単かつ効率的に取得することができ、後続処理に良好な基盤を築くことを分かることができる。

実際のアプリケーションでは、取得された各特徴セグメントを順次に処理することができる。その中、各特徴セグメントについて、以下の処理をそれぞれ実行することができ、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて当該特徴セグメントを符号化し、符号化結果を復号化し、当該特徴セグメントに対応する認識結果を取得し、履歴特徴抽象化情報は既に認識された各履歴特徴セグメントを特徴抽象化して取得した情報である。

本開示の一実施例では、各特徴セグメントについて、履歴特徴抽象化情報と組み合わせることができ、第２のエンコーダを使用して当該特徴セグメントを符号化し、第１のデコーダを使用して符号化結果を復号化することができ、その中、履歴特徴抽象化情報はデコーダの出力情報に基づいて生成することができる。

現在使用されてる各種モデルにおいて、例えば、Ｔｒａｎｓｆｏｒｍｅｒモデルでは、エンコーダとデコーダとの関係は、エンコーダの出力がデコーダの入力であることにのみ具現され、エンコーダの符号化プロセスは、デコーダの影響を直接に受けず、デコーダはエンドツーエンドの結合モデリングをする時、誤差伝達の方式でエンコーダの符号化プロセスに間接的に影響するが、本開示の解決策では、デコーダの出力を使用してエンコーダの入力を生成することができ、このようなエンコーダとデコーダの相互作用の方式は、両者が１つの統一された全体をより効果的に形成することができ、エンドツーエンドモデルのモデリング能力を大幅に向上させ、エンドツーエンドモデルの最適化方法に新しい解決アイデアを提供し、エンドツーエンドモデルの構造的革新でもある。

第２のエンコーダと第１のデコーダはＣｏｎｆｏｒｍｅｒ構造に基づくストリーミングマルチレベル切断注意力（ＳＭＬＴＡ、ＳｔｒｅａｍｉｎｇＭｕｌｔｉ－ＬａｙｅｒＴｒｕｎｃａｔｅｄＡｔｔｅｎｔｉｏｎ）モデルを共に構成し、第２のエンコーダは、ストリーミングトランキングのＣｏｎｆｏｒｍｅｒエンコーダ（ＳｔｒｅａｍｉｎｇＴｒｕｎｃａｔｅｄＣｏｎｆｏｒｍｅｒＥｎｃｏｄｅｒ）であってもよく、第１のデコーダは、Ｔｒａｎｓｆｏｒｍｅｒデコーダ（ＴｒａｎｓｆｏｒｍｅｒＤｅｃｏｄｅｒ）であってもよい。

本開示の一実施例では、第２のエンコーダは、Ｐ層のＣｏｎｆｏｒｍｅｒモデルを含むことができ、Ｐは正整数であり、第１のデコーダの数はＱ個であってもよく、Ｑは正整数であり、Ｑ個の第１のデコーダは順次に接続することができる。ＰとＱの具体的な値はすべて実際のニーズに応じて決定することができ、符号化と復号化の性能を向上させるために、ＰとＱの値は通常、すべて１より大きい。

つまり、各特徴セグメントについて、Ｐ層の積み重ねられたＣｏｎｆｏｒｍｅｒモデルをそれぞれ使用して当該特徴セグメントを層ごとに符号化することができ、Ｑ個の積み重ねられた第１のデコーダを使用して符号化後の特徴を復号化することができ、例えば、注意力方式で選定し、対応する確率分布を取得し、所望の認識結果を取得することができる。

本開示のオーディオ特徴を特徴セグメントに切断する方式は、デコーダが音声入力のプロセス中に同期して復号化することができ、復号化のリアルタイム性に対するストリーミング音声認識の要求を満たすことができる。

本開示の一実施例では、任意のＣｏｎｆｏｒｍｅｒモデルについて、以下の処理をそれぞれ実行することができ、任意の第１のデコーダから取得された隠れ層特徴（または隠れ特徴と呼ぶ）を使用して、当該Ｃｏｎｆｏｒｍｅｒモデルにおける現在処理される特徴セグメントに対して特徴抽象化を行って、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを現在処理される特徴セグメントの当該Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルとし、取得された履歴特徴ベクトルは、次の特徴セグメントを処理するために使用することができる。

これに応じて、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得する時、以下の処理を行うことができ、任意のＣｏｎｆｏｒｍｅｒモデルについて、各履歴特徴セグメントの当該Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を所望の履歴特徴抽象化情報とする。

図３は本開示の第２のデコーダと第１のデコーダの作業方式の概略図である。図３に示すように、現在処理される特徴セグメントについて、Ｐ層の積み重ねられたＣｏｎｆｏｒｍｅｒモデルを使用してそれに対して層ごとに符号化することができ、現在処理される特徴セグメントが特徴セグメントｔであり、各層Ｃｏｎｆｏｒｍｅｒモデルでは、各履歴特徴セグメントの当該Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルをそれぞれスプライシングすることができ、すなわち図に示すｈ１、ｈ２、…、ｈｔ－１をスプライシングし、スプライシング結果を特徴セグメントｔに対応する履歴特徴抽象化情報とし、取得された履歴特徴抽象化情報と特徴セグメントｔを組み合わせて符号化することができ、各層Ｃｏｎｆｏｒｍｅｒモデルでの処理方式は同じであり、また、Ｑ個（層）の積み重ねられた第１のデコーダを使用して特徴セグメントｔに対して対応する符号化を行った後の特徴を復号化することができ、任意の第１のデコーダから隠れ層特徴を取得することができ、好ましく、より多くの音声と音響情報が含まれるので、最後の第１のデコーダから隠れ層特徴を取得することができ、さらに、取得された隠れ層特徴を使用して注意力方式で各層Ｃｏｎｆｏｒｍｅｒモデルにける特徴セグメントｔに対してそれぞれ特徴抽象化を行い、固定長さの特徴ベクトルを取得することができ、図に示すｈｔのように、次の特徴セグメント、例えば、特徴セグメントｔ＋１を処理する時、ｈ１、ｈ２、…、ｈｔ－１、及びｈｔをスプライシングすることができ、スプライシング結果を特徴セグメントｔ＋１に対応する履歴特徴抽象化情報とすることができる。その中、特徴ベクトルの具体的な長さは実際のニーズに応じて決定することができる。

上記の説明を要約すると、図４は本開示の音声認識方法の全体的な実現プロセス概略図である。具体的な実現は前述の関連説明を参照することができ、ここでは詳細に説明しない。

要するに、本開示で記載される解決策では、各履歴特徴セグメントを組み合わせて現在処理される特徴セグメントに対して符号化などを行って、認識結果の精度を向上させることができ、各履歴特徴セグメントに対して特徴抽象化を行って、履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に基づいて符号化などを行って、認識効率を向上させることができ、また、分割された特徴セグメントを固定長さの特徴ベクトルに抽象化することによって、音声データに対する効果的な圧縮を実現し、記憶と計算リソースに対する占有などを低減することができ、大量のトレーニングデータ、及び大規模なパラメータモデルのエンドツーエンドのオンライン音声認識などのシナリオにに適用することができる。

また、本開示で記載される解決策の特徴セグメントは実際の物理的意味を有し、各特徴セグメントはそれぞれ１つの文字（ｃｈａｒａｃｔｅｒ）情報に対応し、デコーダによって出力された隠れ層特徴を使用してエンコーダの特徴セグメントに対して特徴抽象化を行った後に取得された特徴ベクトルは、各特徴セグメントに含まれる文字情報に対して行う要約であり、これらの特徴ベクトルをスプライシングして構成された履歴特徴抽象化情報であり、実際には音響特徴レベルの言語モデルを形成し、また、デコーダの出力情報を使用してエンコーダの各層に対してそれぞれ特徴抽象化を行って、より多くの音響特徴における言語関係を発見することができ、モデルの履歴抽象化能力を大幅に向上させ、また、最終的な出力結果ではなくデコーダの隠れ層特徴を使用して特徴抽象化を行い、音声認識を復号化する時に直面する「パス拡張」などの問題をさらに解決することができる。

さらに、本開示で記載される解決策では、履歴特徴を抽象化する時、デコーダによって出力された隠れ層特徴をそれぞれ使用してエンコーダにおける各層に対して特徴抽象化を行って、デコーダがエンコーダの符号化プロセスに直接影響を与えることができるようになり、このようなエンコーダとデコーダの相互作用の方式は、両者が１つの統一された全体をより効果的に形成することができ、エンドツーエンドモデルのモデリング能力を大幅に向上させ、エンドツーエンドモデルの最適化方法に新しい解決アイデアを提供し、エンドツーエンドモデルの構造的革新でもある。

これに応じて、本開示では符号化・復号化方法を提供する。図５は本開示の符号化・復号化方法の実施例のフローチャートである。図５に示すように、以下の具体的な実現方式を含む。

ステップ５０１では、処理待ち対象に対応する特徴を取得し、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含む。

ステップ５０２では、エンコーダを使用して前記特徴を符号化して、符号化結果を取得する。

ステップ５０３では、デコーダを使用して取得された符号化結果を復号化して、処理待ち対象に対応する処理結果を取得する。

上記の方法の実施例に記載された解決策では、エンコーダとデコーダは相互作用し、両者が１つの統一された全体をより効果的に形成することができ、デコーダの出力情報を使用してエンコーダの入力特徴を生成し、エンドツーエンドモデルのモデリング能力を大幅に提供し、エンドツーエンドモデルの構造的革新でもある。

本開示の一実施例では、出力情報は、デコーダによって出力された隠れ層特徴を含むことができる。最終的な出力結果ではなくデコーダの隠れ層特徴を出力情報として使用することで、復号化時に直面する「パス拡張」などの問題をさらに解決することができる。

本開示の一実施例では、処理待ち対象に対応する特徴を取得する時、処理待ち対象に対応する履歴特徴抽象化情報を取得することができ、前記履歴特徴抽象化情報は、履歴処理対象を特徴抽象化して取得された情報である。

本開示の一実施例では、さらに、デコーダから取得された前記隠れ層特徴を使用して、処理待ち対象を特徴抽象化して、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを処理待ち対象に対応する履歴特徴ベクトルとすることができる。これに応じて、処理待ち対象に対応する履歴特徴抽象化情報を取得する方式は、各履歴処理対象に対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を所望の履歴特徴抽象化情報とするステップを含むことができる。

図５に示す方法は、前述の音声認識シナリオに適用することができ、これに応じて、本開示の一実施例では、処理待ち対象は、認識待ち音声に対応する符号化特徴に対して切断処理を行った後に取得した連続するＮ個の特徴セグメント内の任意の特徴セグメントを含むことができ、Ｎは１より大きい正整数であり、前記符号化特徴は、認識待ち音声のオーディオ特徴を符号化した後に取得した特徴であり、処理結果は、特徴セグメントに対応する認識結果を含むことができ、処理待ち対象に対応する特徴を取得するステップは、特徴セグメントに対応する履歴特徴抽象化情報を取得するステップを含むことができ、履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。すなわち任意の特徴セグメントについて、対応する履歴特徴抽象化情報に結びつけて、エンコーダを使用してそれに対して符号化し、符号化結果を取得することができ、デコーダを使用して取得された符号化結果を復号化して、当該特徴セグメントに対応する認識結果を取得することができる。

図５に示す方法は、符号化・復号化を行う必要のある様々なシナリオに適用することができ、上記の音声認識シナリオに限定されず、上記は一例に過ぎない。

例えば、機械翻訳における長いテキスト翻訳シナリオとビデオ検出シナリオなどにも適用することができる。その中、長いテキスト翻訳シナリオでは、履歴の翻訳された文に対して特徴抽象化を行い、現在翻訳する文の入力特徴とすることができ、ビデオ検出シナリオでは、履歴の出力された特徴情報を現在の図像の検出プロセスなどに用いることができる。

なお、前述の各方法の実施例について、簡単な説明のために、それをすべて一連の作業の組み合わせとして記載するが、本開示は、本開示に従って、いくつかのステップが他の順序を使用することができるか、または同時に行うことができるため、説明する作業順序によって制限されないことを当業者は認識すべきである。次に、本明細書に記載される実施例はいずれも好ましい実施例に属し、関連する作業およびモジュールは必ずしも本開示に必須ではない。ある実施例においては、詳細には記載されていないが、他の実施例の関連説明を参照することができる。

以上は方法の実施例に関する説明であり、以下は装置の実施例で、本開示に記載された解決策をさらに説明する。

図６は本開示前記音声認識装置の実施例６００の構成構造概略図である。図６に示すように、特徴取得モジュール６０１、特徴符号化モジュール６０２、セグメント取得モジュール６０３、及びセグメント符号化・復号化モジュール６０４を含む。

特徴取得モジュール６０１は、認識待ち音声のオーディオ特徴を取得するために用いられる。

特徴符号化モジュール６０２は、取得されたオーディオ特徴を符号化し、符号化特徴を取得するために用いられる。

セグメント取得モジュール６０３は、取得された符号化特徴に対して切断処理を行って、連続するＮ個の特徴セグメントを取得するために用いられ、Ｎは１より大きい正整数である。

セグメント符号化・復号化モジュール６０４は、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に結びつけて当該特徴セグメントを符号化し、符号化結果を復号化し、当該特徴セグメントに対応する認識結果を取得するために用いられ、履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。

上記の装置の実施例に記載される解決策では、認識待ち音声に対応する各特徴セグメントを取得することができ、各履歴特徴セグメントを組み合わせて現在処理される特徴セグメントに対して符号化などを行って、認識結果の精度を向上させることができ、各履歴特徴セグメントに対して特徴抽象化を行って、履歴特徴抽象化情報を取得し、履歴特徴抽象化情報に基づいて符号化などを行って、認識効率を向上させることができる。

認識待ち音声について、特徴取得モジュール６０１は、そのオーディオ特徴を取得することができ、その後、特徴符号化モジュール６０２から取得されたオーディオ特徴を符号化し、符号化特徴を取得することができる。

本開示の一実施例では、符号化する前、特徴取得モジュール６０１が、さらに、まず、取得されたオーディオ特徴に対して畳み込みダウンサンプリングを行うことができ、次に、特徴符号化モジュール６０２が、ダウンサンプリング後のオーディオ特徴を符号化して、符号化特徴を取得することができる。例えば、２つの畳み込み層を使用することができ、各畳み込み層でストライドが２の畳み込みダウンサンプリングをそれぞれ行うことができる。

本開示の一実施例では、特徴符号化モジュール６０２は、第１のエンコーダを使用して取得されたオーディオ特徴またはダウンサンプリング後のオーディオ特徴を符号化することができ、第１のエンコーダは因果的Ｃｏｎｆｏｒｍｅｒエンコーダであってもよく、第１のエンコーダはＭ層の因果的Ｃｏｎｆｏｒｍｅｒモデルを含むことができ、Ｍは正整数であり、因果的Ｃｏｎｆｏｒｍｅｒモデルには時間マスクに基づく注意力モデルと因果的畳み込み（ＣａｓｕａｌＣｏｎｖｏｌｕｔｉｏｎ）モデルを同時に融合する。Ｍの具体的な値は、実際のニーズに応じて決定することができ、通常、１より大きい。

本開示の一実施例では、特徴符号化モジュール６０２は、さらに、オーディオ特徴に対して行われる符号化とＣＴＣｌｏｓｓを組み合わせて、符号化特徴に対応するピーク情報を決定することができ、これに応じて、セグメント取得モジュール６０３は、前記ピーク情報に基づいて符号化特徴に対して切断処理を行うことができる。

本開示の一実施例では、セグメント取得モジュール６０３は、隣接する各２つのピーク間に位置する符号化特徴をそれぞれ１つの特徴セグメントとすることができる。

実際のアプリケーションでは、セグメント符号化・復号化モジュール６０４は、取得された各特徴セグメントを順次に処理することができる。その中、各特徴セグメントについて、以下の処理をそれぞれ実行することができ、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて当該特徴セグメントを符号化し、符号化結果を復号化し、当該特徴セグメントに対応する認識結果を取得し、履歴特徴抽象化情報は既に認識された各履歴特徴セグメントを特徴抽象化して取得した情報である。

本開示の一実施例では、各特徴セグメントについて、セグメント符号化・復号化モジュール６０４は、履歴特徴抽象化情報と組み合わせることができ、第２のエンコーダを使用して当該特徴セグメントを符号化し、第１のデコーダを使用して符号化結果を復号化することができ、その中、履歴特徴抽象化情報はデコーダの出力情報に基づいて生成することができる。

本開示の一実施例では、セグメント符号化・復号化モジュール６０４は、任意のＣｏｎｆｏｒｍｅｒモデルについて、以下の処理をそれぞれ実行することができ、任意の第１のデコーダから取得された隠れ層特徴を使用して、当該Ｃｏｎｆｏｒｍｅｒモデルにおける現在処理される特徴セグメントに対して特徴抽象化を行って、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを現在処理される特徴セグメントの当該Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルとし、取得された履歴特徴ベクトルは、次の特徴セグメントを処理するために用いることができる。

これに応じて、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得する時、セグメント符号化・復号化モジュール６０４は、以下の処理を行うことができ、任意のＣｏｎｆｏｒｍｅｒモデルについて、各履歴特徴セグメントの当該Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を所望の履歴特徴抽象化情報とする。

図７は本開示の符号化・復号化装置の実施例７００の構成構造概略図である。図７に示すように、取得モジュール７０１、符号化モジュール７０２、及び復号化モジュール７０３を含む。

取得モジュール７０１は、処理待ち対象に対応する特徴を取得するために用いられ、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含む。

符号化モジュール７０２は、エンコーダを使用して前記特徴を符号化して、符号化結果を取得するために用いられる。

復号化モジュール７０３は、デコーダを使用して前記符号化結果を復号化して、処理すべき対象に対応する処理結果を取得するために用いられる。

上記の装置の実施例に記載される解決策では、エンコーダとデコーダは相互作用し、両者が１つの統一された全体をより効果的に形成することができ、デコーダの出力情報を使用してエンコーダの入力特徴を生成し、エンドツーエンドモデルのモデリング能力を大幅に提供し、エンドツーエンドモデルの構造的革新でもある。

本開示の一実施例では、取得モジュール７０１は、処理待ち対象に対応する特徴を取得する時、処理待ち対象に対応する履歴特徴抽象化情報を取得することができ、前記履歴特徴抽象化情報は、履歴処理対象を特徴抽象化して取得された情報である。

本開示の一実施例では、取得モジュール７０１は、さらに、デコーダから取得された前記隠れ層特徴を使用して、処理待ち対象を特徴抽象化して、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを処理待ち対象に対応する履歴特徴ベクトルとすることができ、これに応じて、処理待ち対象に対応する履歴特徴抽象化情報を取得する方式は、各履歴処理対象に対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を所望の履歴特徴抽象化情報とすることを含むことができる。

図７に示す装置は、前述の音声認識シナリオに適用することができ、これに応じて、本開示の一実施例では、処理待ち対象は、認識待ち音声に対応する符号化特徴に対して切断処理を行った後に取得した連続するＮ個の特徴セグメント内の任意の特徴セグメントを含むことができ、Ｎは１より大きい正整数であり、前記符号化特徴は、認識待ち音声のオーディオ特徴を符号化した後に取得した特徴であり、処理結果は、特徴セグメントに対応する認識結果を含むことができ、取得モジュール７０１は処理待ち対象に対応する特徴を取得する方式は、特徴セグメントに対応する履歴特徴抽象化情報を取得することを含むことができ、前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である。すなわち任意の特徴セグメントについて、符号化モジュール７０２は、対応する履歴特徴抽象化情報に結びつけて、エンコーダを使用してそれに対して符号化し、符号化結果を取得することができ、復号化モジュール７０３は、デコーダを使用して取得された符号化結果を復号化して、当該特徴セグメントに対応する認識結果を取得することができる。

図７に示す装置は、符号化・復号化を行う必要のある様々なシナリオに適用することができ、上記の音声認識シナリオに限定されず、上記は一例に過ぎない。

図６と図７に示す装置の実施例の具体的な作業プロセスは、前述の方法の実施例の関連説明を参照することができ、詳細に説明しない。

本開示に記載された解決策は、人工知能技術の分野に関し、特にインテリジェント音声、深層学習、及び自然言語処理などの分野に適用することができる。人工知能は、人間のある思考プロセスと知能行為（たとえば、学習、推理、思考、計画など）をコンピュータでシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的に、たとえば、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術および機械学習／ディープラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。

本開示の実施例における音声は、ある特定のユーザに対する音声ではなく、ある特定のユーザの個人情報を反映するものではなく、また、音声認識方法の実行主体は、ユーザの許可を得てユーザから取得する等、種々の公開、合法的な方式により、前記音声を取得することができる。要するに、本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、すべて関連する法律および規定を満たし、公序良俗に違反しない。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。

図８は本開示の実施例を実施するための電子機器８００の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図８に示すように、機器８００は計算ユニット８０１を含み、計算ユニット８０１は、読み取り専用メモリ（ＲＯＭ）８０２に記憶されているコンピュータプログラムまたは記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ８０３には、機器８００が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット８０１、ＲＯＭ８０２、およびＲＡＭ８０３は、バス８０４を介してお互いに接続される。入出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続される。

機器８００内の複数のコンポーネントは、Ｉ／Ｏインターフェース８０５に接続されており、キーボード、マウスなどの入力ユニット８０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット８０７と、ディスク、光ディスクなどの記憶ユニット８０８と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット８０９と、を含む。通信ユニット８０９は、機器８００が、インターネットなどのコンピュータネットワーク、および／または様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット８０１は、様々な処理と計算能力を備える汎用および／または専用の処理コンポーネントである。計算ユニット８０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット８０１は、本開示に記載された方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、本開示に記載された方法は、記憶ユニット８０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ８０２および／または通信ユニット８０９を介して機器８００にロードおよび／またはインストールされる。コンピュータプログラムがＲＡＭ８０３にロードされて計算ユニット８０１によって実行される場合、上記の本開示に記載された方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット８０１は、他の任意の適切な方式（例えば、ファームウェアによって）を介して本開示に記載された方法を実行するように構成されることができる。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび／またはブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器に結びつけて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

認識待ち音声のオーディオ特徴を取得するステップと、
前記オーディオ特徴を符号化し、符号化特徴を取得するステップと、
前記符号化特徴に対して切断処理を行って、連続するＮ（Ｎは１より大きい正整数である）個の特徴セグメントを取得するステップと、
任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化して、符号化結果を復号化し、前記特徴セグメントに対応する認識結果を取得するステップと、を含み、
前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である、
音声認識方法。
前記オーディオ特徴に対して畳み込みダウンサンプリングを行い、ダウンサンプリング後のオーディオ特徴を符号化するステップをさらに含む、
請求項１に記載の音声認識方法。
前記オーディオ特徴に対して行われる符号化とコネクショニスト時系列分類損失に結びつけて、前記符号化特徴に対応するピーク情報を決定するステップをさらに含む、
前記符号化特徴に対して切断処理を行うステップは、前記ピーク情報に基づいて前記符号化特徴に対して切断処理を行うステップを含む、
請求項１に記載の音声認識方法。
前記ピーク情報に基づいて前記符号化特徴に対して切断処理を行うステップは、
隣接する２つのピーク間ごとに位置する符号化特徴をそれぞれ１つの特徴セグメントとするステップを含む、
請求項３に記載の音声認識方法。
前記オーディオ特徴を符号化するステップは、
第１のエンコーダを使用して前記オーディオ特徴を符号化するステップを含み、
前記第１のエンコーダは、Ｍ（Ｍは正整数である）層の因果的拡張畳み込みコンバーター（Ｃｏｎｆｏｒｍｅｒ）モデルを含み、Ｃｏｎｆｏｒｍｅｒモデルには、時間マスクに基づく注意力モデルと因果的畳み込みモデルとがともに融合される、
請求項１に記載の音声認識方法。
前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化するステップは、前記履歴特徴抽象化情報に結びつけて、第２のエンコーダを使用して前記特徴セグメントを符号化するステップを含み、
符号化結果を復号化するステップは、第１のデコーダを使用して前記符号化結果を復号化するステップを含み、
前記履歴特徴抽象化情報は、前記第１のデコーダの出力情報に基づいて生成される、
請求項１に記載の音声認識方法。
前記第２のエンコーダは、Ｐ（Ｐは正整数である）層の拡張畳み込みコンバーター（Ｃｏｎｆｏｒｍｅｒ）モデルを含み、前記第１のデコーダの数はＱ（Ｑは正整数である）個であり、Ｑ個の第１のデコーダは順次に接続される、
請求項６に記載の音声認識方法。
任意のＣｏｎｆｏｒｍｅｒモデルについて、それぞれ、
任意の第１のデコーダから取得された隠れ層特徴を使用して、前記Ｃｏｎｆｏｒｍｅｒモデルにおける現在処理される特徴セグメントに対して特徴抽象化を行って、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを前記現在処理される特徴セグメントの前記Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルとする処理を行い、
対応する履歴特徴抽象化情報を取得するステップは、任意のＣｏｎｆｏｒｍｅｒモデルについて、各履歴特徴セグメントの前記Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を前記履歴特徴抽象化情報とするステップを含む、
請求項７に記載の音声認識方法。
処理待ち対象に対応する特徴を取得するステップであって、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含むステップと、
エンコーダを使用して前記特徴を符号化して、符号化結果を取得するステップと、
前記デコーダを使用して前記符号化結果を復号化して、前記処理待ち対象に対応する処理結果を取得するステップと、を含む、
符号化・復号化方法。
前記履歴出力情報は、前記デコーダによって出力された隠れ層特徴を含む、
請求項９に記載の符号化・復号化方法。
処理待ち対象に対応する特徴を取得するステップは、前記処理待ち対象に対応する履歴特徴抽象化情報を取得するステップを含み、
前記履歴特徴抽象化情報は、履歴処理対象を特徴抽象化して取得された情報である、
請求項１０に記載の符号化・復号化方法。
前記デコーダから取得された前記隠れ層特徴を使用して、前記処理待ち対象を特徴抽象化して、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを前記処理待ち対象に対応する履歴特徴ベクトルとするステップをさらに含み、
前記処理待ち対象に対応する履歴特徴抽象化情報を取得するステップは、各履歴処理対象に対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を前記履歴特徴抽象化情報とするステップを含む、
請求項１１に記載の符号化・復号化方法。
前記処理待ち対象は、認識待ち音声に対応する符号化特徴に対して切断処理を行った後に取得した連続するＮ（Ｎは１より大きい正整数である）個の特徴セグメント内の任意の特徴セグメントを含み、
前記符号化特徴は、前記認識待ち音声のオーディオ特徴を符号化した後に取得した特徴であり、
前記処理結果は、前記特徴セグメントに対応する認識結果を含む、
請求項９に記載の符号化・復号化方法。
特徴取得モジュール、特徴符号化モジュール、セグメント取得モジュール、及びセグメント符号化・復号化モジュールを含み、
前記特徴取得モジュールは、認識待ち音声のオーディオ特徴を取得し、
前記特徴符号化モジュールは、前記オーディオ特徴を符号化し、符号化特徴を取得し、
前記セグメント取得モジュールは、前記符号化特徴に対して切断処理を行って、連続するＮ（Ｎは１より大きい正整数である）個の特徴セグメントを取得し、
前記セグメント符号化・復号化モジュールは、任意の特徴セグメントについて、対応する履歴特徴抽象化情報を取得し、前記履歴特徴抽象化情報に結びつけて前記特徴セグメントを符号化して、符号化結果を復号化し、前記特徴セグメントに対応する認識結果を取得し、
前記履歴特徴抽象化情報は、既に認識された履歴特徴セグメントに対して特徴抽象化を行って取得した情報である、
音声認識装置。
前記特徴取得モジュールは、さらに、前記オーディオ特徴に対して畳み込みダウンサンプリングを行う、
請求項１４に記載の音声認識装置。
前記特徴符号化モジュールは、さらに、前記オーディオ特徴に対して行われる符号化とコネクショニスト時系列分類損失に結びつけて、前記符号化特徴に対応するピーク情報を決定し、
前記セグメント取得モジュールは、前記ピーク情報に基づいて前記符号化特徴に対して切断処理を行う、
請求項１４に記載の音声認識装置。
前記セグメント取得モジュールは、隣接する２つのピーク間ごとに位置する符号化特徴をそれぞれ１つの特徴セグメントとする、
請求項１６に記載の音声認識装置。
前記特徴符号化モジュールは、第１のエンコーダを使用して前記オーディオ特徴を符号化し、
前記第１のエンコーダは、Ｍ（Ｍは正整数である）層の因果的拡張畳み込みコンバーター（Ｃｏｎｆｏｒｍｅｒ）モデルを含み、Ｃｏｎｆｏｒｍｅｒモデルには、時間マスクに基づく注意力モデルと因果的畳み込みモデルとがともに融合される、
請求項１４に記載の音声認識装置。
前記セグメント符号化・復号化モジュールは、前記履歴特徴抽象化情報に結びつけて、第２のエンコーダを使用して前記特徴セグメントを符号化して、第１のデコーダを使用して前記符号化結果を復号化し、
前記履歴特徴抽象化情報は、前記第１のデコーダの出力情報に基づいて生成される、
請求項１４に記載の音声認識装置。
前記第２のエンコーダは、Ｐ（Ｐは正整数である）層の拡張畳み込みコンバーター（Ｃｏｎｆｏｒｍｅｒ）モデルを含み、前記第１のデコーダの数はＱ（Ｑは正整数である）個であり、Ｑ個の第１のデコーダは順次に接続される、
請求項１９に記載の音声認識装置。
前記セグメント符号化・復号化モジュールは、さらに、任意のＣｏｎｆｏｒｍｅｒモデルについて、それぞれ、
任意の第１のデコーダから取得された隠れ層特徴を使用して、前記Ｃｏｎｆｏｒｍｅｒモデルにおける現在処理される特徴セグメントに対して特徴抽象化を行って、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを前記現在処理される特徴セグメントの前記Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルとする処理を行い、
前記セグメント符号化・復号化モジュールは、任意の特徴セグメントについて、それぞれ、
任意のＣｏｎｆｏｒｍｅｒモデルについて、各履歴特徴セグメントの前記Ｃｏｎｆｏｒｍｅｒモデルに対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を前記履歴特徴抽象化情報とすることにより、対応する履歴特徴抽象化情報を取得する、
請求項２０に記載の音声認識装置。
取得モジュール、符号化モジュール、及び復号化モジュールを含み、
前記取得モジュールは、処理待ち対象に対応する特徴を取得し、前記特徴は、少なくとも、デコーダの履歴出力情報に基づいて取得される特徴を含み、
前記符号化モジュールは、エンコーダを使用して前記特徴を符号化して、符号化結果を取得し、
前記復号化モジュールは、前記デコーダを使用して前記符号化結果を復号化して、前記処理待ち対象に対応する処理結果を取得する、
符号化・復号化装置。
前記履歴出力情報は、前記デコーダによって出力された隠れ層特徴を含む、
請求項２２に記載の符号化・復号化装置。
処理待ち対象に対応する特徴を取得することは、前記処理待ち対象に対応する履歴特徴抽象化情報を取得することを含み、
前記履歴特徴抽象化情報は、履歴処理対象を特徴抽象化して取得された情報である、
請求項２３に記載の符号化・復号化装置。
前記取得モジュールは、前記デコーダから取得された前記隠れ層特徴を使用して、前記処理待ち対象を特徴抽象化して、所定の長さの特徴ベクトルを取得し、前記特徴ベクトルを前記処理待ち対象に対応する履歴特徴ベクトルとし、
前記取得モジュールは、各履歴処理対象に対応する履歴特徴ベクトルをそれぞれスプライシングし、スプライシング結果を前記履歴特徴抽象化情報とする、
請求項２４に記載の符号化・復号化装置。
前記処理待ち対象は、認識待ち音声に対応する符号化特徴に対して切断処理を行った後に取得した連続するＮ（Ｎは１より大きい正整数である）個の特徴セグメント内の任意の特徴セグメントを含み、
前記符号化特徴は、前記認識待ち音声のオーディオ特徴を符号化した後に取得した特徴であり、
前記処理結果は、前記特徴セグメントに対応する認識結果を含む、
請求項２２に記載の符号化・復号化装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１～８のいずれか一項に記載の音声認識方法を実行する、
電子機器。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項９～１３のいずれか一項に記載の符号化・復号化方法を実行する、
電子機器。
コンピュータに請求項１～８のいずれか一項に記載の音声認識方法を実行させるコンピュータ命令が記憶されている、
非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項９～１３のいずれか一項に記載の符号化・復号化方法を実行させるコンピュータ命令が記憶されている、
非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される時に請求項１～８のいずれか一項に記載の音声認識方法を実現する、
コンピュータプログラム／命令。
プロセッサによって実行される時に請求項９～１３のいずれか一項に記載の符号化・復号化方法を実現する、
コンピュータプログラム／命令。