JP7264951B2

JP7264951B2 - オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP7264951B2
Application number: JP2021131343A
Authority: JP
Inventors: 暁寅付; 鳴心梁; 志傑陳; 啓光臧; 正翔蒋; 遼張; 奇張; 磊賈
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2021-08-11
Publication date: 2023-04-25
Anticipated expiration: 2041-08-11
Also published as: CN112466285B; US20220108684A1; JP2021176022A; CN112466285A; KR20210124933A

Description

本開示は人工知能技術分野に関し、特に、音声認識、自然言語処理及びディープ・ラーニングなどの分野に関し、具体的には、オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムに関する。

現在、音声認識は音声入力、音声ダイヤル、カーナビゲーションなどの様々なシーンに広く応用されている。

音声認識方式は、主にオンライン音声認識及びオフライン音声認識に分類される。ここで、オンライン音声認識は一般的に音声データを、ネットワークを介してサーバにアップロードしてデコードする必要があり、音声認識の性能はネットワーク品質の影響を深刻に受け、かつ音声データをアップロードする必要があるため、個人情報の漏洩などを引き起こしやすい。すなわち、オンライン音声認識は信頼性及びプライバシー性等の面の要求を満たすことができない。

オフライン音声認識は音声データをサーバにアップロードする必要がなく、直接に機器ローカルでデコードし、それにより信頼性及びプライバシー性等の面の要求を満たす。しかし、機器端の計算及び記憶リソース等が限られるため、一般的に認識モデルの体積を制限する必要があり、それにより音声認識結果の正確性が低いなどをもたらす。

本開示は、オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

本開示の一態様のオフライン音声認識方法は、
認識対象となる音声データを音節認識結果にデコードすることと、
前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とすることと、を含む。

本開示の一態様のオフライン音声認識装置は、
オフラインデコードモジュール及び音節変換モジュールを含み、
前記オフラインデコードモジュールは、認識対象となる音声データを音節認識結果にデコードするために用いられ、
前記音節変換モジュールは、前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とするために用いられる。

本開示の一態様の電子機器は、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが上述した方法を実行することができる。

本開示の一態様の記憶媒体は、
コンピュータに上述した方法を実行させるために用いられるコンピュータ命令を記憶している非一時的なコンピュータ読取可能である。

本開示の一態様のコンピュータプログラムは、
プロセッサにより実行される時に、上述した方法を実現する。

上述した記載における一つの実施例は、以下のような利点又は有益な効果を有する。音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を取得し、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。

この部分で説明した内容は、本開示の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本開示の範囲を限定するためのものでもないと理解すべきである。本開示の他の特徴は、以下の「発明を実施するための形態」によって理解し易くなるであろう。

図面は、本技術案がよりよく理解されるためのものであり、本願に対する限定を構成しない。
図１は、本開示に記載のオフライン音声認識方法の実施例のフローチャートである。図２は、従来のオフライン音声認識方式の概略図である。図３は、本開示に記載の音節に基づくエンドツーエンドＳＭＬＴＡモデルの構造概略図である。図４は、本開示に記載の音節に基づくＬＳＴＭ言語モデルの構造概略図である。図５は、本開示に記載のストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルの構造概略図である。図６は、本開示に記載のオフライン音声認識の実現プロセスの概略図である。図７は、本開示に記載のオフライン音声認識装置７０の実施例の構成構造概略図である。図８は、本開示の実施例を実施するために用いられる例示的な電子機器８００を示す模式的なブロック図である。

以下、図面に合わせて本開示の例示的な実施例について説明する。その中、理解に役立つように本開示の実施例の各詳細を含み、これらはあくまで例示的なものであると理解すべきである。そのため、当業者は、本開示の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることに認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。

なお、理解すべきことは、本明細書における術語「及び／又は」は、単に関連対象の関連関係を説明するものであり、三種類の関係が存在し得ることを示す。例えば、Ａ及び／又はＢは、Ａが単独で存在すること、ＡとＢとが同時に存在すること、Ｂが単独で存在することという三種類の状況を表すことができる。なお、本明細書における文字「／」は、一般的に前後の関連対象が「又は」の関係であることを表す。

図１は本開示に記載のオフライン音声認識方法の実施例のフローチャートである。図１に示すように、以下の具体的な実現方式を含む。

ステップ１０１において、認識対象となる音声データを音節認識結果にデコードする。

ステップ１０２において、音節認識結果を対応する文字に変換し、得られた文字を音声データの音声認識結果とする。

これから分かるように、本開示の方法実施例の前記技術案において、音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節（ｓｙｌｌａｂｌｅ）を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を取得し、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。

認識対象となる音声データを音節認識結果にデコードする場合、具体的には、音節デコーダを利用して音声データをデコードすることができ、それにより音節認識結果を得て、ここで、音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードすることに用いられる。

好ましくは、音響モデルはエンドツーエンドのストリーミング型多層切断アテンション（ＳＭＬＴＡ、ＳｔｒｅａｍｉｎｇＭｕｌｔｉ－ＬａｙｅｒＴｒａｎｃａｔｅｄＡｔｔｅｎｔｉｏｎ）モデルであってもよく、及び／又は、言語モデルは長短期記憶ネットワーク（ＬＳＴＭ、ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）言語モデルであってもよい。

従来のオフライン音声認識システムは一般的に音響モデル、言語モデル及びデコーダなどの三つの部分で構成される。図２に示すように、図２は、従来のオフライン音声認識方式の概略図であり、デコーダを利用して入力された音声データを言語モデル及び音響モデルに基づいてデコードすることができ、それにより音声認識結果を得て、機器端の計算及び記憶リソースが限られていることを考慮し、相対エントロピー（ｒｅｌａｔｉｖｅｅｎｔｒｏｐｙ）に基づく方法などを用いて言語モデルを裁断し、ｎグラム言語モデルを取得することができ、一般的にｎグラム言語モデルの体積は数十Ｍ程度に制御され、オンライン言語認識におけるサーバ端の言語モデル体積より約１０００倍減少し、言語モデルの体積を大幅に裁断することは、音声認識結果の正確性を大幅に低下させ、かつ、ｎグラム言語モデルを利用して認識する時にデコードの経路を拡張する必要があり、同じ発音に複数の対応可能な文字が存在するため、組み込み機器の計算リソースの要求を満たすために、認識された候補結果を裁断する必要があり、正確な認識結果は事前に裁断されやすく、それにより認識エラーを引き起こし、さらに音声認識結果の正確性等をさらに低下させる。

本開示に記載のオフライン音声認識方式において、音節に基づくニューラルネットワーク言語モデルを利用してｎグラム言語モデルを代替し、モデル体積を効果的に減少させると同時に、裁断等による問題を回避し、さらに言語認識結果の正確性等を向上させる。

なお、音節に基づくニューラルネットワーク言語モデルを使用し、デコード時に音節認識結果を直接に出力し、さらに音節認識結果を対応する文字に変換し、発音から文字への変換を行う必要がなく、それによりデコーダのサーチスペースを大幅に減少させることができ、特にオフライン音声認識のデコードリソースが限られたシーンに適用し、オフライン音声認識の性能等を効果的に保証する。

前述のように、本開示に記載のオフライン音声認識方式に用いられる音響モデルは音節に基づくエンドツーエンドＳＭＬＴＡモデルであってもよい。

図３は本開示に記載の音節に基づくエンドツーエンドＳＭＬＴＡモデルの構造概略図である。図３に示すように、このモデルは主にエンコーダ（Ｅｎｃｏｄｅｒ）、時系列類分類（ＣＴＣ、Ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）及びデコーダ（Ｄｅｃｏｄｅｒ）の三つの部分で構成され、デコーダは音声から文字への（ＬＡＳ、Ｌｉｓｔｅｎ、ＡｔｔｅｎｄａｎｄＳｐｅｌｌ）デコーダであってもよい。

ここで、エンコーダには畳み込み（Ｃｏｎｖ）層及びＮ個のＬＳＴＭ＋バッチ正規化（ＢＮ、ＢａｔｃｈＮｏｒｍａｌｉｚｅ）層が含まれていてもよく、Ｎの具体的な値は実際の需要に応じて決定されてもよく、例えば５であってもよい。ＣＴＣには、一つの線形変換（Ｌｉｎｅａｒ）層と、一つの正規化（Ｓｏｆｔｍａｘ）層とが含まれていてもよい。ＬＡＳデコーダには一つのアテンション（Ａｔｔｅｎｔｉｏｎ）層、Ｍ個のＬＳＴＭ＋層正規化（ＬＮ、ＬａｙｅｒＮｏｒｍａｌｉｚｅ）層及び一つのＳｏｆｔｍａｘ層が含まれていてもよく、Ｍの具体的な値は同様に実際の需要に応じて決定されてもよく、例えば２であってもよい。

図３に示すＳＭＬＴＡモデルの入力（ｉｎｐｕｔ）は音声データから抽出された特徴データであってもよく、出力（ｏｕｔｐｕｔ）はＣＴＣ出力及びＬＡＳ出力を含み、いずれも音節デコーダに提供することができ、それにより音節デコーダはこの二つの出力結果に基づいて言語モデル等に合わせて、デコードして音節認識結果を取得する。

処理効率などを向上させるために、図３に示すエンコーダ及びデコーダにおけるＬＳＴＭは、いずれも一方向ＬＳＴＭであってもよい。なお、図３に示すＳＭＬＴＡモデルは低フレームレートを採用したＳＭＬＴＡ（ｌｉｇｈｔ－ＳＭＬＴＡ）モデルであってもよく、このように処理効率を向上させると同時に、音響モデルの計算量等をさらに低減することができる。

前述のように、本開示に記載のオフライン音声認識方式で使用された言語モデルは音節に基づくＬＳＴＭ言語モデルであってもよい。

図４は本開示に記載の音節に基づくＬＳＴＭ言語モデルの構造概略図である。図４に示すように、Ｎ個のＬＳＴＭ＋ＬＳＴＭ層が含まれていてもよく、Ｎの具体的な値は実際の需要に応じて決定されてもよく、二つのＬＳＴＭは同じであってもよく、異なってもよく、例えばパラメータ配置が異なってもよい。

なお、４－ビット（ｂｉｔ）量子化方法を用いて、ＬＳＴＭ言語モデルのモデル体積を圧縮することにより、ＬＳＴＭ言語モデルの体積をさらに低減してもよく、一般的な言語モデルに採用された３２－ｂｉｔの記憶構造に比べて、４－ｂｉｔ量子化圧縮を経た後のモデル体積は元の１／８だけになる。４－ｂｉｔ量子化方法の具体的な実現は従来の技術である。

音節デコーダの出力は音節認識結果であり、すなわち一つの音節シーケンスであり、一般的なユーザにとって認識できないため、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換する必要があり、即ち音節シーケンスを対応する文字シーケンスに変換する。

具体的には、音節変換モデルを採用することができ、例えばストリーミング型の変換器（Ｔｒａｎｓｆｏｒｍｅｒ）モデルを利用し、音節認識結果を対応する文字に変換する。

図５は本開示に記載のストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルの構造概略図である。図５に示すように、本開示に記載のストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルは標準的なＴｒａｎｓｆｏｒｍｅｒモデルの構造と類似し、いずれもエンコーダ＋デコーダの構造を採用し、かつ具体的な処理方式はいずれも以下のとおりである。音節認識結果は、まず入力符号化（ＩｎｐｕｔＥｍｂｅｄｄｉｎｇ）及び位置符号化（ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇ）により特徴変換を行い、エンコーダのＮ階層カスケイド接続されたＡｔｔｅｎｔｉｏｎモジュール及び残差モジュールを利用して特徴符号化を行い、デコーダは履歴出力に対して同様に出力符号化（ＯｕｔｐｕｔＥｍｂｅｄｄｉｎｇ）及び位置符号化を行い、かつ履歴出力の符号化結果及びエンコーダ出力の特徴符号化等を結合し、Ｍ階層カスケイド接続されたＡｔｔｅｎｔｉｏｎモジュール及び残差モジュール等を利用して出力結果を得て、Ｎ及びＭの具体的な値はいずれも実際の需要に応じて決定することができる。

図５に示すように、標準的なＴｒａｎｓｆｏｒｍｅｒモデルと異なり、本開示に記載のストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルにおいて、各アテンション構造にそれぞれ時間マスク（Ｔｉｍｅｍａｓｋ）操作を追加し、それにより前記時間マスク操作を利用してストリーミング型の音節変換を実現し、それによりデコード結果のストリーミング型出力の機能を実現する。

上記説明に基づいて、図６は本開示に記載のオフライン音声認識の実現プロセスの概略図である。

図６に示すように、オフラインデコードシステム及び音節変換システムはオフライン音声認識システムを構成し、認識対象となる音声データに対して、まずオフラインデコードシステムにおける音節デコーダにより音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードし、それにより音節認識結果を取得する。

音節デコーダはニューラルネットワーク（ＮＮ、ＮｅｕｒａｌＮｅｔｗｏｒｋ）言語モデルに基づく中国語・英語音節デコーダであってもよく、音響モデルは低フレームレートのエンドツーエンドのＳＭＬＴＡモデルであってもよく、言語モデルはＬＳＴＭモデルであってもよく、かつ、４－ｂｉｔ量子化方法を用いてＬＳＴＭ言語モデルのモデル体積を圧縮することができる。

図６に示すように、オフラインデコードシステムから出力された音節認識結果について、音節変換システムにおけるストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルを利用して、音節認識結果を対応する文字に変換し、それにより認識対象となる音声データの音声認識結果を取得することができる。

説明すべきものとして、前述の方法実施例に対して、簡単に説明するために、それを一連の動作組合せと表記するが、当業者であれば、本開示は記述された動作順序に限定されるものではなく、本開示によれば、一部のステップは他の順序で又は同時に行うことができることを知っておくべきである。次に、当業者であれば、明細書に説明された実施例はいずれも好ましい実施例に属し、係る動作及びモジュールは必ずしも本開示に必要なものではないことも知っておくべきである。

以上は方法実施例についての説明であり、以下に装置実施例により、本開示に記載の技術案をさらに説明する。

図７は本開示に記載のオフライン音声認識装置７０の実施例の構成構造概略図である。図７に示すように、オフラインデコードモジュール７０１と音節変換モジュール７０２とを含む。

オフラインデコードモジュール７０１は、認識対象となる音声データを音節認識結果にデコードするために用いられる。

音節変換モジュール７０２は、音節認識結果を対応する文字に変換し、得られた対応する文字を音声データの音声認識結果とするために用いられる。

認識対象となる音声データを音節認識結果にデコードする時に、具体的には、オフラインデコードモジュール７０１は音節デコーダを利用して音声データをデコードすることができ、それにより音節認識結果を取得する。ここで、音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードすることに用いられる。

好ましくは、音響モデルはエンドツーエンドのＳＭＬＴＡモデルであってもよく、及び／又は、言語モデルはＬＳＴＭ言語モデルであってもよい。

ここで、ＳＭＬＴＡモデルは低フレームレートのＳＭＬＴＡモデルであってもよい。なお、オフラインデコードモジュール７０１はさらに４－ｂｉｔ量子化方法を用いてＬＳＴＭ言語モデルのモデル体積を圧縮することにより、ＬＳＴＭ言語モデルの体積をさらに低減することができる。

音節デコーダの出力は音節認識結果であり、すなわち一つの音節シーケンスであり、一般的なユーザにとって認識できないため、認識結果の可読性を満たすために、音節変換モジュール７０２はさらに音節認識結果を対応する文字に変換し、即ち音節シーケンスを対応する文字シーケンスに変換する必要がある。

具体的には、音節変換モジュール７０２はストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルを利用して、音節認識結果を対応する文字に変換することができる。

ストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルは標準的なＴｒａｎｓｆｏｒｍｅｒモデルの構造と類似し、異なることは、音節変換モジュール７０２はさらにストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルにおける各アテンション構造にそれぞれ時間マスク操作を追加することにより、前記時間マスク操作を利用してストリーミング型の音節変換を実現することができることである。

図７に示す装置実施例の具体的な動作フローは前述の方法実施例における関連説明を参照し、説明を省略する。

要するに、本開示の装置実施例に記載の技術案を採用し、音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を得て、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。

本開示に記載の技術案は人工知能分野に応用することができ、特に音声認識、自然言語処理及びディープ・ラーニング等の分野に関する。

人工知能は、コンピュータに人間のある思考過程及びインテリジェント行為（例えば、学習、推論、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習／ディープ・ラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。

本開示の実施例によれば、本開示はさらに電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムを提供する。

図８は、本開示の実施例を実施することが可能な例示的な電子機器８００を示す模式的なブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表することを意図する。電子機器はさらに様々な形式の移動装置を表することができ、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図８に示すように、電子機器８００は計算ユニット８０１を含み、それはリードオンリーメモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム又は記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ８０３において、さらに電子機器８００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット８０１、ＲＯＭ８０２、およびＲＡＭ８０３は、バス８０４により相互に接続されている。バス８０４には、さらに、入出力（Ｉ／Ｏ）インターフェース８０５が接続されている。

電子機器８００における複数の部品はＩ／Ｏインターフェース８０５に接続され、例えばキーボード、マウス等である入力ユニット８０６と、例えば様々なタイプのディスプレイ、スピーカ等である出力ユニット８０７と、例えば磁気ディスク、光ディスク等である記憶ユニット８０８と、例えばネットワークカード、モデム、無線通信トランシーバ等である通信ユニット８０９と、を含む。通信ユニット８０９は、電子機器８００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信ネットワークを介して、他の装置と情報／データをやり取りすることを可能にする。

計算ユニット８０１は、各種の処理および計算能力を有する汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット８０１としては、中央処理ユニット（ＣＰＵ）、図形処理ユニット（ＧＰＵ）、各種専用の人工知能（ＡＩ）計算チップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット８０１は上記説明した各方法及び処理を実行し、例えば本開示に記載の方法を実行する。例えば、いくつかの実施例において、本開示に記載の方法はコンピュータソフトウェアプログラムとして実現されてもよく、それは機械読取可能な媒体、例えば記憶ユニット８０８に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はＲＯＭ８０２及び／又は通信ユニット８０９を介して電子機器８００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ８０３にロードされ、かつ計算ユニット８０１により実行される場合、本開示に記載の方法の一つ又は複数のステップを実行することができる。代替として、他の実施例において、計算ユニット８０１は、他の任意の適切な方式により（例えば、ファームウェアによって）本開示に記載の方法を実行するように構成されてもよい。

本文で以上に説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システム・オン・チップのシステム（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実現され得る。これらの各種実施形態は、１つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この１つ又は複数のコンピュータプログラムが、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び／又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも１つの入力装置と、少なくとも１つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも１つの入力装置と、この少なくとも１つの出力装置とに転送してもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せによって書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されて、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び／又はブロック図に規定された機能・操作が実施されるようにしてもよい。プログラムコードは、完全に機器上に実行されてもよいし、部分的に機器上に実行されてもよく、独立ソフトウェアパッケージとして部分的に機器上に実行され且つ部分的に遠隔機器上に実行され、或いは完全に遠隔機器又はサーバ上に実行される。

本開示のコンテキストにおいて、機器読取可能な媒体は、有形的な媒体であってもよく、それが、コマンド実行システム、装置又は機器に使用され、又はコマンド実行システム、装置又は機器と組合せて使用されるプログラムを含み、或いは記憶してもよい。機器読取可能な媒体は、機器読取可能な信号媒体や、機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子的なもの、磁性的なもの、光学的なもの、電磁的なもの、赤外のもの、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組合せを含むが、これらに限られない。機器読取可能な記憶媒体のより具体的な例示は、１つ又は複数のラインによる電気接続、携帯コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は上記内容の任意の適宜な組合せを含む。

ユーザとのインタラクションを提供するために、コンピュータでここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及び指向装置（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（声入力、語音入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとする）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカル・ユーザ・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザ・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）と、広域ネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント－サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバはクラウドサーバであってもよく、クラウド計算サーバ又はクラウドホストと呼ばれ、クラウド計算サービスシステムのうちの一つのホスト製品であり、従来の物理ホストと仮想専用サーバ（ＶＰＳ）において、存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分散システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。

上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本開示に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。

上述した具体的な実施形態は、本開示の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本開示の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本開示の保護範囲内に含まれるべきである。

７０オフライン音声認識装置
７０１オフラインデコードモジュール
７０２音節変換モジュール
８０１計算ユニット
８０２ＲＯＭ
８０３ＲＡＭ
８０８記憶ユニット

Claims

認識対象となる音声データを音節認識結果にデコードすることと、
前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とすることと、を含み、
前記音節認識結果を対応する文字に変換することは、
ストリーミング型の変換器Ｔｒａｎｓｆｏｒｍｅｒモデルを利用して、前記音節認識結果を対応する文字に変換することを含み、
前記ストリーミング型のＴｒａｎｓｆｏｒｍｅｒモデルを利用して、前記音節認識結果を対応する文字に変換することは、
前記Ｔｒａｎｓｆｏｒｍｅｒモデルにおける各アテンション構造において、それぞれ時間マスク操作を追加し、前記時間マスク操作を利用して、ストリーミング型の音節変換を実現することを含む、
オフライン音声認識方法。
前記認識対象となる音声データを音節認識結果にデコードすることは、
音節デコーダを利用して、前記音声データをデコードし、前記音節認識結果を取得することを含み、
前記音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して前記音声データをデコードするために用いられる、
請求項１に記載の方法。
前記音響モデルは、エンドツーエンドのストリーミング型多層切断アテンションＳＭＬＴＡモデルを含む、及び／又は、
前記言語モデルは、長短期記憶ネットワークＬＳＴＭ言語モデルを含む、
請求項２に記載の方法。
４－ビット量子化方法を採用して、前記ＬＳＴＭ言語モデルのモデル体積を圧縮することをさらに含む、
請求項３に記載の方法。
オフラインデコードモジュール及び音節変換モジュールを含み、
前記オフラインデコードモジュールは、認識対象となる音声データを音節認識結果にデコードするために用いられ、
前記音節変換モジュールは、前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とするために用いられ、
前記音節変換モジュールは、ストリーミング型の変換器Ｔｒａｎｓｆｏｒｍｅｒモデルを利用して、前記音節認識結果を対応する文字に変換し、
前記音節変換モジュールは、前記Ｔｒａｎｓｆｏｒｍｅｒモデルにおける各アテンション構造において、それぞれ時間マスク操作を追加し、前記時間マスク操作を利用して、ストリーミング型の音節変換を実現する、
オフライン音声認識装置。
前記オフラインデコードモジュールは、音節デコーダを利用して、前記音声データをデコードし、音節認識結果を取得し、
前記音節デコーダは、音節に基づく音響モデル及び音節に基づく言語モデルを結合して、前記音声データをデコードするために用いられる、
請求項５に記載の装置。
前記音響モデルは、エンドツーエンドのストリーミング型多層切断アテンションＳＭＬＴＡモデルを含む、及び／又は、
前記言語モデルは、長短期記憶ネットワークＬＳＴＭ言語モデルを含む、
請求項６に記載の装置。
前記オフラインデコードモジュールは、さらに、
４－ビット量子化方法を採用して、前記ＬＳＴＭ言語モデルのモデル体積を圧縮するために用いられる、
請求項７に記載の装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項１～４のいずれか一項に記載の方法を実行することができる、
電子機器。
コンピュータに請求項１～４のいずれか一項に記載の方法を実行させるために用いられるコンピュータ命令を記憶している、
非一時的なコンピュータ読取可能な記憶媒体。
プロセッサにより実行される時に、請求項１～４のいずれか一項に記載の方法を実現する、コンピュータプログラム。