JP2022020724A

JP2022020724A - ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022020724A
Application number: JP2021178830A
Authority: JP
Inventors: シャオ，ジュンヤオ; Junyao Shao; チィェン，シェン; Sheng Qian
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-18
Filing date: 2021-11-01
Publication date: 2022-02-01
Anticipated expiration: 2041-11-01
Also published as: CN112382278A; JP7308903B2; US20220068265A1; CN112382278B

Abstract

【課題】ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションする。文末は、オーディオストリームの入力の終了を表す。現在の認識対象の音声セグメントが目標音声セグメントである場合、第１の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行い、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行い、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。【選択図】図１

Description

本出願は、コンピュータ技術の分野に関し、特に、音声技術、深層学習技術及び自然言語処理技術の分野に関し、具体的には、ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体に関する。

音声認識とは、コンピュータを介して音声信号を対応するテキストに変換するプロセスであり、マンマシンインタラクションを実現するための主要なルートの１つである。リアルタイム音声認識とは、受信された連続的な音声に対して、音声の各セグメントを認識することにより、すべての音声の入力が完了してから認識プロセスを開始する必要がなく、認識結果をリアルタイムに取得することができる。大規模な語彙量のオンライン連続的な音声認識において、システム性能に影響を与える重要な要素は、システムの認識精度及び応答速度である。例えば、ユーザが、発話しながら認識結果のリアルタイム表示が見られることを期待するシナリオにおいて、音声認識システムは、高認識率を保持しつつ、音声信号を適時かつ迅速に復号化して認識結果を出力する必要がある。しかしながら、関連技術において、リアルタイム音声認識結果の画面表示効果には、画面表示速度が遅かったり、表示された音声認識結果が不正確だったりするなどの問題が存在する。

本出願は、ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体を提供する。

本出願の第１の態様によれば、ストリーミング音声認識結果の表示方法を提供し、入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするステップと、前記現在の認識対象の音声セグメントが前記目標音声セグメントである場合、第１の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、前記現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示するステップと、を含む。

本出願の第２の態様によれば、ストリーミング音声認識結果の表示装置を提供し、入力されたオーディオストリームの複数の連続的な音声セグメントを取得するための第１の取得モジュールと、前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするためのシミュレーションモジュールと、前記現在の認識対象の音声セグメントが前記目標音声セグメントである場合、第１の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行い、前記現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うための特徴抽出モジュールと、前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示するための音声認識モジュールと、を含む。

本出願の第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが本出願の第１の態様の実施例に記載のストリーミング音声認識結果の表示方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本出願の第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本出願の第１の態様の実施例に記載のストリーミング音声認識結果の表示方法を実行させる。
本出願の第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに本出願の第１の態様の実施例に記載のストリーミング音声認識結果の表示方法を実行させる。

本出願の技術によれば、従来技術におけるリアルタイム音声認識結果の画面表示効果に存在している、画面表示速度が遅かったり、表示された音声認識結果が不正確だったりするなどの問題を解決し、ストリーミング入力に対して文末をシミュレーションする方式により、ストリーミングアテンションモデルのデコーダの結果を更新し、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示効果に基づいてＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ、テキスト読み上げ）リソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができる。

なお、本部分に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
従来技術におけるストリーミング音声認識結果の表示の例示図である。本出願の実施例に係る音声認識の処理プロセスを示す概略図である。本出願の一実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。本出願の実施例に係るストリーミング音声認識結果の表示効果の例示図である。本出願の別の実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。本出願のさらに別の実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。本出願の一実施例に係るストリーミング音声認識結果の表示装置の構成のブロック図である。本出願の別の実施例に係るストリーミング音声認識結果の表示装置の構成のブロック図である。本出願の実施例に係るストリーミング音声認識結果の表示方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

本出願の実施例の説明では、用語「…含む」及びそれに類似する用語は、「…含むがそれらに限定されない」という非限定の表現として理解すべきである。用語「…に基づいて」は、「少なくとも部分的に…基づいて」と理解すべきである。用語「一実施例」又は「該実施例」は、「少なくとも１つの実施例」と理解すべきである。用語「いくつかの実施例」は、「少なくともいくつかの実施例」と理解すべきである。以下では、他の明確かつ暗黙的な定義がさらに含まれ得る。

コネクショニスト時系列分類（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ、ＣＴＣと略称する）モデルは、大規模な語彙量の音声認識に用いられるエンドツーエンドのモデルであり、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ、深層ニューラルネットワーク）＋ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、隠れマルコフモデル）を混合する音響モデルの構造が完全に統一されたニューラルネットワーク構造によって代替され、これによって音響モデルの構造及びトレーニングの難しさを大幅に簡略化し、音声認識システムの精度をさらに向上させる。また、ＣＴＣモデルの出力結果には、音声信号のスパイク情報が含まれ得る。

アテンション（Ａｔｔｅｎｔｉｏｎ）モデルは、エンコーダ－デコーダモデルに対する拡張であり、長いシーケンスでの予測結果を向上させることができる。先ずＧＲＵ（ＧａｔｅＲｅｃｕｒｒｅｎｔＵｎｉｔ、循環ニューラルネットワークの１つ）又はＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長短期記憶ネットワーク）モデルを用いて、入力されたオーディオ特徴を符号化して暗黙的な特徴を取得し、続いてアテンションモデルを介してこれらの暗黙的な特徴の異なる部分に対して対応する重みを割り当て、最後にデコーダは、モデリング粒度の違いに基づいて対応する結果を出力する。このような音響と言語モデルの共同モデリングの方式は、音声認識システムの複雑度をさらに簡素化することができる。

ストリーミングマルチレイヤーの切断アテンション（ＳｔｒｅａｍｉｎｇＭｕｌｔｉ－ＬａｙｅｒＴｒｕｎｃａｔｅｄＡｔｔｅｎｔｉｏｎ、ＳＭＬＴＡと略称する）モデルは、ＣＴＣ及びアテンションに基づくストリーミング音声認識モデルである。ストリーミングは、音声の小さなセグメント（必ずしも文全体ではなく）に対してフラグメントごとに直接インクリメンタル復号化できることを表す。マルチレイヤは、マルチレイヤアテンションモデルを積層することを表す。切断は、ＣＴＣモデルのスパイク情報を使用して、音声を、アテンションモデルのモデリング及び復号化が展開可能な複数の小さなセグメントに分割することを表す。ＳＭＬＴＡは、従来のグローバルアテンションモデリングをローカルアテンションモデリングに変換し、このプロセスもストリーミング実現可能なプロセッサであり、文の長さにも関わらず、切断することによってストリーミング復号化及び正確なローカルアテンションモデリングを実現することができ、それによりストリーミング復号化が実現される。

本出願の発明者らは、ＳＭＬＴＡモデルを介してストリーミング音声認識を行う場合、すべての認識結果を迅速に画面に表示するために、関連技術において、一般的に、ＳＭＬＴＡモデルにおけるＣＴＣモジュールの出力結果をアテンションデコーダの出力結果とスプライシングする方式により、認識結果のストリーミング画面表示を実現することを発見した。しかしながら、ＳＭＬＴＡモデル自体の特性により、ＳＭＬＴＡモデルにおけるＣＴＣモジュールの出力結果とアテンションデコーダの出力結果自体は、同じではなく、両者をスプライシングすると、接続点が見つからないという問題が発生し、画面表示効果が不正確で不安定になり、これにより音声インタラクションの体験に影響を与える可能性がある。例えば、図１に示すように、

というオーディオコンテンツを例として、当該オーディオをＳＭＬＴＡモデルを用いてリアルタイムに音声認識するときに、ＣＴＣモジュールの出力結果はエラー率がより高いため、ストリーミング画面表示の間、アテンションデコーダは、ＣＴＣモジュールに対するポスト切断に依存して復号化し、ストリーミング復号化中に、アテンションデコーダの出力長さがＣＴＣモジュールの出力長さよりも短くなり、例えば、図１に示すように、アテンションデコーダの出力結果がＣＴＣモジュールの出力結果よりも２文字少なく、スプライシングを行った結果は、

が得られ、これにより、当該画面表示の結果は正確ではないことが分かる。

上記リアルタイム音声認識結果の画面表示効果には、画面表示速度が遅かったり、表示された音声認識結果が不正確だったりするなどの問題が往々にして存在することに対して、本出願は、ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体を提出する。本出願の実施例に係るストリーミング音声認識結果の表示方案において、ストリーミング入力に対して文末をシミュレーションする方式により、ストリーミングアテンションモデルのデコーダの結果を更新し、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させる。以下に、図２～９を参照して本出願の実施例のいくつかの例示を詳細に説明する。

図２は、本出願の実施例に係る音声認識の処理プロセス２００を示す概略図である。通常、音声認識システムは、音響モデル、言語モデル及びデコーダなどのコンポーネントを含むことができる。図２に示すように、収集された音声信号２１０が取得された後、先ずブロック２２０において音声信号２１０に対して、後続の音響モデルなどによる処理のために、入力された音声信号２１０から特徴を抽出することを含む信号処理及び特徴抽出を行う。選択的に、特徴抽出プロセスには、環境ノイズ又は他の要素による特徴への影響を低減するために、いくつかの他の信号処理技術も含まれる。

図２を参照すると、特徴抽出２２０が完了した後、抽出された特徴をデコーダ２３０に入力し、デコーダ２３０によって処理してテキスト認識結果２４０を出力する。具体的には、デコーダ２３０は、音声から発音セグメントへの変換を実現できる音響モデル２３２、及び発音セグメントからテキストへの変換を実現できる言語モデル２３４に基づいて、最大確率で出力される音声信号のテキストシーケンスを検索する。

音響モデル２３２は、発音セグメントに対して音響及び言語の共同モデリングを行うために用いられ、そのモデリングユニットは、例えば、音節であってもよく、本出願のいくつかの実施例において、音響モデル２３２は、ストリーミングマルチレイヤーの切断アテンション（ＳＭＬＴＡ）モデルであってもよく、ここで、ＳＭＬＴＡモデルは、ＣＴＣモデルのスパイク情報を使用して、音声を複数の小さなセグメントに分割して、アテンションモデルのモデリング及び復号化を各小さなセグメントで展開させることができる。このようなＳＭＬＴＡモデルは、リアルタイムのストリーミング音声認識をサポートし、高い認識精度を実現することができる。

言語モデル２３４は、言語をモデリングするためのものである。一般的に、統計的なＮグラム文法（Ｎ－Ｇｒａｍ）を使用でき、すなわち、前後にＮ個の文字のが出現する確率を統計する。なお、任意の既知又は将来開発される言語モデルは、本出願の実施例と組み合わせて使用することができる。いくつかの実施例において、音響モデル２３２は、音声データベースに基づいてトレーニング及び／又は動作することができるが、言語モデル２３４は、テキストデータベースに基づいてトレーニング及び／又は動作することができる。

デコーダ２３０は、音響モデル２３２及び言語モデル２３４の出力認識結果に基づいて、動的に復号化することを実現することができる。ある音声認識のシナリオにおいて、ユーザがユーザ機器に発話しており、ユーザによって生じた音声（及び音）がユーザ機器によって収集され、例えば、ユーザ機器の音収集機器（例えば、マイクロフォン）によって音声を収集できる。ユーザ機器は、音声信号を収集できる任意の電子機器であってもよく、スマートフォン、タブレット、デスクトップコンピュータ、ノートパソコン、スマートウェアラブルデバイス（スマートウォッチ、スマート眼鏡など）、ナビゲーションデバイス、マルチメディアプレーヤーデバイス、教育デバイス、ゲームデバイス、スマートスピーカーなどを含むが、これらに限定されない。ユーザ機器は、収集のプロセスにおいて、音声をネットワークによってサーバにセグメント化して送信することができ、サーバは、リアルタイムかつ正確な音声認識を実現できる音声認識モデルを含み、認識完了後、認識結果をネットワークによってユーザ機器に送信することができる。本出願の実施例に係るストリーミング音声認識結果の表示方法は、ユーザ機器で実行されてもよく、サーバで実行されてもよく、又は一部がユーザ機器で実行されるが、他の一部がサーバで実行されてもよいことを理解されたい。

図３は、本出願の一実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。なお、本出願の実施例のストリーミング認識結果の表示方法は、電子機器（例えば、ユーザ機器）、又はサーバ、又はそれらの組み合わせによって実行されてもよい。図３に示すように、当該ストリーミング音声認識結果の表示方法は、以下のステップ３０１～３０４を含むことができる。

ステップ３０１において、入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションする。ここで、本出願の実施例において、当該文末は、オーディオストリームの入力の終了を表す。

選択的に、入力されたオーディオストリームの複数の連続的な音声セグメントが取得される場合、先ず複数の連続的な音声セグメントから目標音声セグメントを探し出してから、当該目標音声セグメントの末尾を文末としてシミュレーションすることができる。これにより、目標音声セグメントの末尾で文末をシミュレーションすることにより、現在完全なオーディオが受信されたとストリーミングマルチレイヤーの切断アテンションモデルを騙すことができ、これによってストリーミングマルチレイヤーの切断アテンションモデルにおけるアテンションデコーダが現在の完全な認識結果を適時に出力することができる。

ステップ３０２において、現在の認識対象の音声セグメントが目標音声セグメントである場合、第１の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。

なお、文末記号が含まれる音声セグメントの特徴抽出方式は、文末記号が含まれない音声セグメントの特徴抽出方式と異なるため、現在の認識対象の音声セグメントに対して特徴シーケンス抽出を行う場合、先に現在の認識対象の音声セグメントが目標音声セグメントであるか否かを判断し、判断結果に基づいて異なる特徴抽出方式を採用することができる。

選択的に、現在の認識対象の音声セグメントが目標音声セグメントであるか否かを判断し、現在の認識対象の音声セグメントが目標音声セグメントである場合、すなわち、現在の認識対象の音声セグメントの末尾に文末を識別するための記号が追加されている場合、当該現在の認識対象の音声セグメントをエンコーダに入力して特徴抽出を行うことができ、現在の認識対象の音声セグメントの末尾に文末記号が含まれるため、エンコーダは、当該現在の認識対象の音声セグメントの特徴シーケンスを取得するように、第１の特徴抽出方式に基づいて当該現在の認識対象の音声セグメントに対して特徴抽出を行う。

つまり、特徴シーケンスは、エンコーダが第１の特徴抽出方式を採用して現在の認識対象の音声セグメントを符号化することによって取得することができる。例えば、現在の認識対象の音声セグメントが目標音声セグメントである場合、エンコーダは、第１の特徴抽出方式に基づいて現在の認識対象の音声セグメントを、現在の認識対象の音声セグメントの特徴シーケンスである暗黙的な特徴シーケンスとして符号化する。

ステップ３０３において、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。

選択的に、現在の認識対象の音声セグメントが非音声セグメントであると判断された場合、すなわち、現在の認識対象の音声セグメントの末尾セグメントに文末を認識するための記号が含まれない場合、当該現在の認識対象の音声セグメントをエンコーダに入力して特徴抽出を行うことができ、現在の認識対象の音声セグメントの末尾に文末記号が含まれないため、エンコーダは、当該現在の認識対象の音声セグメントの特徴シーケンスを取得するように、第２の特徴抽出方式に基づいて当該現在の認識対象の音声セグメントに対して特徴抽出を行う。

つまり、特徴シーケンスは、エンコーダが第２の特徴抽出方式を採用して現在の認識対象の音声セグメントを符号化することによって取得することができる。例えば、現在の認識対象の音声セグメントが非音声セグメントである場合、エンコーダは、第２の特徴抽出方式に基づいて現在の認識対象の音声セグメントを、現在の認識対象の音声セグメントの特徴シーケンスである暗黙的な特徴シーケンスとして符号化する。

ステップ３０４において、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。

本出願のいくつかの実施例において、ストリーミングマルチレイヤーの切断アテンションモデルは、コネクショニスト時系列分類（ＣＴＣ）モジュール及びアテンションデコーダを含むことができる。本出願の実施例において、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力することができる。コネクショニスト時系列分類（ＣＴＣ）モジュールにより現在の認識対象の音声セグメントの特徴シーケンスに対してコネクショニスト時系列分類（ＣＴＣ）処理を行い、現在の認識対象の音声セグメントに関連するスパイク情報を取得し、現在の認識対象の音声セグメント及びスパイク情報に基づいて、アテンションデコーダによってリアルタイム認識結果を取得する。

一例として、コネクショニスト時系列分類モジュールにより現在の認識対象の音声セグメントの特徴シーケンスに対してコネクショニスト時系列分類（ＣＴＣ）処理を行い、現在の認識対象の音声セグメントに関連するスパイク情報を取得し、取得されたスパイク情報に基づいて、現在の認識対象の音声セグメントの特徴シーケンスの切断情報を決定し、切断情報に基づいて当該現在の認識対象の音声セグメントの特徴シーケンスを複数のサブシーケンスに切断し、複数のサブシーケンスに基づいて、アテンションデコーダによってリアルタイム認識結果を取得する。

いくつかの実施例において、切断情報は、特徴シーケンスに対してコネクショニスト時系列分類（ＣＴＣ）処理を行うことによって取得された、現在の認識対象の音声セグメントに関連するスパイク情報であってもよく、ＣＴＣ処理は、スパイクのシーケンスを出力することができ、スパイクの間は、空白（ｂｌａｎｋ）で区切るすることができ、ここで、１つのスパイクは、１つの音節（ｓｙｌｌａｂｌｅ）又は一群の音素（ｐｈｏｎｅ）、例えば、高周波数音素の組合せを表すことができる。なお、本明細書の以下の部分においてＣＴＣスパイク情報を用いて切断情報を提供する一例として説明するが、従来又は将来開発される、入力された音声信号の切断情報を提供できるいずれかの他のモデル及び／又はアルゴリズムは、本出願の実施例と組み合わせて使用することもできる。

一例として、アテンションデコーダにより切断情報に基づいて現在の認識対象の音声セグメントの特徴シーケンス（例えば、暗黙的な特徴シーケンス）を１つ１つの暗黙的な特徴サブシーケンスに切断することができ、ここで、暗黙的な特徴シーケンスは、音声信号の特徴を表すベクトルであってもよい。例えば、暗黙的な特徴シーケンスは、直接観測して取得できないが、観測可能な変数によって決定できる特徴ベクトルを指すことができる。従来技術における固定長を使用する切断方式と異なり、本開示の実施例は、音声信号に基づいて決定された切断情報を使用して特徴切断を行い、有効な特徴部分の排除を回避することにより、高い精度を実現できる。

本出願の実施例において、現在の認識対象の音声セグメントの暗黙的な特徴サブシーケンスが取得された後、アテンションデコーダは、切断によって生成された各暗黙的な特徴サブシーケンスに対して、アテンションモデルにより認識結果を取得し、ここで、アテンションモデルは、重み付け特徴選択を実現して暗黙的な特徴の異なる部分に対して対応する重みを割り当てることができる。従来又は将来開発される、アテンション機構に基づくいずれかのモデル及び／又はアルゴリズムは、本出願の実施例と組み合わせて使用することができる。したがって、本出願の実施例は、従来のアテンションモデルに音声信号に基づいて決定された切断情報を導入することにより、切断のそれぞれに対してアテンションモデリングを実行するようにアテンションモデルを指導でき、連続的な音声認識を実現できるだけでなく、高精度を確保することもできる。

いくつかの実施例において、暗黙的な特徴シーケンスが複数のサブシーケンスに切断された後、複数のサブシーケンスのうちの第１のサブシーケンスに対して、アテンションモデルの第１のアテンションモデリングを実行し、複数のサブシーケンスのうちの第２のサブシーケンスに対して、アテンションモデルの第２のアテンションモデリングを実行することができ、ここで、第１のアテンションモデリングは、第２のアテンションモデリングと異なる。つまり、本出願の実施例は、ローカルで切断されたアテンションモデルのアテンションモデリングを可能にする。

後続のストリーミングコンピューティングの正常な進行を確保するために、選択的に、本出願のいくつかの実施例において、現在の認識対象の音声セグメントから抽出された特徴シーケンスがストリーミングマルチレイヤーの切断アテンションモデルに入力された後、ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶する。ここで、本出願の実施例において、現在の認識対象の音声セグメントが目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスがストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、ストリーミングマルチレイヤーの切断アテンションモデルに基づいて目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得し、記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、ストリーミングマルチレイヤーの切断アテンションモデルによって次の認識対象の音声セグメントのリアルタイム認識結果を取得する。

つまり、画面にストリーミング表示する前に、ストリーミングマルチレイヤーの切断アテンションモデルの現在のモデル状態を記憶することができる。ストリーミングマルチレイヤーの切断アテンションモデルによって、文末がシミュレーションされた現在の認識対象の音声セグメントの認識を完了して画面に表示する場合、記憶されたモデル状態をモデルキャッシュに復元することにより、次の認識対象の音声セグメントの音声認識時に、記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、ストリーミングマルチレイヤーの切断アテンションモデルによって、当該次の認識対象の音声セグメントのリアルタイム認識結果を取得することができる。これにより、画面にストリーミング表示する前にモデル状態を記憶することにより、次の認識対象の音声セグメントを認識するときに、記憶されたモデル状態をモデルキャッシュに復元することにより、後続のストリーミングコンピューティングの正常な進行を確保することができる。

なお、アテンションデコーダは、完全なオーディオを受信した後、完全な認識結果を出力し、ストリーミング音声のすべての認識結果をできるだけ早く画面に表示し、すなわち、アテンションデコーダの認識結果の出力速度を速くするために、本出願の実施例は、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションすることにより、現在既に完全なオーディオが受信されたとストリーミングマルチレイヤーの切断アテンションモデルを騙し、ストリーミングマルチレイヤーの切断アテンションモデル内のアテンションデコーダが現在の完全な認識結果を適時に出力することができる。例えば、図４に示すように、

というストリーミング音声セグメントを例として、当該音声セグメントの末尾で現在が文末であることをシミュレーションした後、アテンションデコーダは、完全な認識結果を出力でき、この時の認識結果は、往々にして実際の認識結果により近く、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示結果に基づいてＴＴＳリソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができる。

図５は、本出願の別の実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。図５に示すように、当該ストリーミング音声認識結果の表示方法は、以下のステップ５０１～５０５を含むことができる。

ステップ５０１において、入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、複数の連続的な音声セグメントのうちの各音声セグメントを目標音声セグメントとして決定する。

ステップ５０２において、目標音声セグメントの末尾を文末としてシミュレーションする。ここで、当該文末は、オーディオストリームの入力の終了を表す。

つまり、オーディオストリームの複数の連続的な音声セグメントを取得する際、複数の連続的な音声セグメントのうちの各音声セグメントの末尾を文末としてシミュレーションすることができる。

ステップ５０３において、現在の認識対象の音声セグメントが目標音声セグメントである場合、第１の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。

ステップ５０４において、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。

ステップ５０５において、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。

なお、上記ステップ５０３～ステップ５０５の実現方式は、上記図３におけるステップ３０２～３０４の実現方式を参照することができ、ここで説明を省略する。

本出願の実施例のストリーミング音声認識結果の表示方法によれば、ストリーミングマルチレイヤーの切断アテンションモデルは、完全なオーディオを受信するときに完全なアテンションデコーダの認識結果を出力し、そうしないと、アテンションデコーダの認識出力結果は、常にＣＴＣモジュールの認識出力結果よりも短く、ストリーミング音声認識結果の画面表示速度を向上できるために、本出願の実施例には、画面にストリーミング表示する前に、オーディオストリームの複数の連続的な音声セグメントのうちの各音声セグメントの末尾を文末としてシミュレーションし、既に完全なオーディオが受信されたとモデルを騙し、アテンションデコーダに完全な認識結果を出力させることにより、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示効果に基づいてＴＴＳリソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができることが提供されている。

図６は、本出願の他の実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。なお、文末がシミュレーションされた現在の認識対象の音声セグメントを認識する際に、モデル状態を予め記憶し、複数回の完全な計算を行い、状態を後退する必要があり、このような計算自体は、計算量に対する消耗が大きいため、最終的な認識結果を事前に出力する（すなわち、ストリーミング音声認識結果の速度を向上させる）ことを確保するとともに、計算量の増加が制御可能な範囲内にあることも確保するために、本出願の実施例において、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントに無音データが含まれている場合、当該現在の音声セグメントの末尾を文末としてシミュレーションする。具体的には、図６に示すように、当該ストリーミング音声認識結果の表示方法は、以下のステップ６０１～６０６を含むことができる。

ステップ６０１において、入力されたオーディオストリームの複数の連続的な音声セグメントを取得する。

ステップ６０２において、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定する。

一例として、複数の連続的な音声セグメントのうちの現在の音声セグメントに対して音声アクティビティ検出を行うことができ、当該検出は、音声境界検出となり得る。主に音声セグメントにおける音声アクティビティ信号の検出に用いられ、音声セグメントデータにおいて、連続的な音声信号が存在する有効なデータ、及び音声信号データが存在しない無音データを決定する。ここで、連続的な音声信号データが存在しない無音セグメントは音声セグメント内の無効なサブセグメントである。このステップにおいて、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントによって音声境界検出を行って、当該現在の音声セグメントの末尾セグメントが無効なセグメントであるか否かを判断することができる。

本出願の実施例において、現在の音声セグメントの末尾セグメントが無効なセグメントである場合、ステップ６０３を実行する。現在の音声セグメントの末尾セグメントが無効なセグメントでない場合、当該現在の音声セグメントが非目標音声セグメントであると見なされ、この時、ステップ６０５を実行することができる。

ステップ６０３において、現在の音声セグメントを目標音声セグメントとして決定し、目標音声セグメントの末尾を文末としてシミュレーションし、ここで、文末は、オーディオストリームの入力の終了を表す。

ステップ６０４において、現在の認識対象の音声セグメントが目標音声セグメントである場合、第１の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。

ステップ６０５において、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。

ステップ６０６において、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。

なお、上記ステップ６０４～ステップ６０６の実現方式は、上記図３におけるステップ３０２～３０４の実現方式を参照することができ、ここで説明を省略する。

本出願の実施例のストリーミング音声認識結果の表示方法によれば、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定し、そうである場合、現在の音声セグメントを目標音声セグメントとして決定し、この時に、目標音声セグメントの末尾を文末としてシミュレーションすることにより、現在既に完全なオーディオが受信されたとストリーミングマルチレイヤーの切断アテンションモデルを騙し、ストリーミングマルチレイヤーの切断アテンションモデル内のアテンションデコーダが現在の完全な認識結果を適時に出力することができる。これにより、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが無音データを含むか否かという判断を追加することにより、末尾セグメントに無音データが含まれる音声セグメントを目標音声セグメントとし、すなわち、無音データが含まれる末尾セグメントにおいて文末をシミュレーションすることにより、最終的な認識結果を事前に出力する（すなわち、ストリーミング音声認識結果の速度を向上させる）とともに、計算量の増加が制御可能な範囲にあることも確保することができる。

図７は、本出願の一実施例に係るストリーミング音声認識結果の表示装置の構成のブロック図である。図７に示すように、当該ストリーミング音声認識結果の表示装置は、第１の取得モジュール７０１、シミュレーションモジュール７０２、特徴抽出モジュール７０３及び音声認識モジュール７０４を含むことができる。

具体的には、第１の取得モジュール７０１は、入力されたオーディオストリームの複数の連続的な音声セグメントを取得する。

シミュレーションモジュール７０２は、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、オーディオストリームの入力の終了を表す文末としてシミュレーションする。本出願のいくつかの実施例において、シミュレーションモジュール７０２は、複数の連続的な音声セグメントのうちの各音声セグメントを目標音声セグメントとして決定し、目標音声セグメントの末尾を文末としてシミュレーションする。

最終的な認識結果を事前に出力することを確保するとともに、計算量の増加が制御可能な範囲にあることも確保できるように、本出願のいくつかの実施例において、シミュレーションモジュール７０２は、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定し、現在の音声セグメントの末尾セグメントが無効なセグメントである場合、現在の音声セグメントを目標音声セグメントとして決定し、目標音声セグメントの末尾を文末としてシミュレーションする。

特徴抽出モジュール７０３は、現在の認識対象の音声セグメントが目標音声セグメントである場合、第１の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行い、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。

音声認識モジュール７０４は、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。本出願のいくつかの実施例において、音声認識モジュール７０４は、コネクショニスト時系列分類モジュールに基づいて特徴シーケンスに対してコネクショニスト時系列分類処理を行い、現在の認識対象の音声セグメントに関連するスパイク情報を取得し、現在の認識対象の音声セグメント及びスパイク情報に基づいて、アテンションデコーダによってリアルタイム認識結果を取得する。

本出願のいくつかの実施例において、図８に示すように、当該ストリーミング音声認識結果の表示装置は、状態記憶モジュール８０５及び第２の取得モジュール８０６をさらに含むことができる。ここで、状態記憶モジュール８０５は、ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶する。ここで、現在の認識対象の音声セグメントが目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスがストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、第２の取得モジュール８０６は、ストリーミングマルチレイヤーの切断アテンションモデルに基づいて目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得する。音声認識モジュール８０４は、記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、ストリーミングマルチレイヤーの切断アテンションモデルによって次の認識対象の音声セグメントのリアルタイム認識結果を取得する。これにより、後続のストリーミング計算の正常な進行を確保することができる。

ここで、図８における８０１～８０４及び図７における７０１～７０４は、同じ機能及び構造を有する。

上記実施例における装置については、各モジュールが操作を実行する具体的な方式は、当該方法に関する実施例において詳細に説明されたので、ここで詳しく説明しない。

本出願の実施例のストリーミング音声認識結果の表示装置によれば、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションすることにより、現在既に完全なオーディオが受信されたとストリーミングマルチレイヤーの切断アテンションモデルを騙し、ストリーミングマルチレイヤーの切断アテンションモデル内のアテンションデコーダが現在の完全な認識結果を適時に出力することができる。例えば、図４に示すように、

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供されるストリーミング音声認識結果の表示方法を実行させる。

図９に示すように、本出願の実施例に係るストリーミング音声認識結果の表示方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限するものではない。

図９に示すように、当該電子機器は、１つ又は複数のプロセッサ９０１と、メモリ９０２と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内に実行される命令を処理することができ、当該命令は、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作（例えば、サーバアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図９では、１つのプロセッサ９０１を例とする。

メモリ９０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、前記少なくとも１つのプロセッサが本出願により提供されるストリーミング音声認識結果の表示方法を実行するように、少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供されるストリーミング音声認識結果の表示方法を実行させるためのコンピュータ命令が記憶されている。

メモリ９０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるストリーミング音声認識結果の表示方法に対応するプログラム命令／モジュール（例えば、図７に示す第１の取得モジュール７０１、シミュレーションモジュール７０２、特徴抽出モジュール７０３及び音声認識モジュール７０４）のように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ９０１は、メモリ９０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アクティベーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるストリーミング音声認識結果の表示方法を実現する。

メモリ９０２は、プログラムストレージエリアとデータストレージエリアとを含むことができ、プログラムストレージエリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、ストリーミング音声認識結果の表示方法を実現するための電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ９０２は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例で、メモリ９０２は、プロセッサ９０１に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介してストリーミング音声認識結果の表示方法を実現するための電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

ストリーミング音声認識結果の表示方法を実現するための電子機器は、入力装置９０３と出力装置９０４とをさらに含むことができる。プロセッサ９０１、メモリ９０２、入力装置９０３、及び出力装置９０４は、バス又は他の方式を介して接続することができ、図９では、バスを介して接続することを例とする。

入力装置９０３は、入力された数字又は文字情報を受信し、ストリーミング音声認識結果の表示方法を実現するための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置９０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施する。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドユニットを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアユニットを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドユニットを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドユニットと、ミドルウェアユニットと、フロントエンドユニットの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）における、管理の難しさが大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の１つである。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

ストリーミング音声認識結果の表示方法であって、
入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするステップと、
前記現在の認識対象の音声セグメントが前記目標音声セグメントである場合、第１の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、
前記現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、
前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示するステップと、を含む、
ことを特徴とするストリーミング音声認識結果の表示方法。
前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションするステップは、
前記複数の連続的な音声セグメントのうちの各前記音声セグメントを前記目標音声セグメントとして決定するステップと、
前記目標音声セグメントの末尾を文末としてシミュレーションするステップと、を含む、
ことを特徴とする請求項１に記載のストリーミング音声認識結果の表示方法。
前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションするステップは、
前記複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定するステップと、
前記現在の音声セグメントの末尾セグメントが前記無効なセグメントである場合、前記現在の音声セグメントを前記目標音声セグメントとして決定するステップと、
前記目標音声セグメントの末尾を文末としてシミュレーションするステップと、を含む、
ことを特徴とする請求項１に記載のストリーミング音声認識結果の表示方法。
前記ストリーミングマルチレイヤーの切断アテンションモデルは、コネクショニスト時系列分類モジュール及びアテンションデコーダを含み、
前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得するステップは、
前記コネクショニスト時系列分類モジュールに基づいて前記特徴シーケンスに対してコネクショニスト時系列分類処理を行い、前記現在の認識対象の音声セグメントに関連するスパイク情報を取得するステップと、
前記現在の認識対象の音声セグメント及び前記スパイク情報に基づいて、前記アテンションデコーダによって前記リアルタイム認識結果を取得するステップと、を含む、
ことを特徴とする請求項１に記載のストリーミング音声認識結果の表示方法。
前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力するステップの後に、前記方法は、
前記ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶するステップをさらに含み、
前記現在の認識対象の音声セグメントが前記目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスが前記ストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、前記方法は、
前記ストリーミングマルチレイヤーの切断アテンションモデルに基づいて前記目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得するステップと、
前記記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、前記ストリーミングマルチレイヤーの切断アテンションモデルによって前記次の認識対象の音声セグメントのリアルタイム認識結果を取得するステップと、をさらに含む、
ことを特徴とする請求項１～４のいずれかに記載のストリーミング音声認識結果の表示方法。
ストリーミング音声認識結果の表示装置であって、
入力されたオーディオストリームの複数の連続的な音声セグメントを取得するための第１の取得モジュールと、
前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするためのシミュレーションモジュールと、
前記現在の認識対象の音声セグメントが前記目標音声セグメントである場合、第１の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行い、前記現在の認識対象の音声セグメントが非目標音声セグメントである場合、第２の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うための特徴抽出モジュールと、
前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力し、リアルタイム認識結果を取得して表示するための音声認識モジュールと、を含む、
ことを特徴とするストリーミング音声認識結果の表示装置。
前記シミュレーションモジュールが、
前記複数の連続的な音声セグメントのうちの各前記音声セグメントを前記目標音声セグメントとして決定し、
前記目標音声セグメントの末尾を文末としてシミュレーションする、
ことを特徴とする請求項６に記載のストリーミング音声認識結果の表示装置。
前記シミュレーションモジュールが、
前記複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定し、
前記現在の音声セグメントの末尾セグメントが前記無効なセグメントである場合、前記現在の音声セグメントを前記目標音声セグメントとして決定し、
前記目標音声セグメントの末尾を文末としてシミュレーションする、
ことを特徴とする請求項６に記載のストリーミング音声認識結果の表示装置。
前記ストリーミングマルチレイヤーの切断アテンションモデルは、コネクショニスト時系列分類モジュール及びアテンションデコーダを含み、
前記音声認識モジュールが、
前記コネクショニスト時系列分類モジュールに基づいて前記特徴シーケンスに対してコネクショニスト時系列分類処理を行い、前記現在の認識対象の音声セグメントに関連するスパイク情報を取得し、
前記現在の認識対象の音声セグメント及び前記スパイク情報に基づいて、前記アテンションデコーダによって前記リアルタイム認識結果を取得する、
ことを特徴とする請求項６に記載のストリーミング音声認識結果の表示装置。
前記装置は、
前記ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶するための状態記憶モジュールをさらに含み、
前記現在の認識対象の音声セグメントが前記目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスが前記ストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、前記装置は、
前記ストリーミングマルチレイヤーの切断アテンションモデルに基づいて前記目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得するための第２の取得モジュールをさらに含み、
前記音声認識モジュールが、さらに、前記記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、前記ストリーミングマルチレイヤーの切断アテンションモデルによって前記次の認識対象の音声セグメントのリアルタイム認識結果を取得する、
ことを特徴とする請求項６～９のいずれかに記載のストリーミング音声認識結果の表示装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～５のいずれかに記載のストリーミング音声認識結果の表示方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５のいずれかに記載のストリーミング音声認識結果の表示方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項１～５のいずれかに記載のストリーミング音声認識結果の表示方法を実行させる、
ことを特徴とするコンピュータプログラム。