JP2021018413A

JP2021018413A - ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体

Info

Publication number: JP2021018413A
Application number: JP2020040041A
Authority: JP
Inventors: ジュンヤオシャオ; Junyao Shao; シェンキアン; Sheng Qian; レイジア; Lei Jia
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-07-17
Filing date: 2020-03-09
Publication date: 2021-02-15
Anticipated expiration: 2040-03-09
Also published as: US20210020175A1; CN112242144A; JP7051919B2; US11355113B2

Abstract

【課題】ストリーミングアテンションモデルに基づく音声認識システムの正確率及び復号化速度を向上させる音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体を提供する。【解決手段】音声認識復号化方法は、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成し、複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得ることと、複数のマージされた音響経路の中から、所定数の音響経路を選択して保持される候補音響経路とし、複数の候補音響経路のうちの最後の発音が同じであるいくつかの音響経路をマージすることと、を含む。【選択図】図３

Description

本開示の実施形態は、主に音声認識技術分野に属し、特に、ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体に関する。

音声認識とはコンピュータによって音声信号を対応するテキストに変換するプロセスであり、人間と機械とのインタラクションを実現する主なアプローチの一つである。近年、深層学習技術が音声認識分野に幅広く適用されることにつれて、音声認識の正確率が大幅に向上された。また、スマートデバイスの普及の進めに伴い、音声を用いて認識するシーンは非常に多様になっている。例えば、音声認識技術は、音声入力、音声ダイヤル、カーナビゲーション等の様々な場面で幅広く利用されている。音声認識技術は自然言語処理及び音声合成等の技術と結合し、例えばスマートスピーカ、会議の同時通訳、インテリジェントカスタマーサービスアシスタント等、より多くの複雑な応用を生成することができる。音声認識の正確率は音声関連製品のユーザの使用体験に直接影響し、そのため、音声認識の使用シーンが絶えず豊富になることに伴い、音声認識の正確率にはより高い要件が課せられる。

ストリーミング音声認識はリアルタイム処理をサポートする音声認識技術であり、それはストリームに伝送された連続音声に対し、音声の各フラグメントを認識し、それによりリアルタイムに認識結果を得ることができ、全ての音声入力が完了した後に認識処理を開始する必要がない。例えば、ユーザが発話しながら認識結果がリアルタイムに表示されるように求めるシーンにおいて、音声認識システムは高い認識率を維持しながら、音声信号を即時迅速に復号化し且つ認識結果をリアルタイムに出力する必要がある。一般的に、ストリーミング音声認識がストリーミング音響モデルによって実現され得、ストリーミング音響モデルは現在の音声の得点を算出する際に、現在の音声の信号特徴に加えて、過去の履歴情報を必要とするため、履歴依存の音響モデルである。

本開示の例示的な実施形態により、ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体を提供する。

本開示の第１態様において、ストリーミングアテンションモデルに基づく音声認識復号化方法であって、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するステップと、複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るステップと、複数のマージされた音響経路の中から所定数の音響経路を選択するステップと、を含むストリーミングアテンションモデルに基づく音声認識復号化方法を提供する。

本開示の第２態様において、ストリーミングアテンションモデルに基づく音声認識復号化装置であって、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するように構成される音響経路生成モジュールと、複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るように構成される音響経路マージモジュールと、複数のマージされた音響経路の中から所定数の音響経路を選択するように構成される音響経路選択モジュールと、を備えるストリーミングアテンションモデルに基づく音声認識復号化装置を提供する。

本開示の第３態様において、１つ又は複数のプロセッサと、１つ又は複数のプログラムを格納するための記憶手段と、を備える電子機器を提供する。１つ又は複数のプログラムが１つ又は複数のプロセッサによって実行されると、電子機器は本開示の実施形態に係る様々な方法及び／又はプロセスを実現する。

本開示の第４態様において、コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、本開示の実施形態に係る様々な方法及び／又はプロセスを実現するコンピュータ可読記憶媒体を提供する。

発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。

添付図面と組み合わせて以下の詳細な説明を参照すれば、本開示の各実施形態の上述したもの並びに他の特徴、利点及び態様は、より明らかになるであろう。添付図面において、同一又は類似の参照番号は、同一又は類似の要素を表す。

本開示の実施形態に係る音声認識の処理プロセスを示す概略図である。

本開示の実施形態に係る例示的な音声認識シーンを示す概略図である。

本開示の実施形態に係るストリーミングアテンションモデルに基づく音声認識復号化方法を示すフローチャートである。

本開示の実施形態に係る候補音響経路を選択するためのプロセスを示す概略図である。

本開示の実施形態に係る候補音響経路をマージするためのプロセスを示す概略図である。

本開示の実施形態に係る復号化総合得点を用いた音響経路のクリッピング方法を示す概略図である。

本開示の実施形態に係るストリーミングアテンションモデルに基づく音声認識復号化装置を示すブロック図である。

本開示の複数の実施形態を実施することができる電子機器を示すブロック図である。

以下、添付図面を参照しながら本開示の実施形態を更に詳しく説明する。本開示のいくつかの実施形態が図面に示されているが、本開示は様々な形態で具現化されてもよく、本明細書に記載の実施形態に限定されると解釈されるべきではなく、逆に、これらの実施形態は、本開示をより明確かつ完全に理解するために提供されるものであることを理解されたい。なお、本開示の図面及び実施例は例示的なものにすぎず、本開示の保護範囲を限定するものではない。

本開示の実施形態の説明では、用語「…を含む」及びそれに類似する用語は、「…を含むがそれらに限定されない」という非限定の表現として理解されるべきである。用語「…に基づいて」は、「少なくとも部分的に…に基づいて」と理解されるべきである。用語「１つの実施形態」又は「該実施形態」は、「少なくとも１つの実施形態」と理解されるべきである。用語「いくつかの実施形態」は、「少なくともいくつかの実施形態」と理解されるべきである。以下では、他の明確か暗黙的な定義がさらに含まれ得る。

アテンションモデル（ａｔｔｅｎｔｉｏｎｍｏｄｅｌ）は、エンコーダ−デコーダ構造に基づく音声認識音響モデリング技術であり、長いシーケンスにおける予測効果を向上させることができる。例えば、エンコーダは入力された音声特徴を符号化して隠れ特徴を得て、続いてアテンションモデルによってこれらの隠れ特徴の異なる部分に、相応しい重みを割り当て、最後にデコーダはモデリング粒度の違いに応じて対応するテキストを出力する。ストリーミングアテンションモデルはストリーミング処理をサポートするアテンションモデルであり、リアルタイムな音声認識処理を実現することができ、ストリーミングとは音声の小素片（必ずしも文ではなく）に対してフラグメントごとに直接インクリメンタル復号化できることを表す。ストリーミングアテンションモデルは履歴状態に基づいて現在の音声フラグメントを復号化する必要があるため、履歴依存の音響モデルに属する。

従来の履歴依存に基づく音響モデルのデコーダでは、音響経路のマージは、音響モデル自体の履歴依存を考慮する必要がある。例えば、音響経路のマージは音響モデルの履歴状態を考慮する必要があり、一般的に異なるモデル履歴状態から出力されたワンホット（ｏｎｅｈｏｔ）特徴ベクトル又は異なるモデル履歴状態はいずれも異なる音響経路を表し、マージされることができなく、さらに復号化時の経路の数の膨大化を引き起こし、復号化速度に影響を与え、また、音声認識システムの正確率も影響を受ける可能性があると考えられる。

そこで、本開示の実施形態は、ストリーミングアテンションモデルに基づく新たな音声認識復号化方法を提供する。本開示の発明者らは、現在の発音の音響得点の計算がその直前の発音フラグメントのみの影響を受け、より早い発音フラグメント履歴に関係しないという考えを前提として、複数の候補音響経路のうちの最後の発音が同じである音響経路をマージすることにより、ストリーミングアテンションモデルに基づく音声認識システムの正確率及び復号化速度を向上させることができることを発見した。以下、本開示の実施形態のいくつかの実施例を図１〜図８を参照して詳細に説明する。

図１は、本開示の実施形態に係る音声認識の処理プロセスの概略図を示している。通常、音声認識システムは音響モデル、言語モデル及びデコーダ等のコンポーネントを含むことができる。図１に示すように、集音された音声信号１１０を取得した後、まず、後の音響モデル等の処理に供するために、入力された音声信号１１０から特徴を抽出することなど、信号処理と特徴抽出をブロック１２０で行う。あるいは、特徴抽出プロセスは、環境ノイズ又は他の要因が特徴に与える影響を低減するために、いくつかの他の信号処理技術をさらに含む。

図１を参照すると、特徴抽出が完了した後、抽出された特徴をデコーダ１３０に入力し、且つデコーダ１３０により処理しテキスト認識結果１４０を出力し、デコーダ１３０は音響モジュール（例えば、ストリーミングアテンションモデル１３２）及び言語モデル１３４に基づいて最大確率で出力された音声信号の単語シーケンスを検索し、そのうちストリーミングアテンションモデル１３２は音声から音節への変換を実現することができ、言語モデル１３４は音節からテキストへの変換を実現することができる。

いくつかの実施形態において、ストリーミングアテンションモデル１３２は発音フラグメントをモデリングするために用いられ、そのモデリング単位が例えば音節であってもよく、それはストリーミングトランケートされるマルチレイヤーアテンションモデル（Ｓｔｒｅａｍｉｎｇｔｒａｎｃａｔｅｄｍｕｌｔｉ−ｌａｙｅｒａｔｔｅｎｔｉｏｎ，ＳＭＬＴＡ）であってもよく、ストリーミングとは音声の小素片（必ずしも文ではなく）に対してフラグメントごとに直接インクリメンタル復号化できることを表し、マルチレイヤーとは多層のアテンションモデルを積層できることを表し、トランケートとは、コネクショニスト時間分類（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＣＴＣ）モデルのスパイク情報を利用し、音声を複数の小素片に切断できることを表し、アテンションモデルのモデリング及び復号化は各小素片に展開することができる。このようなＳＭＬＴＡモデルは、リアルタイムなストリーミング音声認識をサポートすることができ、かつ高い認識正確率を実現することができる。そのうち、ＣＴＣモデルは、エンドツーエンドのモデルであって、大規模な語彙の音声認識に用いられ、深層ニューラルネットワーク（ＤＮＮ）＋隠れマルコフモデル（ＨＭＭ）の音響モデル構造が完全に統一されたニューラルネットワーク構造に置き換えられ、音響モデルの構造及びトレーニング難易度が大幅に低減され、音声認識システムの正確率が向上された。

言語モデル１３４は言語をモデリングするために用いられる。通常、統計されたＮグラム法（Ｎ−Ｇｒａｍ）を用いて、すなわち前後Ｎワードが出現する確率を統計することができる。なお、既知又は将来開発されるあらゆる言語モデルは、本開示の実施形態と組み合わせて用いることができることは言うまでもない。いくつかの実施形態において、ストリーミングアテンションモデル１３２は音声データベースに基づいてトレーニング及び／又は動作することができ、言語モデル１３４はテキストデータベースに基づいてトレーニング及び／又は動作することができる。

デコーダ１３０は、ストリーミングアテンションモデル１３２と言語モデル１３４の出力結果に基づいて、動的復号化を実現することができる。本開示の実施形態によれば、デコーダ１３０は、複数の候補音響経路のうちの最後の発音が同じである音響経路をマージすることにより、ストリーミングアテンションモデルに基づく音声認識システムの正確率及び復号化速度を向上させることができる。次に、デコーダが音響経路をマージするいくつかの例についてさらに詳しく説明する。

図２は、本開示の実施形態に係る例示的な音声認識シーン２００の概略図を示している。シーン２００は、本開示の実施形態の実現可能なシーンの一例に過ぎず、本開示の保護範囲を限定するものではないことを理解されたい。

図２に示すように、シーン２００において、ユーザ２１０は、そのユーザデバイス２２０に音声入力を行っており、ユーザ２１０が生成した音声２１５（すなわち、音声）はユーザデバイス２２０により集音され、例えば、ユーザデバイス２２０の音声収集装置（例えば、マイクロホン）によって音声２１５を収集することができる。ユーザデバイス２２０は音声信号を収集できるあらゆる電子機器であってもよく、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートブックコンピュータ、スマートウェアラブルデバイス（スマートウォッチ、スマートメガネ等）、ナビゲーションデバイス、マルチメディアプレイヤーデバイス、教育機器、ゲーム機器、スマートスピーカ等を含むがこれらに限定されない。

ユーザデバイス２２０は、音声２１５を収集するプロセスにおいて、ネットワーク２２５を介して音声２１５をフラグメントごとにサーバ２３０に送信することができ、サーバ２３０は、本開示の実施形態に係る音声認識のための音声認識システム２３３（音声認識システム２３３は本開示の実施形態に係るストリーミングアテンションモデル１３２及び復号化経路をマージすることができるデコーダ１３０を含み得る）を含む。ネットワーク２２５は、あらゆる有線ネットワーク、無線ネットワーク、又は有線ネットワークと無線ネットワークとの組み合わせであってもよい。音声認識システム２３３は、データをトレーニングすることによりトレーニングされることができ、それにより、リアルタイム且つ正確な音声認識を実現することができ、認識が完了した後、ネットワーク２２５を介して認識結果をユーザデバイス２２０にリアルタイムに送信することができる。

ユーザデバイス２２０は、そのディスプレイ２２３を介して認識結果をリアルタイムに表示することができ、ユーザ２１０は、例えば、ユーザデバイス２２０における音声入力法プログラムにより音声入力を行うことができる。本開示の実施形態は音声をリアルタイムに認識することができるため、音声２１５が発生し続けるにつれて、ディスプレイ２２３に表示された認識結果も動的に変化し、ユーザは認識された結果をリアルタイムに知ることができ、ユーザーエクスペリエンスが向上される。いくつかの実施形態において、ユーザデバイス２２０はディスプレイ２２３を含まなくてもよい。逆に、ユーザデバイス２２０はその音声出力装置（例えば、スピーカ）を介して認識結果を出力することができる。さらに他のいくつかの実施形態において、サーバ２３０は、音声の認識結果をユーザデバイス２２０に送信する必要がなく、認識結果に基づいて更なる動作を直接実行することができる。

図２の環境２００では、音声認識システム２３３がユーザデバイス２２０のリモートサーバ２３０側にデプロイされているが、音声認識システム２３３は、ユーザデバイス２２０のローカルにデプロイされていてもよいことを理解されたい。あるいは、音声認識システム２３３の一部をユーザデバイス２２０のローカルにデプロイし、他の一部をサーバ２３０側にデプロイするか、又は音声認識システム２３３を複数のサーバ又はクラウドに分散してデプロイすることもできる。本開示の実施形態は音声認識システム２３３のデプロイ形態及び位置を限定しない。

図３は、本開示の実施形態に係るストリーミングアテンションモデルに基づく音声認識復号化方法３００のフローチャートを示している。方法３００は、図２を参照して説明したサーバ２３０又はユーザデバイス２２０、又はそれらの組み合わせによって実行され得ることを理解されたい。

ブロック３０２では、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成する。例えば、直前の発音フラグメントの復号化時に候補音響経路が複数選択されていた場合には、ストリーミングアテンションモデル１３２は、前の候補経路と現在の音声の特徴とに基づいて、現在の音声フラグメントについての複数の音響経路を生成することができる。本開示のいくつかの実施形態において、１つの発音フラグメントは１つの音節を指すことができ、一部の音声特徴を表すことができ、１拍と呼ばれることもできる。

ブロック３０４では、複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得る。本開示の発明者らは、現在の発音フラグメントの音響得点の計算は、その直前の発音フラグメントのみに影響され、より早い発音フラグメントの履歴には無関係又は関係が少ないことを発見した。これにより、デコーダ１３０は、ストリーミングアテンションモデル１３２により生成された複数の音響経路のうち、最後の発音が同一である音響経路をマージすることができ、これらの経路の過去の履歴状態が同一であるか否かを考慮する必要がない。このようにすることで、復号化される音響経路の数を減らすことができる。

ブロック３０６では、複数のマージされた音響経路の中から所定数の音響経路を選択する。例えば、デコーダ１３０は、マージされた音響経路の中から、復号化総合得点が最も高いいくつかの経路を候補音響経路として選択することができる。いくつかの実施形態において、本開示の実施形態の復号化総合得点は、ストリーミングアテンションモデル１３２からの音響モデル得点だけでなく、言語モデル１３４からの言語モデル得点も含む。このように、言語モデルによる音響経路のクリッピングに与える影響を大きくすることで、音声認識システムの柔軟性や正確率を向上させることができる。

また、ストリーミング音声中の後続発音フラグメントについては、全ての経路が終了状態になるまで、方法３００のステップ３０２〜３０６を繰り返し実行することができる。したがって、本開示の実施形態は現在の発音フラグメントの音響得点の計算がその直前の発音フラグメントのみの影響を受けており、より早い発音履歴に関係しないと仮定し、複数の候補音響経路のうちの最後の発音が同じである音響経路をマージすることにより、ストリーミングアテンションモデルに基づく音声認識システムの正確率及び復号化速度を向上させることができる。

履歴依存音響モデルが復号化する時に音響履歴が異なるために復号化経路がマージできないという問題、及びさらに復号化経路の数の膨大化及び復号化速度が遅くなるという問題を解決するために、本開示の実施形態はアテンション音響モデルに対する経路マージ方法を提供し、該方法は、アテンションモデルの計算過程において、現在の発音の音響得点計算はその直前の発音の影響のみを受け、より早い履歴に関係しないという仮定に基づく。このように、復号化された音響経路のマージを追加し、音響経路の数を減少し、音響経路の数の膨大化を防止し、且つ復号化速度がより速くなった。

いくつかの実施形態において、方法３００はさらに新たな発音フラグメントを含む新たな音声信号を受信し、続いて候補音響経路及び新たな音声信号の特徴に基づき、新たな候補音響経路を生成することを含むことができる。いくつかの実施形態では、音声の受信が終了した後、最終的な候補音響経路の復号化総合得点に基づいて最終的な音声認識結果を確定する。

図４は、本開示の実施形態に係る候補音響経路を選択するためのプロセス４００の概略図を示している。図４のプロセス４００は、上述した図３の方法の例示的な実施態様であってもよいことを理解されたい。

図４を参照して、音声認識プロセスが開始されると、初期のワンホットベクトルｙ_ＳＯＳが取得され、初期状態４０１が確定される。初期状態４０１は、ストリーミングアテンションモデルの音声フラグメントにおける履歴情報であり得る。ストリーミングアテンションモデルにＮ個のモデリングユニットを設けることができ、Ｎの数は言語の違い及び／又はモデルの設置によって異なることができ、その数は例えば数千であってもよい。初期状態４０１と音声特徴とに基づいて、Ｎ個のワンホットベクトル（例えば、図４のｙ_０，ｙ_１，…，ｙ_Ｎ−１）の複数の音響経路を生成し、その得点を確定することができる。ブロック４０５において、状態４０１が対応するＮ個の候補音響経路に拡張された後、得点が所定の上位数にある複数の音響経路を選択することができ、本開示のいくつかの実施形態において、得点が最上位の４つの音響経路を候補音響経路として選択することができ、もちろん、他の数の音響経路を選択することもできる。

最上位の４つの候補音響経路が選択された後、それに応じて４つの経路及び４つの履歴状態、すなわち状態４１１、４１２、４１３及び４１４が取得される。次に、新たに受信した発音フラグメントについて、４つの音響経路のそれぞれをＮ個の新たな経路に拡張することで、ブロック４１５には、４×Ｎ個の候補音響経路が生成される。

引き続き図４を参照し、本開示の実施形態により、ブロック４１７において、生成された４×Ｎ個の候補音響経路のうちのいくつかの音響経路をマージして、Ｎ個の候補音響経路を得る。これらのマージされた候補音響経路の履歴状態が異なる場合があるが、本発明者らは、現在の発音の音響得点の算出がより早い履歴に関わらず、その直前の発音の影響のみを受けていることを発見し、そのため、本開示の実施形態は、４×Ｎ個の候補音響経路のうち、最後の発音が同一である経路をマージすることで、復号化経路の数を低減し、復号化経路の数の膨大化を防止することができる。次に、図５を参照して複数の音響経路をマージする例示的な実施態様について説明する。

ブロック４１９では、マージされたＮ個の候補音響経路の中から、得点が最上位の４つの音響経路を音声フラグメントの候補音響経路として選択する。次に、ストリーミング受信した後続音声について、全ての音声に対して処理が完了するまで、ステップ４１５〜４１７を繰り返し実行することができる。本開示の実施形態における各候補音響経路が複数の候補音響経路をマージしたものであるので、本開示の実施形態は同じ計算量である場合に、より多くの経路を残すことができ、それによって音声認識の正確率が向上された。

図５は、本開示の実施形態に係る候補音響経路をマージするためのプロセス５００の概略図を示している。図５に示すように、４つの履歴状態４１１、４１２、４１３及び４１４から４×Ｎ個の候補音響経路集合５１０を拡張して得、各状態はＮ個のモデリングユニットによりＮ個の候補音響経路に拡張することができ、各候補音響経路の復号化得点を算出することができる。

本開示の実施形態では、生成された４×Ｎ個の候補音響経路に対して、各経路の過去の履歴状態が同一であるか否かに関わらず、これらの音響経路のうち、最後の発音が同一である音響経路を同一のグループに分けることができる。図５に示すように、候補音響経路集合５１０において、尾音がｙ_０である音響経路５１１、５２１、５３１及び５４１を、尾音がｙ_０である経路５５１にマージすることができ、例えば、音響経路５１１、５２１、５３１及び５４１のうち、得点が最大である音響経路にマージすることができる。候補音響経路集合５１０における尾音がｙ_１である複数の音響経路５１２、５２２、５３２及び５４２を、尾音がｙ_１である経路５５２にマージすることができ（線間の混同を防止するために、図５において尾音がｙ_１である経路マージ矢印を示さない）、このように類推し、尾音がｙ_Ｎ−１である経路５５９にマージするまで繰り返し、それによりマージされた候補音響経路集合５５０が形成される。

いくつかの実施形態において、尾音がｙ_０である複数の音響経路をマージすることは、まず、最後の発音がｙ_０である複数の音響経路をマークアップし、すなわち音響経路５１１、５２１、５３１及び５４１をマークアップし、次に、これらの経路のうち復号化総合得点が最も高い１つの音響経路（例えば、経路５１１）を確定し、且つ各音響経路の履歴状態をこの復号化総合得点が最も高い音響経路（例えば、経路５１１）にマージすることを含むことができ、それにより復号化グラフにおけるより多くの経路がマージされることができ、経路の復号化数が低減される。同様に、最後の発音がｙ_Ｎ−１である複数の音響経路がマージされるまで、最後の発音がｙ_１である複数の音響経路をマージするようにしてもよい。いくつかの実施形態において、音響経路を拡張する時に、言語モデルの状態が同じであり且つ音響モデルの最後の発音のワンホットベクトルが同じである複数の音響経路が同一グループにマージされ、さらに音響経路の復号化数が低減されることができる。

続いて、図５を参照すると、マージされた候補音響経路集合５５０の中から、復号化総合得点が最も高い４つの候補音響経路を選択して、候補音響経路５６１、５６２、５６３及び５６４を含む最終的な候補音響経路集合５６０を形成する。いくつかの実施形態において、マージされた音響経路集合５５０におけるＮ個の音響経路のＮ個の復号化総合得点をランキングすることができ、ここで各復号化総合得点はストリーミングアテンションモデル１３２からの音響モデル得点及び言語モデル１３４からの言語モデル得点を含むことができ、続いて複数のマージされた音響経路集合５５０から最上位の４つの音響経路を選択して選択される候補音響経路とする。

図６は、本開示の実施形態に係る復号化総合得点を用いた音響経路のクリッピング方法６００の概略図を示している。方法６００は、先に図３を参照して説明した動作３０２に含まれてもよいことを理解されたい。

ブロック６０２では、ストリーミングアテンションモデル１３２は各音響経路の音響モデル得点を確定する。ブロック６０４では、言語モデル１３４は、各音響経路の言語モデル得点を確定する。ブロック６０６では、デコーダ１３０は、各音響経路の音響モデル得点と言語モデル得点とを組み合わせて、各音響経路の復号化総合得点を確定する。ブロック６０８では、デコーダ１３０は、復号化総合得点を音響経路のクリッピングの基準として用いることができる。

したがって、本開示の実施形態による方法６００は、復号化経路のクリッピングプロセスにおいて、復号化総合得点を経路のクリッピングの基準とし、言語モデルの経路拡張への影響が増加し、言語モデルを調整することによって復号化経路の拡張に対して迅速な介入を行うことができ、音声認識システムの柔軟性が向上された。また、本開示の実施形態は言語モデルの得点を用いて音響モデルを誤り訂正することができ、それにより音声認識システムのフォールトトレランスが向上された。逆に、従来の方法は音響経路のクリッピングを復号化する時に音響モデル自体の得点のみを参照し、同一の音声認識結果の発音が固定され、言語モデルによって認識結果への高速介入を最適化する柔軟性が失い、異なる細分化分野において言語モデルの適応によって認識率を向上させる実行可能性も低下した。

したがって、本開示の実施形態による方法６００は、音響経路のクリッピングは、ストリーミングアテンションモデル自体の音響モデル得点のみに依存するものではなく、音響モデル得点と音声モデル得点を組み合わせて経路クリッピングの基準とすることで、経路クリッピングの正確性を向上させるとともに、言語モデルの調整によって復号化経路の拡張を迅速に介入することができ、音声認識システムの柔軟性が向上された。

図７は、本開示の実施形態に係るストリーミングアテンションモデルに基づく音声認識復号化装置７００のブロック図を示している。図７に示すように、装置７００は、音響経路生成モジュール７１０と、音響経路マージモジュール７２０と、音響経路選択モジュール７３０とを備える。音響経路生成モジュール７１０は、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するように構成される。音響経路マージモジュール７２０は、複数の音響経路のうち、最後の発音が同一である音響経路をマージして複数のマージされた音響経路を得るように構成される。音響経路選択モジュール７３０は、複数のマージされた音響経路の中から所定数の音響経路を選択するように構成される。

いくつかの実施形態において、音響経路生成モジュール７１０は、最後の発音の直前の発音時の候補音響経路と、ストリーミングアテンションモデルの複数のモデリングユニットとに基づいて、複数の音響経路を生成するように構成される第２音響経路生成モジュールを備える。

いくつかの実施形態において、音響経路生成モジュール７１０は、複数の音響経路それぞれの音響モデル得点を、ストリーミングアテンションモデルを用いて確定するように構成される音響得点確定モジュールと、複数の音響経路それぞれの言語モデル得点を、言語モデルを用いて確定するように構成される言語得点確定モジュールと、各音響経路の音響モデル得点と言語モデル得点とに基づいて、音響経路のクリッピングのための各音響経路の復号化総合得点を確定するように構成される復号化総合得点確定モジュールと、を備える。

いくつかの実施形態において、音響経路マージモジュール７２０は、複数の音響経路のうち最後の発音が第１発音である第１音響経路集合をマークアップするように構成される経路集合マークアップモジュールと、第１音響経路集合における復号化総合得点が最も高い第１音響経路を確定するように構成される最高総合得点確定モジュールと、第１音響経路集合における各音響経路の履歴状態を第１音響経路にマージするように構成される経路集合マージモジュールと、を備える。

いくつかの実施形態において、音響経路マージモジュール７２０は、言語モデルの状態が同じであり且つ音響モデルの最後の発音のワンホットベクトルが同一である複数の音響経路を同一グループにマージするように構成されるグループマージモジュールを備える。

いくつかの実施形態において、音響経路選択モジュール７３０は、複数のマージされた音響経路における、ストリーミングアテンションモデルからの音響モデル得点と言語モデルからの言語モデル得点とを含む複数の復号化総合得点をランキングするように構成される音響経路ランキングモジュールと、複数のマージされた音響経路の中から所定の上位数の音響経路を候補音響経路として選択するように構成される候補経路選択モジュールと、を備える。

いくつかの実施形態において、装置７００は、新たな発音を含む新たな音声信号を受信するように構成される音声受信モジュールと、候補音響経路と新たな音声信号の特徴とに基づいて、新たな候補音響経路を生成するように構成される候補経路生成モジュールとをさらに備える。

いくつかの実施形態において、装置７００は、音声の受信が完了したことに応じて、各候補音響経路の復号化総合得点に基づいて最終的な音声認識結果を確定するように構成される認識結果確定モジュールをさらに備える。

図７に示した音響経路生成モジュール７１０、音響経路マージモジュール７２０及び音響経路選択モジュール７３０は、単一又は複数の電子機器に含まれていてもよいことを理解されたい。また、図７に示したモジュールは本開示の実施形態を参照する方法及び／又はプロセスにおけるステップ及び／又は動作を実行することができることを理解されたい。

図８は、本開示の実施形態を実施するために使用できる例示的な装置８００の概略ブロック図を示している。装置８００は、本開示に記載したストリーミングアテンションモデルに基づく音声認識復号化装置７００であってもよいし、ユーザデバイス２２０又はサーバ２３０であってもよいことを理解されたい。図に示すように、装置８００は、読み出し専用メモリ（ＲＯＭ）８０２に記憶されているコンピュータプログラム命令又は記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラム命令によって様々な適当な動作及び処理を実行することができる中央処理装置（ＣＰＵ）８０１を備える。ＲＡＭ８０３には、装置８００の動作に必要な様々なプログラム及びデータが更に記憶されることが可能である。ＣＰＵ８０１、ＲＯＭ８０２及びＲＡＭ８０３は、バス８０４を介して互いに接続されている。図８に示すように、入力／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続されている。

装置８００において、キーボード、マウスなどの入力ユニット８０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット８０７と、磁気ディスク、光ディスクなどの記憶ユニット８０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット８０９とを備える複数のコンポーネントは、Ｉ／Ｏインターフェース８０５に接続されている。通信ユニット８０９は、装置８００がインターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の装置と情報又はデータの交換を可能にする。

処理ユニット８０１は、上述した方法３００及び６００のような様々な方法及びプロセスを実行する。例えば、いくつかの実施形態では、方法は、記憶ユニット８０８などの機械可読媒体に有形に実施されるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部又は全部は、ＲＯＭ８０２及び／又は通信ユニット８０９を介して装置８００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ８０３にロードされ、ＣＰＵ８０１によって実行されると、上述した方法における１つ又は複数の動作又はステップが実行され得る。あるいは、他の実施形態では、ＣＰＵ８０１は、他の任意の適切な手段によって（例えば、ファームウェアによって）方法を実行するように構成されていてもよい。

本明細書で説明した機能は、少なくとも部分的に１つ又は複数のハードウェアロジックコンポーネントによって実行されることができる。例えば、非限定的に、採用できる汎用型のハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などが含まれる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されることができ、これらのプログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図に規定された機能又は動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、又は完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又はデバイスが使用するため、又は命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又はデバイス、又はこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本又は複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置、又はこれらのあらゆる適切な組み合わせが含まれ得る。

また、各動作又はステップは、特定の順序で示されているが、所望の結果を得られるために、このような動作又はステップは、示された特定の順序にて又は順を追って実行されることを要求するか、又は、図に示されたすべての動作又はステップが実行されることを要求するものと理解されるべきである。特定の環境では、マルチタスクと並列処理が有利である可能性がある。同様に、上記ではいくつかの具体的な実施詳細を説明したが、これらは本開示の範囲への制限と解釈されるべきではない。個別の実施形態のコンテキストで説明された、いくつかの特徴は、単一の実施において組み合わせて実施されることもできる。逆に、単一の実施のコンテキストで説明された様々な特徴は、複数の実施において、個別に又は任意の適切なサブセットで実施されることもできる。

本開示の実施形態は、構造特徴及び／又は方法のロジック動作に特定された言語で記述されたが、特許請求の範囲内に限定される主題が、必ずしも上記に記載された特定の特徴又は動作に限定されるものではないことを理解されたい。逆に、上述した特定の特徴及び動作は、特許請求の範囲を実施するための例示的な形態にすぎない。

Claims

音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するステップと、
前記複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るステップと、
前記複数のマージされた音響経路の中から所定数の音響経路を選択するステップと、を含むストリーミングアテンションモデルに基づく音声認識復号化方法。
音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するステップは、
前記最後の発音の直前の発音時の候補音響経路と、前記ストリーミングアテンションモデルの複数のモデリングユニットとに基づいて、前記複数の音響経路を生成するステップを含む請求項１に記載の方法。
音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するステップは、
前記複数の音響経路それぞれの音響モデル得点を、ストリーミングアテンションモデルを用いて確定するステップと、
前記複数の音響経路それぞれの言語モデル得点を、言語モデルを用いて確定するステップと、
各音響経路の音響モデル得点と言語モデル得点とに基づいて、音響経路のクリッピングのための各音響経路の復号化総合得点を確定するステップと、を含む請求項１に記載の方法。
前記複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るステップは、
前記複数の音響経路のうち最後の発音が第１発音である第１音響経路集合をマークアップするステップと、
前記第１音響経路集合における復号化総合得点が最も高い第１音響経路を確定するステップと、
前記第１音響経路集合における各音響経路の履歴状態を前記第１音響経路にマージするステップと、を含む請求項３に記載の方法。
前記複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るステップは、
言語モデルの状態が同じであり且つ音響モデルの最後の発音のワンホットベクトルが同じである複数の音響経路を同一グループにマージするステップ、を含む請求項３に記載の方法。
前記複数のマージされた音響経路の中から所定数の音響経路を選択するステップは、
前記複数のマージされた音響経路の複数の復号化総合得点をランキングするステップであって、各復号化総合得点は前記ストリーミングアテンションモデルからの音響モデル得点と言語モデルからの言語モデル得点とを含むステップと、
前記複数のマージされた音響経路の中から、ランキング順位が所定の上位数にある音響経路を候補音響経路として選択するステップと、を含む請求項１に記載の方法。
新たな発音を含む新たな音声信号を受信するステップと、
前記候補音響経路と前記新たな音声信号の特徴とに基づいて、新たな候補音響経路を生成するステップとをさらに含む請求項６に記載の方法。
音声の受信が完了したことに応じて、各候補音響経路の復号化総合得点に基づいて最終的な音声認識結果を確定するステップをさらに含む請求項６に記載の方法。
ストリーミングアテンションモデルに基づく音声認識復号化装置であって、
音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するように構成される音響経路生成モジュールと、
前記複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るように構成される音響経路マージモジュールと、
前記複数のマージされた音響経路の中から所定数の音響経路を選択するように構成される音響経路選択モジュールと、を備えるストリーミングアテンションモデルに基づく音声認識復号化装置。
前記音響経路生成モジュールは、
前記最後の発音の直前の発音時の候補音響経路と、前記ストリーミングアテンションモデルの複数のモデリングユニットとに基づいて、前記複数の音響経路を生成するように構成される第２音響経路生成モジュールを備える請求項９に記載の装置。
前記音響経路生成モジュールは、
前記複数の音響経路それぞれの音響モデル得点を、ストリーミングアテンションモデルを用いて確定するように構成される音響得点確定モジュールと、
前記複数の音響経路それぞれの言語モデル得点を、言語モデルを用いて確定するように構成される言語得点確定モジュールと、
各音響経路の音響モデル得点と言語モデル得点とに基づいて、音響経路のクリッピングのための各音響経路の復号化総合得点を確定するように構成される復号化総合得点確定モジュールと、を備える請求項９に記載の装置。
前記音響経路マージモジュールは、
前記複数の音響経路のうち最後の発音が第１発音である第１音響経路集合をマークアップするように構成される経路集合マークアップモジュールと、
前記第１音響経路集合における復号化総合得点が最も高い第１音響経路を確定するように構成される最高総合得点確定モジュールと、
前記第１音響経路集合における各音響経路の履歴状態を前記第１音響経路にマージするように構成される経路集合マージモジュールと、を備える請求項１１に記載の装置。
前記音響経路マージモジュールは、
言語モデルの状態が同じであり且つ音響モデルの最後の発音のワンホットベクトルが同じである複数の音響経路を同一グループにマージするように構成されるグループマージモジュールを備える請求項１１に記載の装置。
前記音響経路選択モジュールは、
前記複数のマージされた音響経路の複数の復号化総合得点をランキングするように構成される音響経路ランキングモジュールであって、各復号化総合得点は前記ストリーミングアテンションモデルからの音響モデル得点と言語モデルからの言語モデル得点とを含む音響経路ランキングモジュールと、
前記複数のマージされた音響経路の中から、ランキング順位が所定の上位数にある音響経路を候補音響経路として選択するように構成される候補経路選択モジュールと、を備える請求項９に記載の装置。
新たな発音を含む新たな音声信号を受信するように構成される音声受信モジュールと、
前記候補音響経路と前記新たな音声信号の特徴とに基づいて、新たな候補音響経路を生成するように構成される候補経路生成モジュールとをさらに備える請求項１４に記載の装置。
音声の受信が完了したことに応じて、各候補音響経路の復号化総合得点に基づいて最終的な音声認識結果を確定するように構成される認識結果確定モジュールをさらに備える請求項１４に記載の装置。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを格納するための記憶手段であって、前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサによって実行されると、前記電子機器は請求項１〜８のいずれか１項に記載の方法を実現する記憶手段と、を備える、電子機器。
コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行されると、請求項１〜８のいずれか１項に記載の方法を実現する、コンピュータ可読記憶媒体。