JP7407968B2

JP7407968B2 - 音声認識方法、装置、設備及び記憶媒体

Info

Publication number: JP7407968B2
Application number: JP2022563214A
Authority: JP
Inventors: ション，シーフー; リュウ，ツォン; ウェイ，スー; リュウ，チンフォン; ガオ，ジェンチン; パン，ジャ
Original assignee: アイフライテックカンパニー，リミテッド
Priority date: 2020-05-18
Filing date: 2020-12-02
Publication date: 2024-01-04
Anticipated expiration: 2040-12-02
Also published as: EP4156176A4; EP4156176A1; CN111583909B; KR20230040951A; JP2023522083A; CN111583909A; WO2021232746A1; US20230186912A1

Description

本出願は、２０２０年０５月１８日に中国特許局へ提出した出願番号２０２０１０４１８７２８.１、発明名称「音声認識方法、装置、設備及び記憶媒体」である中国特許出願
の優先権を主張し、その全ての内容はここで参照として本出願に引用される。

音声認識とは、入力された音声データを認識し、音声に対応する認識テキスト内容を得ることを意味する。ディープラーニングシーケンスモデリングの発展に伴い、エンドツーエンドモデリング方法が音声認識分野の研究の焦点となっている。

図１に示すように、アテンションメカニズムに基づく従来のエンドツーエンド音声認識フレームワークは、入力音声の符号化を行い、アテンションメカニズムに基づいて、符号化されたオーディオを処理し、復号化及び分類により、入力音声に対応する認識テキストを得ることができる。このような音声認識方法は、訓練データの需要量が多いため、訓練したモデルに自信過剰（ｏｖｅｒ－ｃｏｎｆｉｄｅｎｃｅ）の問題があり、モデルには、算出された事後確率得点が鋭く、つまり高頻度語に対する認識効果が良く、得点が高いが、低頻度語に対する認識効果が悪く、得点が低いことが反映されている。専門名詞、専門用語、日常の社会活動の中から生まれたリアルタイムな話題となる単語などのホットワードは、モデルに対して低頻度語であり、モデルでこのようなホットワードの認識効果が悪い。

上記の問題に鑑み、本出願は、従来の音声認識方法においてホットワードに対する認識効果が良くないという問題を解決するように、音声認識方法、装置、設備及び記憶媒体を提供し、その技術案は以下の通りである。

本出願の第一態様において、音声認識方法を提供し、
認識対象音声及び設定されたホットワードシソーラスを取得することと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定することとを含む。

好ましくは、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
現在の復号化時刻より前の復号化済み結果情報を取得することと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定することとを含む。

好ましくは、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定するプロセスは、
あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワード
シソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を取得することを含み、
このうち、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える。

好ましくは、前記音声認識モデルは、
前記認識対象音声の符号化を行い、オーディオ符号化結果を得るオーディオエンコーダモジュールと
前記ホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得るホットワードエンコーダモジュールと、
前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る共同注意モジュールと、
前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得るデコーダモジュールと、
デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する分類器モジュールとを含み、
前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。

好ましくは、前記共同注意モジュールは、
デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する第１のアテンションモデルと、
前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定する第２のアテンションモデルとを含み、
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する。

好ましくは、前記第１のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
前記状況ベクトル、前記ホットワード符号化結果を第１のアテンションモデルの入力として、前記第１のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することを含む。

好ましくは、前記第２のアテンションモデルは、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することは、
前記オーディオ関連特徴を第２のアテンションモデルの入力として、前記第２のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することを含む。

好ましくは、前記分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含む。
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定することは、
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定することと、
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて
、認識対象音声の現在の復号化時刻の認識結果を決定することとを含む。

好ましくは、前記動的に拡張可能なホットワードノードと前記ホットワードシソーラスにおけるホットワードとは１対１対応する。

好ましくは、前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
認識対象音声を取得し、前記認識対象音声の会話シーンを決定することと、
前記会話シーンに関するホットワードシソーラスを取得することとを含む。

好ましくは、前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
ヒューマンコンピュータインタラクションシーンでのユーザーからの音声を認識対象音声として取得することと、
ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することとを含む。

好ましくは、
前記認識対象音声の認識結果に基づいて、前記認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力することとをさらに含む。

本出願の第二態様において、音声認識装置を提供し、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニットと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニットと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニットと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニットとを含む。

本出願の第三態様において、プログラムを格納するメモリ及び前記プログラムを実行し、上記の音声認識方法の各ステップを実現するプロセッサを含む音声認識設備を提供する。

本出願の第四態様において、コンピュータプログラムを格納する読取可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される時に、上記の音声認識方法の各ステップを実現する。

本出願の第五態様において、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、端末装置で実行される時に、前記端末装置に上記の音声認識方法の各ステップを実行させる。

以上のことから分かるように、本出願に係る音声認識方法では、ホットワードシソーラス（すなわち、認識対象音声に存在する可能性のあるホットワード）が設定されるため、認識対象音声を認識する過程で、認識対象音声及びホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、また、オーディオ関連特徴の決定過程でホットワード情報を利用するため、現在の復号化時刻の音声セグメントにあるホットワードが含まれている場合、決定されたオーディオ関連特徴には、部分的な情報では
なく、ホットワードに対応する完全なオーディオ情報が含まれるようになり、さらに当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、またオーディオ関連特徴にはホットワードに対応する完全なオーディオ情報が含まれるようになるため、決定されたホットワード関連特徴は、現在の復号化時刻の音声セグメントにホットワードが含まれているか否か、及び具体的にどのホットワードが含まれているかを正確に示すことができ、最終的に、オーディオ関連特徴及びホットワード関連特徴に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定し、当該認識結果により、ホットワードをより正確に認識することができる。

本発明の実施例又は従来技術の技術案をより明確にするためには、以下、実施例又は従来技術を説明するための図面を簡単に説明する。明らかに、下記の図面は、本発明の実施例に過ぎず、当業者であれば、創造的な労力を払うことなく提供された図面に従って他の図面を得ることができる。

図１はアテンションメカニズムに基づく従来のエンドツーエンド音声認識フレームワークを示す。図２はアテンションメカニズムに基づく改善されたエンドツーエンド音声認識フレームワークを示す。図３は本出願の実施例に係る音声認識方法のフローチャートである。図４は本出願の実施例に係る別のアテンションメカニズムに基づく改善されたエンドツーエンド音声認識フレームワークを示す図である。図５は本出願の実施例において１層の双方向長短期記憶層（ＬＳＴＭ）のホットワードエンコーダのホットワードに対する符号化を示す図である。図６は本出願の実施例に係る音声認識装置の構造を示す図である。図７は本出願の実施例に係る電子設備の構造を示す図である。

以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。記載された実施例は本発明の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本発明の実施例に基づき、当業者は、創造的な作業なしに得られたすべての他の実施例は本発明の保護範囲内にある。

従来の音声認識方法においてホットワードの認識効果が良くないという問題を解決するために、本案発明者が研究を行い、まずホットワードの得点にインセンティブを与えることを考え、つまり、音声認識モデルが出力した各候補認識文字のうち、ホットワードに属する候補認識文字の得点にインセンティブを与えることで、ホットワードの認識率を高めるという目的を達成する。

しかしながら、さらに研究を進めると、エンドツーエンドの音声認識モデルでは、ホットワードのような低頻度語の得点が低すぎるため、ホットワードの復号化を行う過程で削減されることが多く、場合によってインセンティブが与えられる機会もなく、ホットワードの認識度を高めることができないことが分かった。

したがって、本発明者は、音声認識モデルの構造を変更することにより、モデルレベルでホットワードの得点確率を高める方案を提出する。変更された音声認識モデルのフレームワークの例を図２に示す。

従来の音声認識モデルに比べて、ホットワードエンコーダモジュールＢｉａｓｅｎｃｏｄｅｒが追加され、ホットワードを符号化することができる。さらに、デコーダＤｅｃ
ｏｄｅｒのステータス情報を用いて、アテンションメカニズムに基づいて、オーディオ符号化特徴及びホットワード符号化特徴のそれぞれに対して操作を行い、復号化に必要なオーディオ関連特徴及びホットワード関連特徴を得る。オーディオ関連特徴及びホットワード関連特徴に基づいて、復号化及び分類を行い、入力音声に対応する認識テキストを得る。

この方案では、モデル構造レベルでホットワードを考慮したため、モデルから出力されたホットワードの得点にインセンティブを直接に与える方式よりも効果的である。

しかし、発明者が深く研究した結果、異なるホットワードの長さが違いことがあり、オーディオにホットワードが含まれているか否か、どのホットワードが含まれているかを正確に判定するには、ホットワードによって必要な情報が異なることがわかった。一方、デコーダのステータス情報には、復号化済み結果の履歴テキストと履歴オーディオ情報のみが含まれ、単に履歴情報のみを含むステータス情報をアテンションメカニズムのクエリ項目として使用して、オーディオ符号化特徴に対しアテンションの操作を実行して得られるオーディオ関連特徴は必ずしも完全ではなく、同時にホットワード符号化特徴に対しアテンションの操作を実行して得られるホットワード関連特徴も必ずしも正確ではないため、最終的なホットワード認識精度も特に高くない。

したがって、発明者は上記の問題を解決するための別の改善案を提出する。以下、本案に係る音声認識方法を詳細に説明する。

本案の音声認識方法は、音声認識が必要なあらゆる場面に適用可能であることが理解される。音声認識方法は、携帯電話、翻訳機、パソコン、サーバーなどのデータ処理能力を備えた装置のような、電子機器を用いて実現できる。

そして、図面３に示すフローチャートに合わせて、本案の音声認識方法を説明し、詳しく次のステップを含む。

Ｓ１００：認識対象音声及び設定されたホットワードシソーラスを取得する。
具体的には、今回の音声認識タスクで認識する音声を認識対象音声とする。音声認識の前に、設定されたホットワードシソーラスを取得することができ、ホットワードシソーラスには複数のホットワードが保存されている。ホットワードシソーラスは音声認識タスクに関連するホットワードから構成されてもよいことが理解される。例えば、認識対象音声の中に存在する可能性のあるすべてのホットワード（専門用語など）を用いてホットワードシソーラスを構成する。

また、本実施例で設定されたホットワードシソーラスとして、既存のホットワードシソーラスを直接呼び出してもよい。Ｓ１１０：前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定する。

具体的には、音声認識によるホットワードの認識度を高めるために、復号化対象文字が潜在的なホットワードである場合、当該潜在的なホットワードの完全なオーディオ情報を取得する必要がある。そこで、本ステップでは、現在の復号化時刻に必要な得られたオーディオ関連特徴に潜在的なホットワードの完全な音声情報が含まれるように、ホットワードシソーラスを考慮する。つまり、オーディオ関連特徴を決定するための計算過程にホットワードシソーラスを関与させ、現在の復号時刻の復号化対象文字がホットワードであるか否かを検出する機能を果たす。
最終的に得られるオーディオ関連特徴には、現在の復号化対象文字の完全なオーディオ情報が含まれる。

Ｓ１２０：前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定する。

前のステップでは、現在の復号化時刻に必要なオーディオ関連特徴が決定されているため、当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することができ、当該ホットワード関連特徴は現在の復号化時刻に現れる可能性のあるホットワード内容を示している。

オーディオ関連特徴は現在の復号化対象文字の完全なオーディオ情報を含んでもよいため、これに基づいて、ホットワードシソーラスから現在の復号時に必要なホットワード関連特徴を決定し、ホットワードの長さが異なることにさらに適応できることが理解される。

Ｓ１３０：前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する。

現在の復号化時刻に必要なオーディオ関連特徴及びホットワード関連特徴が得られた後、両方に基づいて、現在の時刻に復号化対象文字の復号化認識を行い、認識対象音声の現在の復号化時刻の認識結果を決定する。

本出願の実施例に係る音声認識方法では、ホットワードシソーラス（すなわち、認識対象音声に存在する可能性のあるホットワード）が設定されるため、認識対象音声を認識する過程で、認識対象音声及びホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、また、オーディオ関連特徴の決定過程でホットワード情報を利用するため、現在の復号化時刻の音声セグメントにあるホットワードが含まれている場合、決定されたオーディオ関連特徴には、部分的な情報ではなく、ホットワードに対応する完全なオーディオ情報が含まれるようになり、さらに当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、またオーディオ関連特徴にはホットワードに対応する完全なオーディオ情報が含まれるようになるため、決定されたホットワード関連特徴は、現在の復号化時刻の音声セグメントにホットワードが含まれているか否か、及び具体的にどのホットワードが含まれているかを正確に示すことができ、最終的に、オーディオ関連特徴及びホットワード関連特徴に基づき、認識対象音声の現在の復号化時刻の認識結果を決定し、当該認識結果により、ホットワードをより正確に認識することができる。

本出願の実施例では、上記のＳ１００で認識対象音声及び設定されたホットワードシソーラスを取得するための実施形態を説明する。

選択肢として、認識対象音声を取得した後、認識対象音声の会話シーンを決定することができる。さらに、当該会話シーンに関連するホットワードシソーラスを、本案に設定されたホットワードシソーラスとして取得することができる。
会話シーンによって発生される認識対象音声に含まれるホットワードも異なる可能性があることが理解されるため、本出願で、各会話シーンに対応するホットワードシソーラスを事前に決定することができ、そして認識対象音声の会話シーンを決定した後、対応するホットワードシソーラスを取得することができる。

別の選択肢として、本出願の方案をヒューマンコンピュータインタラクションシーンでの音声認識に適用する場合には、
ユーザーがヒューマンコンピュータインタラクションシーンで機器とやり取りを行う時、
ユーザーの音声操作命令に関わってくることが理解され、すなわち、ユーザーが所定の目的を実現するための音声操作命令を機器に出す。例えば、ユーザーがスマートテレビを音声でコントロールしてチャンネル切り替えや音量調整などの関連操作を実現し、またユーザーがスマートロボットをコントロールして曲の再生、天気の確認、所定の動作の実行などを実現する。

その上で、機器がユーザーに正しく応答するためには、機器が音声操作命令を正確に認識する必要がある。このため、本出願では、ユーザーの音声操作命令中の操作キーワードを用いてホットワードシソーラスを構成することができる。

これに基づいて、本出願の実施例で、ヒューマンコンピュータインタラクションシーンでユーザーからの音声を認識対象音声として取得することができると同時に、ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令中の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することができる。

このようにして、本出願の方案に従って認識対象音声の認識結果を決定した後、当該認識結果に基づいて、当該認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力することができる。

本実施で説明された方案に従って、ヒューマンコンピュータインタラクション過程におけるユーザーの操作命令を正確的に認識するため、機器が正確的な認識結果に基づいて、適切なインタラクション応答を行うことができる。

本出願の別の実施例では、上記のＳ１１０において、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定する。

具体的には、認識対象音声の各フレームの音声間にコンテキスト関係が存在し、現在の復号時刻に必要なオーディオ関連特徴を決定するために、本実施例では、現在の復号時刻より前の復号化済み結果情報を取得してもよい。復号化済み結果情報には、復号化済み文字のテキスト情報、オーディオ情報が含まれてもよい。

また、音声認識によるホットワードの認識度を高めるために、復号化対象文字が潜在的なホットワードである場合、当該潜在的なホットワードの完全なオーディオ情報を取得する必要がある。そこで、本ステップでは、現在の復号化時刻に必要な得られたオーディオ関連特徴に潜在的なホットワードの完全な音声情報が含まれるように、ホットワードシソーラスを考慮する。つまり、オーディオ関連特徴を決定するための計算過程にホットワードシソーラスを関与させ、現在の復号時刻に復号化対象文字がホットワードであるか否かを検出する機能を果たす。その上で、当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することができ、ホットワードの長さが異なることにさらに適応できる。

以上によって、Ｓ１１０におけるオーディオ関連特徴の決定過程は以下を含むことが分かる。
Ｓ１：現在の復号化時刻より前の復号化済み結果情報を取得する。
Ｓ２：復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定する。

具体的には、本実施例では、まず認識対象音声のオーディオ特徴を決定することができ、そのオーディオ特徴としては、フィルタバンク（ＦｉｌｔｅｒＢａｎｋ）特徴、メル
周波数ケプストラム係数（ＭＦＣＣ）特徴、知覚的線形予測（ＰＬＰ）特徴などが挙げられる。さらに、復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声のオーディオ特徴から現在の復号化時刻に必要なオーディオ関連特徴を決定する。

ここで、オーディオ関連特徴には現在の復号化時刻の復号化対象文字の完全なオーディオ情報が運ばれている。その上で、ホットワードの正確的な認識のために十分なオーディオ関連特徴を提供することができる。

本出願の別の実施例では、上記実施例のＳ１１０～Ｓ１３０で、現在の復号化時刻に必要なオーディオ関連特徴及びホットワード関連特徴を決定し、これに基づいて認識対象音声の現在の復号化時刻の認識結果を決定する選択可能な実施形態を説明する。
具体的には、音声認識モデルを用いて実現できる。

もちろん、本実施例に係る音声認識モデルは従来の音声認識モデルとは異なり、本実施例の音声認識モデルは、認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備えるように構成されている。

具体的には、音声認識モデルは、現在の復号化時刻より前の復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定し、オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づき、認識対象音声の現在の復号化時刻における認識結果を決定する能力を備えてもよい。

その上で、本実施例では、音声認識モデルを用いて前述したＳ１００から取得された認識対象音声及びホットワードシソーラスを処理し、音声認識モデルが認識対象音声の認識結果を出力することができる。

具体的には、認識対象音声のオーディオ特徴及びホットワードシソーラスを音声認識モデルに入力し、モデルから出力された認識対象音声の認識結果を得ることができる。

そして、図４を参照し、音声認識モデルのフレームワークを説明する。

音声認識モデルには、オーディオエンコーダモジュール、ホットワードエンコーダモジュール、共同注意モジュール、デコーダモジュール及び分類器モジュールが含まれてもよい。受信されたホットワードシソーラスの各ホットワード及び認識対象音声のオーディオ特徴を処理し、最終的に認識結果を出力する過程を各モジュールの協働により実現する。これから、各モジュールをそれぞれ説明する。

説明のために、認識対象音声のオーディオ特徴はＸ＝［ｘ_１，ｘ_２，…，ｘ_ｋ］とし、ここで、ｘ_ｋはｋフレーム目のオーディオ特徴ベクトル、ｋは認識対象音声の音声フレームの合計数を表す。

１.オーディオエンコーダモジュール：
オーディオエンコーダモジュールで認識対象音声の符号化を行い、オーディオ符号化結果を得る。

具体的には、オーディオエンコーダモジュールで認識対象音声のオーディオ特徴Ｘの符号化を行い、各フレームの音声のオーディオ特徴ベクトルからなる符号化済みのオーディオ特徴ベクトルのシーケンスを得る。
ここで、得られた符号化済みのオーディオ特徴ベクトルのシーケンスは次の通りである。

ここで、

はｋフレーム目のオーディオ特徴ベクトル、

はｘ_ｋがオーディオエンコーダモジュールにより符号化された結果を表す。

オーディオエンコーダモジュールは、１層又は複数層の符号化層を含んでもよい、符号化層としては、単方向又は双方向長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を採用してもよい。具体的にどの構造を使用するかは使用需要に応じて決定する。即時性の要求がある音声認識について、３～５層の単方向長短期記憶層を使用し、即時性の要求がない音声認識について、３～５層の双方向長短期記憶層を使用してもよい。ここで、即時性の要求とは、すべて話した後に認識結果を一括に出すことなく、話しながら認識することを意味する。

本実施例では、５層の単方向長短期記憶層を用いて、入力されたオーディオ特徴Ｘ＝［ｘ_１，ｘ_２，…，ｘ_ｋ］を処理し、符号化されたオーディオ特徴ベクトルのシーケンス

を出力してもよい。

２.ホットワードエンコーダモジュール：
ホットワードエンコーダモジュールでホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得る。

具体的には、ホットワードエンコーダモジュールがホットワードシソーラスにおける各ホットワードを個別に符号化し、各ホットワードが個別に符号化された後の各ホットワード特徴ベクトルからなるホットワード特徴ベクトルのシーケンスを得る。
ホットワードシソーラス内に合計Ｎ＋１個のホットワードが含まれるように定義される。
Ｚ＝［ｚ_０，ｚ_１，…，ｚ_ｎ］
ここで、ｚ_ｎはＮ番目のホットワードを表す。ここで、ｚ_０は特別なホットワード「<no-bias>」であり、ホットワードが存在しないことを表す。復号化の過程におけるホット
ワードはｚ_０である場合、現在の復号化時刻に復号化対象文字がいずれかホットワードでもないことを意味し、認識されている音声セグメントがホットワードでない場合に使用される。

ホットワードの合計数はＮ＋１とすると、ホットワードエンコーダが各ホットワードを個別に符号化して得られたホットワード特徴ベクトルのシーケンスは次の通りである。

ここで、

はＮ番目のホットワードがホットワードエンコーダモジュールで個別に符号化された後のホットワード特徴ベクトルを表す。

ホットワードによって含まれている文字数が異なることがあり、例えば、「中科大」と
「科大訊飛」をホットワードとすると、含まれる文字数はそれぞれ３と４である。

モデル処理のため、本実施例で長くなったホットワードを同じ次元のベクトルに統一的に符号化することができる。具体的には、ホットワードエンコーダモジュールが設定された次元にしたがって、各ホットワードをそれぞれ同じ次元のホットワード特徴ベクトルに個別に符号化することができる。

ホットワードエンコーダモジュールは１層又は複数層の符号化層を含むことができ、符号化層としては、単方向又は双方向長短期記憶ニューラルネットワークの長短期記憶層或畳み込みニューラルネットワークの畳み込み層を採用してもよい。一般的に、同時に左右側のすべての情報を示している双方向長短期記憶層は、ホットワードに対する符号化効果が単方向長短期記憶層よりもよい。例えば、１層の双方向長短期記憶層を使用する場合は、「科」、「大」、「訊」、「飛」の４文字からなる「科大訊飛」をホットワードとすると、１層の双方向長短期記憶層のホットワードエンコーダモジュールの符号化過程は図５に示す通りである。

図５の左側が双方向長短期記憶層の順方向部分で、右側が逆方向部分であり、順方向と逆方向の最終ステップの出力ベクトル

と

を接合して得られたベクトルｈ^ｚはホットワードの符号化ベクトルを表す。

３、共同注意モジュール：
共同注意モジュールは、オーディオ符号化結果及びホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る。当該接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。

本実施例では、図４に示すように、共同注意モジュールの選択可能なアーキテクチャを説明し、共同注意モジュールは第１のアテンションモデル及び第２のアテンションモデルを含んでもよい。
ここで、第１のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及びホットワード符号化結果に基づいて、オーディオ符号化結果から現在の復号化時刻に必要可能なオーディオ関連特徴を決定することができる。

具体的には、状況ベクトル、ホットワード符号化結果を第１のアテンションモデルの入力として、第１のアテンションモデルでオーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。

第２のアテンションモデルは、オーディオ関連特徴に基づいて、ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。

具体的には、オーディオ関連特徴を第２のアテンションモデルの入力として、第２のアテンションモデルでホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。

最後に、前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を構成する。

以上からわかるように、デコーダモジュールの現在の復号化時刻に出力された状況ベクトルは復号化済み結果情報を示すことができるため、当該状況ベクトル及びホットワード符号化結果に基づいて、オーディオ符号化結果に対してアテンションメカニズム操作を行い、現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。つまり、本実施例における第１のアテンションモデルはオーディオ、ホットワードの共同注意メカニズムを使用し、オーディオ関連特徴の計算にホットワードを関与させる。ホットワード情報を利用したため、現在の復号化時刻に復号化対象文字が特定のホットワードである場合、オーディオ関連特徴から当該ホットワードに対応する完全なオーディオ情報を抽出される。

さらに、オーディオ関連特徴を用いてホットワード符号化結果に対してアテンションメカニズム操作を行い、現在の復号化時刻に必要なホットワード関連特徴を決定する。オーディオ関連特徴にはホットワードの完全なオーディオ情報が含まれているため、これにより得られたホットワード関連特徴もより正確である。

ここで、アテンションメカニズムは１つのベクトルをクエリ項目（ｑｕｅｒｙ）とし、一連の特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、クエリ項目と最もマッチングする特徴ベクトルを出力とする。具体的には、クエリ項目と特徴ベクトルシーケンスの各特徴ベクトルとのマッチング係数を計算し、その後、これらのマッチング係数を対応する特徴ベクトルにかけ、合計を求めて得られた新しい特徴ベクトルを、クエリ項目と最もマッチングする特徴ベクトルとする。

現在の時刻を時刻ｔとし、デコーダモジュールの時刻ｔに出力された状況ベクトルをｄ_ｔとすると、第１のアテンションモデルは、状況ベクトルｄ_ｔとホットワード特徴ベクトルシーケンスＨ^ｚに基づいて、オーディオ特徴ベクトルシーケンスＨ^ｘから現在の復号化時刻に必要なオーディオ関連特徴

を決定する。第２のアテンションモデルは、

をクエリ項目とし、ホットワード特徴ベクトルシーケンスＨ^ｚに対しアテンションメカニズム操作を実行し、現在の復号化時刻に必要なホットワード関連特徴

を決定する。

そして、第１のアテンションモデルの実施形態について詳細に説明する。
まず、第１のアテンションモデルは、ホットワード特徴ベクトルシーケンスＨ^ｚにおける各ホットワード特徴ベクトル

を状況ベクトルｄ_ｔとそれぞれ組み合わせてクエリ項目とし、オーディオ特徴ベクトルシーケンスＨ^ｘにおける各オーディオ特徴ベクトル

に対してアテンションメカニズム操作を行い、マッチング係数行列Ｅ^ｔを得る。前記マッチング係数行列Ｅ^ｔには任意のホットワードと任意のフレームの音声との一致度

が含まれ、

は、ｉ番目のホットワードとｊフレーム目の音声との一致度（すなわちｊフレーム目の音声がｉ番目のホットワードである可能性）を示す。

ここで、

の計算過程は下の式を参照する。

ここで、Ｗ_ｄ、Ｗ_ｚ、Ｗ_ｘはモデルパラメータであり、

はそれぞれベクトル

の次元を示し、３つの行列の行数が同じでいずれもＤであり、演算子＜．，．＞はベクトルの内積を求めることを示す。

要素

はホットワードと音声フレームのマッチング係数行列Ｅ^ｔを構成し、Ｅ^ｔ∈Ｒ^{Ｋ×（Ｎ－１）}とする。ここで、

はＥ^ｔにおけるｉ行目ｊ列目の要素、Ｅ^ｔの列ベクトルはあるホットワードとオーディオ特徴ベクトルシーケンスとの一致度、Ｅ^ｔの行ベクトルはあるフレームのオーディオ特徴ベクトルとホットワード特徴ベクトルシーケンスの一致度を表す。

さらに、第１のアテンションモデルは上記のマッチング係数行列Ｅ^ｔに基づいて、オーディオ特徴ベクトルシーケンスＨ^ｘから現在の復号化時刻に必要なオーディオ関連特徴

を決定する。

具体的には、当該過程は次のステップを含んでもよい。
Ｓ１：マッチング係数行列Ｅ^ｔに基づいて、各ホットワードを現在の復号化時刻の復号化対象文字とする確率ｗ^ｔを決定する。

Ｅ^ｔにおけるｉ行目ｊ列目の要素はｊフレーム目のオーディオがｉ番目のホットワードである可能性を表し、Ｅ^ｔの各行のｓｏｆｔｍａｘ正規化を行い、その後、すべての行ベクトルを加算して平均値を計算し、次のＮ＋１次元の行ベクトルを得る。

ここで、

は現在の復号化時刻ｔの復号化対象文字がｉ番目のホットワードである可能性を表す。つまり、現在の復号化時刻ｔの音声から出てくる可能性の最も高いホットワードを決定する。

Ｓ２：マッチング係数行列Ｅ^ｔ及び各ホットワードを現在の復号化時刻の復号化対象文字とする確率ｗ^ｔに基づいて、各フレームの音声を現在の復号化時刻に必要な音声内容とする確率ａ^ｔを決定する。

具体的には、Ｅ^ｔの各列のｓｏｆｔｍａｘ正規化を行い、列ベクトルが正規化された行列Ａ^ｔを得る。その後、ｗ^ｔの要素を行列Ａ^ｔの列ベクトルの加重係数にして、行列Ａ^ｔのすべての列ベクトルを重み付け及び加算し、次のＫ次元の行ベクトルを得る。

ここで、

はｊフレーム目のオーディオ特徴が現在の復号化時刻ｔの復号化に必要な音声内容である可能性を表す。

Ｓ３：各フレームの音声を現在の復号化時刻に必要な音声内容とする確率ａ^ｔを加重係数とし、オーディオ特徴ベクトルシーケンスＨ^ｘにおける各フレーム音声のオーディオ特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なオーディオ関連特徴

を得る。
具体的には、ａ^ｔの要素をオーディオ特徴ベクトルシーケンス

に対応する位置のオーディオ特徴ベクトルの加重係数とし、オーディオ特徴ベクトルを重み付け及び加算し、オーディオ関連特徴ベクトル

を得る。

さらに、第２のアテンションモデルの実施形態について詳細に説明する。
第２のアテンションモデルは、上記のオーディオ関連特徴

に基づいて、ホットワード特徴ベクトルシーケンスＨ^ｚから現在の復号化時刻に必要なホットワード関連特徴

を決定する。

具体的には、当該過程は次のステップを含んでもよい。
Ｓ１：第２のアテンションモデルは、オーディオ関連特徴

をクエリ項目とし、ホットワード特徴ベクトルシーケンスＨ^ｚに対してアテンションメカニズム操作を行い、ホットワードマッチング係数ベクトルｂ^ｔを得る。ホットワードマッチング係数ベクトルｂ^ｔには、各ホットワードを現在の復号化時刻の復号化対象文字とする確率が含まれる。ｂ^ｔは次の通りである。

ここで、

はｉ番目のホットワードを現在の復号化時刻の復号化文字とする確率を表す。

具体的には、

と各ホットワード特徴ベクトルとを、小さなニューラルネットワークによって計算して１つのマッチング係数を得た後、これらのマッチング係数のｓｏｆｔｍａｘ正規化を行って、

を得る。

Ｓ２：各ホットワードを現在の復号化時刻の復号化対象文字とする確率

を加重係数とし、ホットワード特徴ベクトルシーケンスＨ^ｚにおける各ホットワードのホットワード特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なホットワード関連特徴

を得る。

には、ホットワードの情報の一部でなく、潜在的ホットワードの完全なオーディオ情報が含まれているため、これに基づいて決定されたホットワード関連特徴

もより正確である。

と

が決定された後に接合する必要があり、現在の復号化時刻に必要な接合特徴ｃ_ｔが得られ、接合特徴ｃ_ｔをデコーダモジュールに渡す。

さらに、上記の決定された現在の復号化時刻の復号化対象文字の確率ｂ^ｔを分類器モジュールに渡し、ホットワードの分類に使用されてもよい。

４.デコーダモジュール：
デコーダモジュールは共同注意モジュールから出力された現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得る。

具体的には、デコーダモジュールは、現在の復号化時刻ｔより一つ前の復号化時刻ｔ－１に必要な接合特徴ｃ_ｔ－１と一つ前の復号化時刻ｔ－１の認識結果文字を用いて、現在の復号化時刻ｔの状況ベクトルｄ_ｔを求める。

ここで、ｄ_ｔは次の二つの役割を果たす。一つ目は、共同注意モジュールに送信することで、共同注意モジュールが上記実施例で説明された操作過程を実行し、現在の復号化時刻のｃ_ｔを求める。

二つ目は、デコーダモジュールは現在の復号化時刻の状況ベクトルｄ_ｔと現在の復号化時刻に必要な接合特徴ｃ_ｔを用いて、デコーダモジュールの現在の復号化時刻の出力特徴

を求める。

説明すべき点については、デコーダモジュールには複数のニューラルネットワーク層が含まれてもよいため、本出願では二層の単方向長短期記憶層を使用してもよい。現在の時刻ｔの復号化対象文字を復号化する時には、一層目の長短期記憶層は時刻ｔ－１の認識結果文字とアテンションモジュールから出力された接合特徴ｃ_ｔ－１を入力とし、デコーダモジュールの現在の復号化時刻の状況ベクトルｄ_ｔを求める。デコーダモジュールはｄ_ｔとｃ_ｔを二層目の長短期記憶層の入力とし、デコーダモジュールの出力特徴

を求める。

５.分類器モジュール：
分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。

具体的には、分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴

を用いて、認識対象音声の現在の復号化時刻の認識結果を決定してもよい。

以上からわかるように、出力特徴

は、デコーダモジュールの状況ベクトルｄ_ｔと現在の復号化時刻に必要な接合特徴ｃ_ｔに基づいて共同で決定されたものであり、接合特徴ｃ_ｔにおける

には、ホットワードの情報の一部でなく、潜在的ホットワードの完全なオーディオ情報が含まれるため、これに基づいて決定されたホットワード関連特徴

もより正確である。よって、最終的に得られた出力特徴

もより正確であり、さらにこれに基づいて決定された認識結果もより正確で、ホットワードの認識精度を高めることができるのが確認される。

本出願の一実施例では、分類器モジュールの２つの実施形態が提供され、その１つは、従来の一般静的分類器を採用している。当該静的分類器の分類ノードの数が一定に維持され、共通文字が含まれる。分類器モジュールは出力特徴

に基づいて各分類ノード文字の得点確率を決定し、最終的な認識結果に組み合わせる。

しかしながら、このような常用静的分類器は、ホットワードを常用文字の組み合わせで表し、ホットワードを文字ごとに復号化すると、ホットワードセグメントでないホットワードが誤ってトリガされてしまうことが多い。例えば、「這個模型訓飛了」を認識対象音声の内容とする音声データについて、「科大訊飛」をホットワードとすると、静的分類器を用いた認識結果が「這個模型訊飛了」になる可能性がある。「訓飛」とホットワードの「科大訊飛」における「訊飛」との２文字の発音が同じであるため、静的分類器がホットワードを文字ごとに復号化し、１文字ずつインセンティブを与えることで、各文字にインセンティブが与えられる可能性があり、音声セグメントのうち、ホットワードが含まれる部分の発音とマッチングする内容を誤ってホットワードの一部としてインセンティブを与える可能性が高い。つまり、「訓飛」における「訓」をホットワードである「科大訊飛」における「訊」として誤って認識してしまう。

このため、本出願は分類器モジュールの新構造を提供し、分類器モジュールの分類ノードには、固定の常用文字ノードに加えて、動的に拡張可能なホットワードノードも含まれるため、従来技術のようにホットワードを分割して、文字ごとに認識したり、インセンティブを与えたりする必要がなく、直接にホットワードの全体を認識することができる。なお、上述した例で説明するように、音声データである「這個模型訓飛了」について、「訓飛」がホットワードである「科大訊飛」の一部の文字と発音だけ同じであるが、ホットワードである「科大訊飛」の全体との一致度が高くないため、ホットワード全体の誤認識の問題が発生しない。一方、音声データに特定のホットワードが含まれている場合、本実施例の分類器モジュールにより、分類ノードにホットワードが丸ごと含まれるため、ホットワードを丸ごと認識し、ホットワードの認識効果を向上させることができる。

本実施例の分類器モジュールにおけるホットワードノードの数は、シーンによって動的
調整でき、現在のシーンに対応するホットワードシソーラスにＮ個のホットワードがある場合、同じくＮ個のホットワードノードを設定することができる。中国語の音声認識を例として、漢字をモデリング単位とし、常用漢字の数をＶ個とすると、分類器モジュールの固定の常用文字ノードの数はＶとし、またホットワードシソーラスに合計Ｎ個のホットワードが存在すると、分類器モジュールのホットワードノードの数はＮとし、つまり分類器モジュールのすべての分類ノードの数はＶ＋Ｎとする。

上記のような新構造の分類器モジュールに基づき、分類器モジュールが音声認識を行う過程は以下を含んでもよい。
分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴

を用いて、各常用文字ノードの確率得点及び各ホットワードノードの確率得点を決定し、よって最終的な認識結果を決定する。

１つの選択可能な形態において、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴

を用いて、各常用文字ノードの確率得点及び各ホットワードノードの確率得点をそれぞれ決定することができる。

別の選択可能な形態において、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴

を用いて、各常用文字ノードの確率得点を決定することができる。さらに、上記の実施例で説明されたホットワードマッチング係数ベクトルｂ^ｔを用いて、各ホットワードノードの確率得点を決定する。

分類器モジュールにおける固定の常用文字ノードについて、その確率得点を、静的分類器を用いて決定できることが理解される。具体的には、静的分類器はデコーダモジュールの現在の復号化時刻の出力特徴

を用いて、各常用文字ノードの確率得点を決定する。

静的分類器はＶ次元の確率分布（

で表す）を出力する。
ここで、ｙ_ｔは現在の復号化時刻ｔの復号化対象文字を表し、行列Ｗは静的分類器のモデルパラメータとし、デコーダモジュールの出力特徴

の次元をＭとすると、ＷはＶ＊Ｍの行列を表し、Ｐ_ｖ（ｙ_ｔ）の要素は常用文字ノードの常用文字の確率得点を表す。

分類器モジュールにおける動的に拡張可能なホットワードノードについて、その確率得点はホットワード分類器を用いて決定されてもよい。具体的には、ホットワード分類器はホットワードマッチング係数ベクトルｂ^ｔを用いて、各ホットワードノードの確率得点を決定してもよい。

前述した過程では、ホットワードマッチング係数ベクトルｂ^ｔには、各ホットワードを現在の復号化時刻の復号化対象文字とする確率が含まれるため、当該確率をそのホットワードノードの確率得点として使用することができる。

ここで、

はｉ番目のホットワードを現在の復号化時刻の復号化文字とする確率を表し、これをｉ番目のホットワードノードの確率得点とすることができる。０番目のホットワードが「<no-bias>」である場合は「ホットワードでない」ことを示す。ｉは０である場合、

は復号化結果が「ホットワードでない」である確率得点を示す。

常用文字ノード及びホットワードノードの確率得点が決定された後、２種類のノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することができる。

静的分類器及びホットワード分類器の２つの分類器が同時に存在するため、どの分類器の結果を最終的な結果とするかを判定するための１つの判断器も分類器モジュールに追加してもよいことが理解される。当該判断器は、現在の復号化時刻ｔにホットワード分類器／静的分類器の結果を最終的な出力結果とする確率得点を表すスカラー型の確率値

を出力する。

で現在の復号化時刻ｔにホットワード分類器の結果を最終的な出力結果とする確率得点を表すことを例として説明する。

は次の通りである。

ここで、ｗ_ｂはモデルパラメータであり、

次元と同じの重みベクトルを示し、sig moidはニューラルネットワーク活性化関数である。

判断器は、２つの分類器から出力された確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することができる。具体的には以下を含んでもよい。
Ｎ個のホットワードにおけるｉ番目のホットワードノード（ｉの値を取る範囲は［１，Ｎ］とする）について、静的分類器から出力された確率分布におけるその得点は０であり、ホットワード分類器におけるその確率得点は

であるため、最終的にその確率得点は

である。Ｖ個の常用文字ｙ_ｔについて、静的分類器から出力された確率分布におけるその得点はＰ_ｖ（ｙ_ｔ）であり、ホットワード分類器におけるその確率得点は

であるため、最終的にその確率得点は

である。

本出願の別の実施例では、上記音声認識モデルの訓練方式を説明する。

本出願に係る音声認識モデルは任意のホットワードに対する認識能力を備える必要があるため、モデル訓練でホットワードを限定できないことを意味する。したがって、本出願では、訓練データのテキスト注釈からランダムに選定された注釈セグメントをホットワードとしてモデル訓練全体に参加させることができる。具体的なプロセスは以下を含んでもよい。

Ｓ１：認識テキストを注釈した音声訓練データを取得する。
ここで、音声訓練データのテキスト注釈シーケンスは次の通りである。
Ｙ＝［ｙ_０，ｙ_１，…，ｙ_ｔ…，ｙ_Ｔ］
ここで、ｙ_ｔはテキスト注釈シーケンスにおけるｔ番目の文字、Ｔ＋１は認識テキストの文字総数を表す。ここで、ｙ_０はセンテンスの開始タグ「<s>」、ｙ_Ｔはセンテンスの終
了タグ「</s>」である。

中国語の音声認識を例とし、単一の漢字をモデリング単位とする。「歓迎来到科大訊飛」をセンテンスのテキスト内容とし、合計８個の漢字があり、センテンスの開始タグと終了タグを加えて、テキスト注釈シーケンスは合計１０個の文字がある場合、テキスト注釈シーケンスは次の通りである。
Ｙ＝［< s >,歓、迎、来、到、科、大、訊、飛、</ s >］。

Ｓ２：前記音声訓練データのオーディオ特徴を取得する。
ここで、オーディオ特徴としては、フィルタバンク（ＦｉｌｔｅｒＢａｎｋ）特徴、メル周波数ケプストラム係数（ＭＦＣＣ）特徴、知覚的線形予測（ＰＬＰ）特徴などが挙げられる。

Ｓ３：前記音声訓練データの注釈テキスからランダムに選定された注釈セグメントを訓練ホットワードとする。

具体的には、本出願では、あらかじめＰとＮとの２つのパラメータを設定してもよい。Ｐはあるセンテンスの訓練データについて訓練ホットワードを選定するかどうかの確率とし、Ｎは選定された訓練ホットワードの最大字数とする。そうすると、訓練ホットワードとして任意のセンテンスの訓練データが選択される確率はＰであり、訓練ホットワードとして当該センテンスの訓練データのテキスト注釈シーケンスから最大Ｎ個連続した文字を選定する。「歓迎来到科大訊飛」を例として、当該センテンスから訓練ホットワードを選定するときの注釈の比較は下の表に示す。

ここで、上の表の第１の注釈は、「科大訊飛」が訓練ホットワードとして選定されたものであり、第２の注釈は、「科大」が訓練ホットワードとして選定されたものである。

以上からわかるように、原始注釈の「科」、「大」、「訊」、「飛」が訓練ホットワードとして選定される場合、この四つの文字を「科大訊飛」に結合し、その後ろに特殊なタグ「<bias>」を付ける必要がある。「<bias>」の役割は、訓練エラーを導入し、モデル訓練の時に訓練ホットワードに関するモデルパラメータ（ホットワードエンコーダモジュールなど）を強制的に更新することである。「科大訊飛」又は「科大」が訓練ホットワードとして選定された後、それを今回のモデル更新のための訓練ホットワードリストに追加し、ホットワードエンコーダモジュールの入力及び分類器モジュールの訓練ホットワード分類ノードとする。モデル更新を行うたびに訓練ホットワードの選定を個別に行い、初期時刻の訓練ホットワードリストは空である。

Ｓ４：前記訓練ホットワード、前記オーディオ特徴及び音声訓練データの認識テキストを用いて音声認識モデルを訓練する。

具体的には、訓練ホットワードとオーディオ特徴を訓練サンプルの入力とし、音声訓練データの認識テキストをサンプルラベルとし、音声認識モデルを訓練する。

また、本出願の実施例は音声認識装置を提供し、下記のように本出願の実施例に係る音声認識装置を説明し、下述した音声認識装置と上述した音声認識方法とは互いに参照することができる。

図６は、本出願の実施例に係る音声認識装置の構造を示し、当該音声認識装置は、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニット１１と、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニット１２と、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニット１３と、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニット１４とを含んでもよい。

選択肢として、上記のオーディオ関連特徴取得ユニットは、
現在の復号化時刻より前の復号化済み結果情報を取得する第１のオーディオ関連特徴取得サブユニットと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定する第２のオーディオ関連特徴取得サブユニットとを含んでもよい。

選択肢として、上記のオーディオ関連特徴取得ユニット、ホットワード関連特徴取得ユニット及び認識結果取得ユニットの実現過程は音声認識モデルを用いて行われる。具体的には、あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワードシソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を得る。

ここで、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える。

具体的には、音声認識モデルは、現在の復号化時刻より前の復号化済み結果情報及びホットワードシソーラスに基づいて、オーディオ特徴から現在の復号化時刻に必要なオーディオ関連特徴を決定し、オーディオ関連特徴に基づいて、ホットワードシソーラスから現
在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、認識対象音声の現在の復号化時刻における認識結果を決定する能力を備えてもよい。

選択肢として、音声認識モデルには、オーディオエンコーダモジュール、ホットワードエンコーダモジュール、共同注意モジュール、デコーダモジュール及び分類器モジュールが含まれてもよい。

ここで、前記オーディオエンコーダモジュールが前記認識対象音声の符号化を行い、オーディオ符号化結果を得る。

具体的には、前記オーディオエンコーダモジュールで前記オーディオ特徴の符号化を行い、各フレームの音声のオーディオ特徴ベクトルからなるオーディオ特徴ベクトルシーケンスを得る。

前記ホットワードエンコーダモジュールが前記ホットワードシソーラスの各ホットワードに対して符号化を行い、ホットワード符号化結果を得る。

具体的には、前記ホットワードエンコーダモジュールで前記各ホットワードを個別に符号化し、各ホットワードを個別に符号化した後の各ホットワード特徴ベクトルからなるホットワード特徴ベクトルのシーケンスを得る。

前記共同注意モジュールは、前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る。前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。

前記デコーダモジュールは、前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得る。

前記分類器モジュールは、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。

ここで、選択肢として、前記共同注意モジュールは、
第１のアテンションモデル及び第２のアテンションモデルを含んでもよい。

前記第１のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する。

具体的には、前記状況ベクトル、前記ホットワード符号化結果を第１のアテンションモデルの入力として、前記第１のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。

前記第２のアテンションモデルは、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定する。

具体的には、前記オーディオ関連特徴を第２のアテンションモデルの入力として、前記第２のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。

前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する。

選択肢として、上記のホットワードエンコーダモジュールが前記各ホットワードを個別に符号化する過程は、
前記ホットワードエンコーダモジュールが設定された次元に基づいて、前記各ホットワードをそれぞれ同じ次元のホットワード特徴ベクトルに個別に符号化することを含んでもよい。

選択肢として、上記の第１のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及びホットワード特徴スベクトルのシーケンスに基づいて、前記オーディオ特徴スベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定する過程は、
第１のアテンションモデルが、それぞれ前記ホットワード特徴ベクトルシーケンスにおける各ホットワード特徴ベクトルと前記状況ベクトルの組み合わせをクエリ項目とし、前記オーディオ特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、任意のホットワードと任意のフレームの音声の一致度を含むマッチング係数行列を得ることと、
前記マッチング係数行列に基づいて、前記オーディオ特徴ベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定することとを含んでもよい。

選択肢として、上記の第１のアテンションモデルは前記マッチング係数行列に基づいて、前記オーディオ特徴ベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定する過程は、
前記マッチング係数行列に基づいて、各ホットワードを現在の復号化時刻の復号化対象文字とする確率を決定することと、
前記マッチング係数行列及び各ホットワードを現在の復号化時刻の復号化対象文字とする確率に基づいて、各フレームの音声を現在の復号化時刻に必要な音声内容とする確率を決定することと、
各フレームの音声を現在の復号化時刻に必要な音声内容とする確率を加重係数とし、前記オーディオ特徴ベクトルシーケンスにおける各フレーム音声のオーディオ特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なオーディオ関連特徴を得ることとを含んでもよい。

選択肢として、上記の第２のアテンションモデルは、オーディオ関連特徴に基づいて、ホットワード特徴ベクトルシーケンスから現在の復号化時刻に必要なホットワード関連特徴を決定する過程は、
第２のアテンションモデルが、前記オーディオ関連特徴をクエリ項目とし、前記ホットワード特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、各ホットワードを現在の復号化時刻の復号化対象文字とする確率を含むホットワードマッチング係数ベクトルを得ることと、
各ホットワードを現在の復号化時刻の復号化対象文字とする確率を加重係数とし、前記ホットワード特徴ベクトルシーケンスにおける各ホットワードのホットワード特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なホットワード関連特徴を得ることとを含んでもよい。

選択肢として、また、上記の共同注意モジュールは前記ホットワードマッチング係数ベクトルを前記分類器モジュールに送信してもよい。前記分類器モジュールは、具体的に、前記デコーダモジュールの現在の復号化時刻の出力特徴及び前記ホットワードマッチング
係数ベクトルを用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。

選択肢として、上記の分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含んでもよい。これに基づき、
分類器モジュールは、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定してもよい。前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定する。

具体的には、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点を決定してもよい。

分類器モジュールは前記ホットワードマッチング係数ベクトルを用いて、前記各ホットワードノードの確率得点を決定する。

前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定する。

選択肢として、本出願の装置はまた、モデル訓練ユニットを含んでもよく、
認識テキストを注釈する音声訓練データを取得し、
前記音声訓練データのオーディオ特徴を取得し、
前記音声訓練データの注釈テキスからランダムに選定した注釈セグメントを訓練ホットワードとし、
前記訓練ホットワード、前記オーディオ特徴及び音声訓練データの認識テキストを用いて音声認識モデルを訓練するために使用される。

選択肢として、上記のデータ取得ユニットが認識対象音声のオーディオ特徴を取得する過程は、
認識対象音声の次のいずれか一つのオーディオ特徴を取得することを含んでもよい。
フィルタバンク（ＦｉｌｔｅｒＢａｎｋ）特徴、メル周波数ケプストラム係数（ＭＦＣＣ）特徴、知覚的線形予測（ＰＬＰ）特徴。

本出願の実施例はまた、一つの電子設備を提供する。図７は、当該電子設備の構造図を示す。当該電子設備は、少なくとも１つのプロセッサ１００１、少なくとも１つの通信ポート１００２、少なくとも１つのメモリ１００３、少なくとも１つの通信バス１００４を含んでもよい。

本出願の実施例において、プロセッサ１００１、通信ポート１００２、メモリ１００３、通信バス１００４の数が少なくとも１つであり、且つプロセッサ１００１、通信ポート１００２、メモリ１００３は、通信バス１００４を介して相互通信を行う。

プロセッサ１００１は、１つの中央プロセッサＣＰＵ、又は特定用途向け集積回路ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、又は本出願の実施例を実施するように構成されている１つ又は複数の集積回路などであり得る。

メモリ１００３は、高速ＲＡＭメモリを含んでもよく、また、少なくとも１つのディスクメモリなどの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）などを含んでもよい。

このうち、メモリには、プログラムを格納し、プロセッサは、メモリに格納されるプログラムを呼び出してもよい。前記プログラムは、
認識対象音声及び設定されたホットワードシソーラスを取得し、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定するために使用される。

選択肢として、前記プログラムの詳細化機能及び拡張機能は、上記の説明を参照することができる。

本出願の実施例は、また、読取可能な記憶媒体を提供する。当該読取可能な記憶媒体は、プロセッサによって実行されるように適合されるプログラムを格納することができる。前記プログラムは、
認識対象音声及び設定されたホットワードシソーラスを取得し、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定するために使用される。

さらに、本出願の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の音声認識方法のうち、いずれか一つの実施形態を実行させる。

最後に、説明すべき点については、本明細書では、第一及び第二のような関係用語は、単に１つのエンティティ又は動作を別のエンティティ又は動作から区別するために使用され、これらのエンティティ又は動作の間にそのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、排他的ではない「含む」をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「１つの…を含む」という文によって限定される要素は、前記要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。

本明細書中の各実施例は、漸進的に説明されており、各実施例では、他の実施例との相違点に重点を置いて説明され、各実施例が場合によって相互に結合してもよく、同一で類似している部分は互いに参照すればよい。

開示された実施例の上記の説明は、当業者が本発明を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本発明は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。

Claims

音声認識方法であって、
認識対象音声及び設定されたホットワードシソーラスを取得することと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定することと、
を含むことを特徴とする音声認識方法。
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
現在の復号化時刻より前の復号化済み結果情報を取得することと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
を含むことを特徴とする請求項１に記載の方法。
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定するプロセスは、
あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワードシソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を取得することを含み、
このうち、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える、
ことを特徴とする請求項２に記載の方法。
前記音声認識モデルは、
前記認識対象音声の符号化を行い、オーディオ符号化結果を得るオーディオエンコーダモジュールと、
前記ホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得るホットワードエンコーダモジュールと、
前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る共同注意モジュールと、
前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得るデコーダモジュールと、
デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する分類器モジュールとを含み、
前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む、
ことを特徴とする請求項３に記載の方法。
前記共同注意モジュールは、
デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する第１のアテンションモデルと、
前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時
刻に必要なホットワード関連特徴を決定する第２のアテンションモデルとを含み、
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する、
ことを特徴とする請求項４に記載の方法。
前記第１のアテンションモデルが、デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
前記状況ベクトル、前記ホットワード符号化結果を第１のアテンションモデルの入力として、前記第１のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することを含む、
ことを特徴とする請求項５に記載の方法。
前記第２のアテンションモデルが、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することは、
前記オーディオ関連特徴を第２のアテンションモデルの入力として、前記第２のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することを含む、
ことを特徴とする請求項５に記載の方法。
前記分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含み、
分類器モジュールが、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定することは、
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定することと、
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することと、
を含むことを特徴とする請求項４に記載の方法。
前記動的に拡張可能なホットワードノードと前記ホットワードシソーラスにおけるホットワードとは１対１対応する、
ことを特徴とする請求項８に記載の方法。
前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
認識対象音声を取得し、前記認識対象音声の会話シーンを決定することと、
前記会話シーンに関するホットワードシソーラスを取得することと、
を含むことを特徴とする請求項１～９のいずれか１項に記載の方法。
前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
ヒューマンコンピュータインタラクションシーンでのユーザーからの音声を認識対象音声として取得することと、
ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することと、
を含むことを特徴とする請求項１～９のいずれか１項に記載の方法。
前記認識対象音声の認識結果に基づいて、前記認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力すること、
をさらに含むことを特徴とする請求項１１に記載の方法。
音声認識装置であって、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニットと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニットと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニットと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニットと、
を含むことを特徴とする音声認識装置。
音声認識設備であって、
プログラムを格納するメモリと、
前記プログラムを実行し、請求項１～１２のいずれか１項に記載の音声認識方法の各ステップを実現するプロセッサと、
を含むことを特徴とする音声認識設備。
コンピュータプログラムを格納する読取可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される時に、請求項１～１２のいずれか１項に記載の音声認識方法の各ステップを実現する、
ことを特徴とする読取可能な記憶媒体。
コンピュータプログラム製品であって、
端末装置で実行される時に、前記端末装置に請求項１～１２のいずれか１項に記載の方法を実行させる、
ことを特徴とするコンピュータプログラム製品。