JP2021515905A

JP2021515905A - 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム

Info

Publication number: JP2021515905A
Application number: JP2020542123A
Authority: JP
Inventors: リン，シルン; ジャン，シィリン; マ，ウエンホア; リィウ，ボ; リ，シンホォイ; ルゥ，リ; ジアン，シィウツァイ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2018-03-22
Filing date: 2019-02-27
Publication date: 2021-06-24
Anticipated expiration: 2039-02-27
Also published as: US11450312B2; JP6980119B2; WO2019179285A1; CN108564941A; US20200312309A1; EP3770905A1; CN108564941B; EP3770905A4

Abstract

本願は、音声認識方法、装置、及びデバイスに関する。前記方法は、音声情報を取得するステップ（２０１）と、ＷＦＳＴによって、音声情報における候補音声セグメントの開始位置及び終了位置を決定するステップ（２０２）と、候補音声セグメントの開始位置及び終了位置に基づいて、音声情報から該候補音声セグメントを切り取るステップ（２０３）と、候補音声セグメントを機械学習モデルに入力し、機械学習モデルによって、候補音声セグメントに所定のキーワードが含まれるか否かを検出するステップ（２０４）と、を含む。機械学習モデルによって、ＷＦＳＴによって粗い位置決定を行った候補音声セグメントを検証し、候補音声セグメントに所定のキーワードが含まれるか否かを決定し、関連技術において、意味のない音声情報を意味のある音声情報として認識することで、誤ウェイクアップを発生させる恐れがあるという問題を解決し、音声認識の正確率を向上させる。

Description

［関連出願への相互参照］
本願は、２０１８年３月２２日に中国特許庁に提出された、出願番号が２０１８１０２４００７６．Ｘであり、発明の名称が「音声認識方法、装置、デバイス、及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。

［技術分野］
本願は、音声認識の分野に関し、特に音声認識方法、装置、デバイス、及び記憶媒体に関する。

音声ウェイクアップは、キーワードスポッティング（ＫＷＳ：ＫｅｙｗｏｒｄＳｐｏｔｔｉｎｇ）とも呼ばれ、休止状態又は画面ロック状態にある電子デバイスに対して、ユーザの音声を認識することにより、ユーザの音声に所定のキーワードが含まれると決定した場合、休止状態及び／又は画面ロック状態を解除し、さらに音声対話操作を開始する機能である。音声ウェイクアップ過程において、音声認識が、重要なステップである。

本願の実施例では、音声認識方法、装置、及びデバイスが提供されている。その構成は、以下のとおりである。

本願の実施例では、端末又はサーバによって実行される音声認識方法が提供されている。前記方法は、
音声情報を取得するステップと、
重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメント並びに前記候補音声セグメントの開始位置及び終了位置を決定するステップと、
前記開始位置及び前記終了位置に基づいて、前記音声情報から前記候補音声セグメントを切り取るステップと、
前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出するステップと、
前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記音声情報に所定のキーワードが含まれると決定するステップと、を含む。

また、本願の実施例では、音声ウェイクアップ方法が提供されている。前記方法は、
端末が、取得された音声情報をサーバに送信するステップと、
前記サーバが、前記音声情報に所定のキーワードが含まれるか否かを検出するステップと、
前記音声情報に前記所定のキーワードが含まれる場合、前記サーバが、前記音声情報から候補音声セグメントを切り取るステップであって、前記候補音声セグメントが、前記所定のキーワードに対応する音声情報セグメントである、ステップと、
前記サーバが、前記候補音声セグメントを検証し、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを再度検出するステップと、
前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記端末にウェイクアップ指示を送信するステップと、
前記端末が、前記ウェイクアップ指示に従って、前記本機の休止状態及び／又は画面ロック状態を解除するステップと、を含む。

また、本願の実施例では、音声認識装置が提供されている。前記装置は、
音声情報を取得する取得モジュールと、
重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメントの開始位置及び終了位置を決定し、前記開始位置及び前記終了位置に基づいて、前記音声情報から前記候補音声セグメントを切り取り、前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに所定のキーワードが含まれるか否かを検出し、前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記音声情報に所定のキーワードが含まれると決定する処理モジュールと、を含む。

また、本願の実施例では、音声認識デバイスが提供されている。前記音声認識デバイスは、プロセッサとメモリとを備え、前記メモリには、少なくとも１つの命令が記憶され、前記少なくとも１つの命令は、前記プロセッサによりロードされて実行されることで、上記のような音声認識方法を実現させる。

また、本願の実施例では、コンピュータ読み取り可能な記憶媒体が提供されている。前記コンピュータ読み取り可能な記憶媒体には、少なくとも１つの命令が記憶され、少なくとも１つの命令は、プロセッサによりロードされて実行されることで、上記のような音声認識方法を実現させる。

本願の実施例の構成をより明確に説明するために、以下、実施例の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているにすぎず、当業者にとって、創造的な労働をせずに、これらの図面から他の図面を得ることもできる。
本願の例示的な一実施例で提供された音声認識方法の実施環境図である。本願の例示的な一実施例で提供された音声認識方法の実施環境図である。本願の例示的な一実施例で提供された音声認識方法のフローチャートである。本願の例示的な一実施例で提供された音声認識方法のフローチャートである。本願の例示的な一実施例で提供された音声情報のフレーム化の模式図である。本願の例示的な一実施例で提供された重み付き有限状態トランスデューサネットワークのアーキテクチャ図である。本願の例示的な一実施例で提供された音声認識方法のフローチャートである。本願の例示的な一実施例で提供された畳み込みニューラルネットワークのアーキテクチャ図である。本願の例示的な一実施例で提供された音声認識方法の全体アーキテクチャ図である。本願の例示的な一実施例で提供された音声認識方法のフローチャートである。本願の例示的な一実施例で提供された音声認識方法の適用シナリオ図である。本願の例示的な一実施例で提供された音声認識方法の適用シナリオ図である。本発明の例示的な一実施例で提供された音声認識装置の構成ブロック図である。本願の例示的な一実施例で提供された音声認識デバイスの構成ブロック図である。

本願の目的、構成、及びメリットをより明確にするために、以下、図面を参照しながら、本願の実施形態をさらに詳しく説明する。

わかりやすくするために、以下、本願の実施例に係る用語を解釈する。

機械学習モデルは、演算モデルであり、大量のノード（ニューロンとも呼ばれる）同士が相互に結合して構成される。各々のノードは１つの方策関数に対応し、２つずつのノード間の結合は、重みと呼ばれる、該結合を通過する信号の加重値を表す。サンプルが機械学習モデルのノードに入力された後、各ノードから１つの出力結果が出力され、該出力結果が次のノードへの入力サンプルとされ、機械学習モデルは、サンプルの最終的な出力結果に基づいて、各ノードの方策関数及び重みを調整する。この過程は、訓練と呼ばれる。

重み付き有限状態トランスデューサネットワークは、有限個の状態、並びにこれらの状態間の遷移及び動作などの振る舞いを示す数学モデルである。本願の実施例では、重み付き有限状態トランスデューサネットワークは、音響モデルと、辞書と、言語モデルとを含む。

音響モデルは、音声情報に基づいて、対応する事後確率が最大となる隠れ状態を出力する数学モデルである。隠れ状態は、音素であってもよいし、音素よりも小さい音声単位であってもよい。本願の実施例における音響モデルは、隠れマルコフ−ディープニューラルネットワークモデルである。

音素は、音声の自然な属性に基づいて分割された最小音声単位である。音響特性から見ると、音素は、音質の観点から分割された最小音声単位である。生理的特性から見ると、１つの発音動作は、１つの音素を形成する。

隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）は、統計解析モデルの１種であり、隠れた未知パラメータが含まれるマルコフ過程を記述するためのものである。隠れマルコフモデルでは、状態は、直接的に見えるものではなく、状態の影響を受ける何らかの変数が見える。

多層パーセプトロン（ＭＬＰ：ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ）は、順伝播型ニューラルネットワークの１種であり、１組の入力ベクトルを１組の出力ベクトルに非線形にマッピングする。多層パーセプトロンは、誤差逆伝播法を用いて訓練することができる。

ディープニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）は、機械学習モデルの１種であり、２つを超える隠れ層が含まれる多層パーセプトロンである。入力ノードを除いて、各ノードは、いずれも、非線形活性化関数を持つニューロンである。多層パーセプトロンと同様に、ディープニューラルネットワークは、誤差逆伝播法を用いて訓練することができる。

畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）は、機械学習モデルの１種であり、縦続接続される少なくとも２つの畳み込み層と、最上位の全結合層（ＦＣ：ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒｓ）と、ソフトマックス関数（Ｓｏｆｔｍａｘ）とを含み、各畳み込み層の後に１つのプーリング層を含む。ここで、ソフトマックス関数は、正規化指数関数又はＳｏｆｔｍａｘ関数とも呼ばれ、任意の実数を含むあるＫ次元ベクトルｚを、各要素の範囲が（０，１）の間にあって、かつ全ての要素の和が１となるように、他のＫ次元実数ベクトルσ（ｚ）に「圧縮」することができる。

畳み込みニューラルネットワークは、パラメータを共有することによりモデルのパラメータ量を低減させるため、画像認識及び音声認識に広く適用されている。

いくつかの実施例では、音声認識方法は、音声情報に対して特徴の抽出を行い、重み付き有限状態トランスデューサ（ＷＦＳＴ：ＷｅｉｇｈｔｅｄＦｉｎｉｔｅＳｔａｔｅＴｒａｎｓｄｕｃｅｒ）ネットワークによって、音声情報を対応するテキスト情報に変換し、テキスト情報に所定のキーワードが含まれるか否かを検出する、ことを含む。

音声情報を対応するテキスト情報に変換する過程では、音声情報に対して意味認識を行う必要がある。重み付き有限状態トランスデューサネットワークの制限により、意味がないが所定のキーワードに類似する音声情報、例えば雑音、背景音楽の音などが、意味のある音声情報として認識され、電子デバイスの誤ウェイクアップが発生し、認識の正解率が低くなる。

図１Ａ及び図１Ｂを参照されたいが、図１Ａ及び図１Ｂは、本願の例示的な一実施例で提供された音声認識方法の実施環境図を示す。

図１Ａは、本願の実施例で提供された第１種の可能な実施環境であり、該実施環境は、端末１１０及びサーバ１２０を含む。ここで、端末１１０は、有線ネットワーク又は無線ネットワークを介して、サーバ１２０と接続を確立する。

本実施例では、端末１１０が、音声情報を取得し、サーバ１２０が、音声情報を認識し、端末１１０に休止状態及び／又は画面ロック状態の解除を指示する。

端末１１０の無音検出部は、無音環境にユーザの音声があるか否かを決定し、ユーザの音声があると決定した場合、ユーザの音声を録音するために録音部を起動することにより、相応のオリジナル音声信号を取得し、有線ネットワーク又は無線ネットワークを介して、オリジナル音声信号をサーバ１２０に送信する。

サーバ１２０は、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得し、音声情報に所定のキーワードが含まれるか否かを検出し、音声情報に所定のキーワードが含まれる場合、音声情報から候補音声セグメントを切り取り、候補音声セグメントに対して二次検証を行うことにより、候補音声セグメントに所定のキーワードが含まれるか否かを検出し、候補音声セグメントに所定のキーワードが含まれる場合、端末１１０にウェイクアップ指示を送信する。該候補音声セグメントは、所定のキーワードに対応する音声情報セグメントである。

端末１１０は、サーバ１２０から送信されたウェイクアップ指示を受信すると、該ウェイクアップ指示に従って、本機の休止状態及び／又は画面ロック状態を解除する。

図１Ｂは、本願の実施例で提供された第２種の可能な実施環境であり、該実施環境は、端末１１０、端末１３０、及びサーバ１２０を含む。ここで、端末１１０は、有線ネットワーク又は無線ネットワークを介して、サーバ１２０と接続を確立し、端末１３０は、有線ネットワーク又は無線ネットワークを介して、サーバ１２０と接続を確立する。該実施例では、端末１１０が、音声情報を取得し、サーバ１２０が、音声情報を認識し、端末１３０に休止状態及び／又は画面ロック状態の解除を指示する。

サーバ１２０は、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得し、音声情報に所定のキーワードが含まれるか否かを検出し、音声情報に所定のキーワードが含まれる場合、音声情報から候補音声セグメントを切り取り、候補音声セグメントに対して二次検証を行うことにより、候補音声セグメントに所定のキーワードが含まれるか否かを検出し、候補音声セグメントに所定のキーワードが含まれる場合、端末１３０にウェイクアップ指示を送信する。該候補音声セグメントは、所定のキーワードに対応する音声情報セグメントである。

端末１３０は、サーバ１２０から送信されたウェイクアップ指示を受信すると、該ウェイクアップ指示に従って、本機の休止状態及び／又は画面ロック状態を解除する。

一実施例では、端末１１０が、音声情報を取得し、音声情報を認識し、本機の休止状態及び／又は画面ロック状態を解除する。

端末１１０の無音検出部は、無音環境にユーザの音声があるか否かを決定し、ユーザの音声があると決定した場合、ユーザの音声を録音するために録音部を起動することにより、オリジナル音声信号を取得し、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得し、音声情報に所定のキーワードが含まれるか否かを検出し、音声情報に所定のキーワードが含まれる場合、音声情報から候補音声セグメントを切り取り、候補音声セグメントに対して二次検証を行うことにより、候補音声セグメントに所定のキーワードが含まれるか否かを検出し、候補音声セグメントに所定のキーワードが含まれる場合、本機の休止状態及び／又は画面ロック状態を解除する。該候補音声セグメントは、所定のキーワードに対応する音声情報セグメントである。

上記端末は、無音検出部及び録音部を含む電子デバイスであってもよく、携帯電話、タブレットコンピュータ、電子ブックリーダー、ラップトップコンピュータ、デスクトップコンピュータ、スマートスピーカー、スマートロボット、車載制御センターなどであってもよい。

図２を参照されたいが、図２は、本願の例示的な一実施例で提供された音声認識方法のフローチャートを示す。該方法は、図１Ａ及び図１Ｂに示すようなサーバ１２０に適用してもよいし、端末に適用してもよい。該方法は、以下のステップを含む。

ステップ２０１で、音声情報を取得する。

サーバは、端末から送信されたオリジナル音声信号を受信し、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得する。

例示的に、端末は、ユーザの音声があると決定すると、ユーザの音声を録音することにより、オリジナル音声信号を取得し、有線ネットワーク又は無線ネットワークを介して、オリジナル音声信号をサーバに送信する。サーバは、該オリジナル音声信号を受信する。

ステップ２０２で、音声情報における候補音声セグメントの開始位置及び終了位置を決定する。

例示的に、サーバは、重み付き有限状態トランスデューサネットワークによって、音声情報に対応する事後確率が最大となる言語情報を取得し、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定する。

音声情報が時間領域での関数である場合、開始位置及び終了位置は、候補音声セグメントの音声情報における開始時刻及び終了時刻であり、音声情報が周波数領域での関数である場合、開始位置及び終了位置は、候補音声セグメントの音声情報における開始周波数及び終了周波数である。

候補音声セグメントには、少なくとも１フレームの音声セグメントが含まれる。例えば、所定のキーワードが「ｋａｉｑｉ」であり、サーバが重み付き有限状態トランスデューサネットによって取得した、音声情報に対応する事後確率が最大となる言語情報に「ｋａｉｑｉ」が含まれ、「ｋａｉ」が音声セグメント１に対応し、「ｑｉ」が音声セグメント２に対応し、音声セグメント１は、開始時刻がｔ１であり、終了時刻がｔ２であり、音声セグメント２は、開始時刻がｔ３であり、終了時刻がｔ４である。ｔ１がｔ３の前であり、ｔ４がｔ２の後である場合、候補音声セグメントは、音声情報における開始時刻がｔ１であり、終了時刻がｔ４であるセグメントであり、即ち、候補音声セグメントの音声情報における開始位置及び終了位置がｔ１及びｔ４であると決定される。

ステップ２０３で、候補音声セグメントの開始位置及び終了位置に基づいて、音声情報から該候補音声セグメントを切り取る。

サーバは、候補音声セグメントの音声情報における開始位置及び終了位置に基づいて、音声情報から候補音声セグメントを切り取る。

ステップ２０４で、候補音声セグメントを機械学習モデルに入力し、機械学習モデルによって、候補音声セグメントに所定のキーワードが含まれるか否かを検出する。

機械学習モデルは、畳み込みニューラルネットワーク又は重み付き有限状態トランスデューサネットワークを含む。サーバは、重み付き有限状態トランスデューサネットワークによって、候補音声セグメントに対して粗い位置決定を行った後、畳み込みニューラルネットワークによって、候補音声セグメントを検出したり、重み付き有限状態トランスデューサネットワークによって、候補音声セグメントを検出したりしてもよい。例示的に、サーバは、畳み込みニューラルネットワークにおける１番目の畳み込み層によって、候補音声セグメントに対して畳み込み処理を行うことにより、第１高レベルの意味的特徴を取得し、第１高レベルの意味的特徴を１番目のプーリング層に入力することにより、一次圧縮された高レベルの意味的特徴を取得し、一次圧縮された高レベルの意味的特徴を２番目の畳み込み層に入力することにより、第２高レベルの意味的特徴を取得し、第２高レベルの意味的特徴を２番目のプーリング層に入力することにより、二次圧縮された高レベルの意味的特徴を取得し、…、畳み込み処理及びプーリング処理を複数回繰り返すことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。

例示的に、サーバは、重み付き有限状態トランスデューサネットワークによって、候補音声セグメントに対応する事後確率が最大となる言語情報を取得し、該言語情報に所定のキーワードが含まれるか否かを検出する。

ステップ２０５で、候補音声セグメントに所定のキーワードが含まれる場合、音声情報に所定のキーワードが含まれると決定する。

例示的に、畳み込みニューラルネットワークから、候補音声セグメントに所定のキーワードが含まれるという結果が出力される場合、サーバは、音声情報に所定のキーワードが含まれると決定する。

例示的に、候補音声セグメントに対応する事後確率が最大となる言語情報に所定のキーワードが含まれる場合、サーバは、音声情報に所定のキーワードが含まれると決定する。

説明すべきものとして、重み付き有限状態トランスデューサネットワークを用いて候補音声セグメントを検出するのに時間がかかり、かつ畳み込みニューラルネットワークを用いて候補音声セグメントを検証するのに対して、正確度が低い。

以上説明したように、本願の実施例では、機械学習モデルによって、重み付き有限状態トランスデューサネットワークによって粗い位置決定を行った候補音声セグメントを検証し、候補音声セグメントに所定のキーワードが含まれるか否かを決定し、関連技術において、意味のない音声情報を意味のある音声情報として認識することで、誤ウェイクアップを発生させる恐れがあるという問題を解決し、音声認識の正確率を向上させる。

図３を参照されたいが、図３は、本願の例示的な一実施例で提供された音声認識方法のフローチャートを示す。該方法は、図１Ａ及び図１Ｂに示すようなサーバ１２０に適用してもよいし、端末に適用してもよい。該方法は、図２の実施例におけるステップ２０２の１つの実施形態であってもよい、該方法は、以下のステップを含む。

ステップ２０２ａで、音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得する。

例示的に、サーバは、移動窓で音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得する。移動窓は、所定の窓長及びステップ長を有する。各フレームの音声セグメントは、それぞれに対応する開始位置及び終了位置並びに番号インデックスを有する。

音声情報が時間領域での関数である場合、窓長及びステップ長は、所定の時間長を単位とする。図４に示すように、移動窓４００の窓長が２０ミリ秒であり、ステップ長が１０ミリ秒である場合、移動窓４００によって、音声情報は、２０ミリ秒の長さを１フレームとする音声情報に分割され、複数のフレームの音声セグメントの間の重なり長さは、１０ミリ秒である。

ステップ２０２ｂで、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得する。

例示的に、図５に示すように、重み付き有限状態トランスデューサネットワークは、音響モデルと、辞書と、言語モデルとを含む。ここで、音響モデルは、ディープニューラルネットワーク及び隠れマルコフモデルで構成されてもよい。

ディープニューラルネットワークは、縦続接続される少なくとも２つのディープニューラルネットワーク層と、全結合層とを含み、入力された音声セグメントに基づいて、該音声セグメントに対応する隠れ状態の事後確率の数学モデルを出力することができる。図５におけるＶは、ディープニューラルネットワークに入力された音声セグメントを表す。Ｗは、ディープニューラルネットワーク層のうちの各ニューラルネットワーク層のパラメータを表し、例えば、Ｗ１は、１番目のニューラルネットワーク層のパラメータを表し、ＷＭは、第Ｍ層のニューラルネットワーク層のパラメータを表す。ｈ（ｉ）は、ディープニューラルネットワーク層のうちの第ｉ層のニューラルネットワーク層の出力結果を表し、例えば、ｈ（１）は、１番目のニューラルネットワーク層の出力結果を表し、ｈ（Ｍ）は、第Ｍ層のニューラルネットワーク層の出力結果を表す。Ｓ_ｉは、第ｉ種の隠れ状態、例えば、第１種の隠れ状態Ｓ_１、第Ｋ種の隠れ状態Ｓ_Ｋを表す。ａ_ＳｉＳｊは、第ｉ種の隠れ状態Ｓ_ｉと第ｊ種の隠れ状態Ｓ_ｊとの間の遷移確率を表し、例えば、ａ_Ｓ１Ｓ２は、第１種の隠れ状態Ｓ_１と第２種の隠れ状態Ｓ_２との間の遷移確率を表す。

隠れマルコフモデルは、音声セグメントに対応する隠れ状態の事後確率に基づいて、音声セグメントに対応する隠れ状態を出力する数学モデルである。

辞書は、音素と単語との対応関係である。少なくとも１つの音素を辞書に入力することにより、少なくとも１つの音素に対応する事後確率が最大となる文字又は単語を取得することができる。

言語モデルは、単語と構文及び／又は文法との対応関係である。文字又は単語を言語モデルに入力することにより、単語に対応する事後確率が最大となる言語情報を取得することができる。ここで、言語情報は、単語であってもよいし、文であってもよい。

サーバは、複数のフレームの音声セグメントをディープニューラルネットワークに入力して特徴を抽出することにより、各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、隠れマルコフモデルによって、各フレームの音声セグメントに対応する隠れ状態を取得し、各フレームの音声セグメントに対応する隠れ状態に基づいて、複数のフレームの音声セグメントに対応する音素を取得し、辞書によって、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語を取得し、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語に基づいて、言語モデルによって、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得する。

上記の変換過程では、全て事後確率が最大となる経路を選択するため、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより得られるのは、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報である。

ステップ２０２ｃで、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得する。該ステップにおいて、所定のキーワードに対応する音素に基づいて、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定する。

サーバは、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報に所定のキーワードが含まれるか否かを検出し、言語情報に所定のキーワードが含まれると決定した場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得する。

例示的に、１フレームの音声セグメントが１つの隠れ状態に対応し、少なくとも１つの隠れ状態が１つの音素に対応し、少なくとも１つの音素が１つの単語に対応する。所定のキーワードにおける各単語に対応する音素により、キーワードに対応する候補音声セグメントを取得する。音声情報をフレーム化する際に、各音声セグメントに番号インデックスが付与され、各音声セグメントがいずれも開始位置及び終了位置の属性を有するため、候補音声セグメントの音声情報における開始位置及び終了位置を取得することができる。

以上説明したように、本願の実施例では、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得し、候補音声セグメントを認識する正確率を向上させることができる。

さらに、本願の実施例では、複数のフレームの音声セグメントをディープニューラルネットワークに入力することにより、各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、ディープニューラルネットワークが強い特徴抽出能力を有するため、ディープニューラルネットワークによって得られた、各フレームの音声セグメントに対応する隠れ状態の事後確率がより正確になり、候補音声セグメントを認識する正確率が向上する。

図６を参照されたいが、図６は、本願の例示的な一実施例で提供された音声認識方法のフローチャートを示す。該方法は、図１Ａ及び図１Ｂに示すようなサーバ１２０に適用されてもよいし、端末に適用されてもよい。該方法は、図２の実施例におけるステップ２０４の１つの実施形態であってもよい。該方法は、以下のステップを含む。

ステップ２０４ａで、候補音声セグメントを畳み込みニューラルネットワークに入力する。

サーバは、図２の実施例又は図３の実施例の方法で候補音声セグメントを取得した後、候補音声セグメントを畳み込みニューラルネットワークに入力する。

例示的に、図７Ａに示すように、畳み込みニューラルネットワークは、少なくとも２つの畳み込み層と、１つの全結合層と、１つのソフトマックス関数とを含み、各層の畳み込み層の後に１つのプーリング層をさらに含む。図中では２つの畳み込み層を例に説明しているが、畳み込みニューラルネットワークが２つのみの畳み込み層を含むことを表すのではない。

ステップ２０４ｂで、畳み込みニューラルネットワークによって、候補音声セグメントに対して畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。

例示的に、サーバは、畳み込みニューラルネットワークにおける１番目の畳み込み層によって、候補音声セグメントに対して畳み込み処理を行うことにより、第１高レベルの意味的特徴を取得し、第１高レベルの意味的特徴を１番目のプーリング層に入力することにより、一次圧縮された高レベルの意味的特徴を取得し、一次圧縮された高レベルの意味的特徴を２番目の畳み込み層に入力することにより、第２高レベルの意味的特徴を取得し、第２高レベルの意味的特徴を２番目のプーリング層に入力することにより、二次圧縮された高レベルの意味的特徴を取得し、…、畳み込み処理及びプーリング処理を複数回繰り返すことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。

ステップ２０４ｃで、畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、候補音声セグメントの高レベルの意味的特徴を分類し、候補音声セグメントに所定のキーワードが含まれるか否かを検出する。

例示的に、候補音声セグメントに対して多層の畳み込み層及びプーリング層の処理を行うことにより、高レベルの意味的特徴を取得し、全結合層によって、各層の畳み込み層及びプーリング層で抽出された高レベルの意味的特徴を結合して、ソフトマックス関数に渡し、ソフトマックス関数によって、高レベルの意味的特徴を分類し、候補音声セグメントに所定のキーワードが含まれるか否かの結果を出力する。

図７Ｂは、本願の実施例で提供された音声認識方法の全体的なアーキテクチャ図である。図示されたように、複数のフレームの音声セグメントを音響モデルに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる音素を取得し、辞書によって、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語を取得し、言語モデルによって、複数のフレームの音声セグメントに対応する事後確率が最大となる単語又は文を取得し、これにより、単語又は文に所定のキーワードが含まれるか否かを検出し、単語又は文に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントを切り取り、候補音声セグメントを畳み込みニューラルネットワークに入力して検証し、最終的な検証結果を出力する。

以上説明したように、本願の実施例では、候補音声セグメントを畳み込みニューラルネットワークに入力して、畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出し、全結合層によって、抽出された高レベルの意味的特徴を結合して、分類のためにソフトマックス関数に渡すことにより、候補音声セグメントに所定のキーワードが含まれるか否かの結果を取得し、候補音声セグメントが、重み付き有限状態トランスデューサネットワークによって予備的な位置決定を行うことにより取得されたものであるため、認識率を確保すると同時に、音声認識の正確率を向上させる。

図８を参照されたいが、図８は、本願の例示的な一実施例で提供された音声認識方法のフローチャートを示す。該方法は、図１Ａに示すような実施環境に適用されてもよい。該方法は、以下のステップを含む。

ステップ８０１で、端末は、取得されたオリジナル音声信号をサーバに送信する。

例示的に、端末の無音検出モジュールは、ユーザの音声があるか否かを判断し、ユーザの音声があると決定した場合、ユーザの音声を録音するために録音モジュールを起動することにより、相応のオリジナル音声信号を取得し、有線ネットワーク又は無線ネットワークを介して、オリジナル音声信号をサーバに送信する。

ステップ８０２で、サーバは、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得する。

サーバは、受信されたオリジナル音声信号に対して予備的な特徴抽出を行うことにより、音声情報を取得する。該音声情報は、時間領域又は周波数領域での関数である。

ステップ８０３で、サーバは、音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得する。

例示的に、サーバは、移動窓で音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得する。ここで、移動窓は、所定の窓長及びステップ長を有する。各フレームの音声セグメントは、それぞれに対応する開始位置及び終了位置並びに番号インデックスを有する。

ステップ８０４で、サーバは、複数のフレームの音声セグメントをディープニューラルネットワークに入力することにより、複数のフレームの音声セグメントのうちの各フレームの音声セグメントと、それに対応する隠れ状態との間の事後確率を取得する。

ディープニューラルネットワークから出力されるのは、各フレームの音声セグメントと、それに対応する隠れ状態との間の事後確率であるため、ディープニューラルネットワークによって、各フレームの音声セグメントに対応する隠れ状態を取得できず、隠れマルコフモデルによって、各フレームの音声セグメントに対して順方向復号を行う必要がある。

ステップ８０５で、サーバは、ベイズの公式によって、各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、各フレームの音声セグメントに対応する隠れ状態の出力確率を取得する。

例示的に、隠れマルコフモデルによって、各フレームの音声セグメントに対して順方向復号を行うには、音声セグメントに対応する隠れ状態の出力確率が必要となる。サーバは、ベイズの公式によって、各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、各フレームの音声セグメントに対応する隠れ状態の出力確率を取得する。

ステップ８０６で、サーバは、各フレームの音声セグメントに対応する隠れ状態の出力確率、隠れマルコフモデルにおける各隠れ状態の初期確率及び各隠れ状態間の遷移確率に基づいて、隠れマルコフモデルによって順方向復号を行うことにより、複数のフレームの音声セグメントに対応する事後確率が最大となる隠れ状態を取得する。

隠れマルコフモデルにおける各隠れ状態の初期確率及び各隠れ状態間の遷移確率は、訓練済みのパラメータである。ステップ８０４で取得された各フレームの音声セグメントに対応する隠れ状態の出力確率に基づいて、各隠れ状態の初期確率及び各隠れ状態間の遷移確率を参照しながら、隠れマルコフモデルによって、各フレームの音声セグメントに対して順方向復号を行うことにより、複数のフレームの音声セグメントに対応する事後確率が最大となる隠れ状態を取得する。

ステップ８０７で、サーバは、各フレームの音声セグメントに対応する隠れ状態に基づいて、複数のフレームの音声セグメントに対応する音素を取得する。

音素は、少なくとも１つの隠れ状態で構成される。サーバは、各フレームの音声セグメントに対応する隠れ状態に基づいて、複数のフレームの音声セグメントに対応する音素を取得する。

ステップ８０８で、サーバは、複数のフレームの音声セグメントに対応する音素に基づいて、辞書及び言語モデルを参照することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得する。

単語は、少なくとも１つの音素で構成され、辞書には、単語と音素との対応関係が含まれる。サーバは、辞書によって、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語を取得し、複数のフレームの音声セグメントに対応する事後確率が最大となる文字又は単語に基づいて、言語モデルによって、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得する。ここで、言語情報は、単語であってもよいし、文であってもよい。言語モデルは、単語と文法及び／又は構文との対応関係である。

上記辞書における単語と音素との対応関係、及び言語モデルにおける単語と文法及び／又は構文との対応関係は、確率的な対応関係である。サーバが、複数のフレームの音声セグメントに対応する音素に基づいて、辞書及び言語モデルにより取得された、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報は、確率が最大となる検索経路で取得された、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報である。

ステップ８０９で、言語情報に所定のキーワードが含まれる場合、サーバは、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得する。該ステップにおいて、サーバは、所定のキーワードに対応する音素に基づいて、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定する。

サーバは、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報に所定のキーワードが含まれるか否かを検出し、言語情報に所定のキーワードが含まれると決定した場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定する。複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報に所定のキーワードが含まれない場合、本ステップを終了する。

ステップ８１０で、サーバは、候補音声セグメントの音声情報における開始位置及び終了位置に基づいて、音声情報から候補音声セグメントを切り取る。

ステップ８１１で、サーバは、候補音声セグメントを前記畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークによって、候補音声セグメントに対して畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。

例示的に、サーバは、切り取られた候補音声セグメントを前記畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにおける１番目の畳み込み層によって、候補音声セグメントに対して畳み込み処理を行うことにより、第１高レベルの意味的特徴を取得し、第１高レベルの意味的特徴を１番目のプーリング層に入力することにより、一次圧縮された高レベルの意味的特徴を取得し、一次圧縮された高レベルの意味的特徴を２番目の畳み込み層に入力することにより、第２高レベルの意味的特徴を取得し、第２高レベルの意味的特徴を２番目のプーリング層に入力することにより、二次圧縮された高レベルの意味的特徴を取得し、…、畳み込み及びプーリングの処理を複数回繰り返すことにより、候補音声セグメントの高レベルの意味的特徴を抽出する。

ステップ８１２で、サーバは、畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、候補音声セグメントの高レベルの意味的特徴を分類し、候補音声セグメントに前記所定のキーワードが含まれるか否かを検出する。

ステップ８１３で、候補音声セグメントに所定のキーワードが含まれる場合、サーバは、端末にウェイクアップ指示を送信する。

畳み込みニューラルネットワークから出力された結果として、候補音声セグメントに所定のキーワードが含まれる場合、サーバは、有線ネットワーク又は無線ネットワークを介して、端末にウェイクアップ指示を送信する。

ステップ８１４で、端末は、ウェイクアップ指示に従って、本機の休止状態及び／又は画面ロック状態を解除する。

端末は、サーバから送信されたウェイクアップ指示を受信すると、該ウェイクアップ指示に従って、本機の休止状態及び／又は画面ロック状態を解除する。

以上説明したように、本願の実施例では、畳み込みニューラルネットワークによって、重み付き有限状態トランスデューサネットワークによって粗い位置決定を行った候補音声セグメントを検証し、候補音声セグメントに所定のキーワードが含まれるか否かを決定し、関連技術において、意味のない音声情報を意味のある音声情報として認識することで、誤ウェイクアップを発生させる恐れがあるという問題を解決し、音声認識の正確率を向上させる。

さらに、本願の実施例では、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を取得し、候補音声セグメントを認識する正確率を向上させることができる。

さらに、本願の実施例では、候補音声セグメントを畳み込みニューラルネットワークに入力して、畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出し、全結合層によって、抽出された高レベルの意味的特徴を結合して、分類のためにソフトマックス関数に渡すことにより、候補音声セグメントに所定のキーワードが含まれるか否かの結果を取得し、候補音声セグメントが、重み付き有限状態トランスデューサネットワークによって予備的な位置決定を行うことにより取得されたものであるため、認識率を確保すると同時に、音声認識の正確率を向上させる。

図９及び図１０は、本願の例示的な一実施例で提供された音声認識方法の適用シナリオを示す。

図９の適用シナリオでは、スマートロボット９１０、スマートスピーカー９２０、スマートフォン９３０などの端末が、有線ネットワーク又は無線ネットワークを介して、取得された音声情報をクラウドに伝送し、クラウドが、上記実施例における方法で、各音声情報には、それぞれに対応する所定のキーワードが含まれるか否かを検出し、所定のキーワードが含まれる場合、対応する端末にウェイクアップ指示を送信し、該端末を休止状態及び／又は画面ロック状態から解除する。

図１０は、オフラインの音声認識の適用シナリオを提供している。ユーザ１０１０は、電子デバイス１０２０にウェイクワード（即ち、所定のキーワード）を言う。電子デバイス１０２０は、ユーザがウェイクワードを言ったことを検出すると、録音によりオリジナル音信号を取得し、オリジナル音声信号に対して予備的な特徴抽出を行うことにより、上記実施例における方法で、音声情報に所定のキーワードが含まれるか否かを検出し、音声情報に所定のキーワードが含まれる場合、本機の休止状態及び／又は画面ロック状態を解除する。

通常、電子デバイスの演算リソースが限られており、異なるハードウェアの電子デバイスに対してカスタマイズを行う必要がある。カスタマイズの流れは、以下のとおりである。電子デバイスメーカーが、電子デバイスの、音声ウェイクアップモジュールに割り当て可能なハードウェアリソースを提供し、サーバが、メーカーから提出されたデータを受信すると、該電子デバイスの割り当て可能なハードウェアリソースの状況に応じて、該電子デバイス上で動作可能なモデルを設計し、電子デバイスの応用環境に適合する訓練データを用いてモデルを訓練し、取得されたモデルに対して結合テスト及び個別最適化を行い、合格になった後、統合のために、モデルを電子デバイスメーカーに送信し、統合が完了すると、ユーザが、オフライン環境下で電子デバイスのウェイクアップを行うことができ、ウェイクアップ方法がオンラインサービスと同じである。

図１１を参照されたいが、図１１は、本願の例示的な一実施例で提供された音声認識装置の構成ブロック図を示す。図示されたように、該装置は、図１Ｂに示す端末１１０、端末１３０、又はサーバ１２０に適用可能である。該装置は、取得モジュール１１１０と、処理モジュール１１２０とを含む。

取得モジュール１１１０は、音声情報を取得する。

処理モジュール１１２０は、重み付き有限状態トランスデューサネットワークによって、音声情報における候補音声セグメントの開始位置及び終了位置を決定し、開始位置及び終了位置に基づいて、音声情報から候補音声セグメントを切り取り、候補音声セグメントを機械学習モデルに入力し、機械学習モデルによって、候補音声セグメントに所定のキーワードが含まれるか否かを検出し、候補音声セグメントに所定のキーワードが含まれる場合、音声情報に所定のキーワードが含まれると決定する。

一実施例では、
処理モジュール１１２０は、さらに、音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得し、複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、
取得モジュール１１１０は、さらに、言語情報に所定のキーワードが含まれる場合、所定のキーワードに対応する候補音声セグメントの音声情報における開始位置及び終了位置を決定し、候補音声セグメントには、少なくとも複数のフレームの音声セグメントのうち１フレームの音声セグメントが含まれる。

一実施例では、重み付き有限状態トランスデューサネットワークは、ディープニューラルネットワークと、隠れマルコフモデルと、辞書と、言語モデルとを含み、
処理モジュール１１２０は、さらに、複数のフレームの音声セグメントをディープニューラルネットワークに入力することにより、複数のフレームの音声セグメントのうちの各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、隠れマルコフモデルによって、各フレームの音声セグメントに対応する隠れ状態を取得し、各フレームの音声セグメントに対応する隠れ状態に基づいて、複数のフレームの音声セグメントに対応する音素を取得し、複数のフレームの音声セグメントに対応する音素に基づいて、辞書及び言語モデルを参照することにより、複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、ここで、前記辞書には、前記音素と単語との対応関係が含まれ、前記言語モデルには、前記単語と文法及び／又は構文との対応関係が含まれる。

一実施例では、
処理モジュール１１２０は、さらに、ベイズの公式によって、各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、各フレームの音声セグメントに対応する隠れ状態の出力確率を取得し、各フレームの音声セグメントに対応する隠れ状態の出力確率、隠れマルコフモデルにおける各隠れ状態の初期確率及び各隠れ状態間の遷移確率に基づいて、隠れマルコフモデルによって順方向復号を行うことにより、各フレームの音声セグメントに対応する隠れ状態を取得する。

一実施例では、
処理モジュール１１２０は、さらに、候補音声セグメントを畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークによって、候補音声セグメントに対して畳み込み及びプーリングを行うことにより、候補音声セグメントの高レベルの意味的特徴を抽出し、畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、候補音声セグメントの高レベルの意味的特徴を分類し、候補音声セグメントに前記所定のキーワードが含まれるか否かを検出する。

図１２を参照されたいが、図１２は、本願の例示的な一実施例で提供された音声認識デバイスの構成ブロック図を示す。該デバイスは、プロセッサ１２１０とメモリ１２２０とを備える。

プロセッサ１２１０は、中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ネットワークプロセッサ（ＮＰ：ｎｅｔｗｏｒｋｐｒｏｃｅｓｓｏｒ）、又はＣＰＵとＮＰとの組み合わせであってもよい。プロセッサ１２１０は、ハードウェアチップをさらに含んでもよい。上記ハードウェアチップは、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、プログラマブルロジックデバイス（ＰＬＤ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ）、又はこれらの組み合わせであってもよい。上記ＰＬＤは、複雑なプログラマブルロジックデバイス（ＣＰＬＤ：ｃｏｍｐｌｅｘｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、汎用アレイロジック（ＧＡＬ：ｇｅｎｅｒｉｃａｒｒａｙｌｏｇｉｃ）、又はこれらの任意の組み合わせであってもよい。

メモリ１２２０は、バスを介して又は他の方式で、プロセッサ１２１０に接続される。メモリ１２２０には、少なくとも１つの命令、少なくとも１つのプログラム、コードセット、又は命令セットが記憶される。上記の少なくとも１つの命令、少なくとも１つのプログラム、コードセット、又は命令セットは、プロセッサ１２１０によりロードされて実行されることで、図２、図３、図６、又は図８のような音声認識方法を実現させる。メモリ１２２０は、揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）、又はこれらの組み合わせであってもよい。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍ−ａｃｃｅｓｓｍｅｍｏｒｙ）、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ：ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）であってもよい。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、例えば、プログラマブル読み出し専用メモリ（ＰＲＯＭ：ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ：ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ：ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ）であってもよい。不揮発性メモリは、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、磁気メモリ、例えば、磁気テープ（ｍａｇｎｅｔｉｃｔａｐｅ）、フロッピーディスク（ｆｌｏｐｐｙｄｉｓｋ）、ハードディスクであってもよい。不揮発性メモリは、光ディスクであってもよい。

また、本願では、コンピュータ読み取り可能な記憶媒体が提供されている。前記記憶媒体には、少なくとも１つの命令、少なくとも１つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも１つの命令、前記少なくとも１つのプログラム、前記コードセット又は命令セットは、前記プロセッサによりロードされて実行されることで、上記の方法の実施例で提供された音声認識方法を実現させる。

また、本願では、命令を含むコンピュータプログラム製品が提供されている。前記コンピュータプログラム製品は、コンピュータ上で動作する際に、上記各態様に記載の音声認識方法をコンピュータに実行させる。

理解すべきものとして、本文で言及される「複数」とは、２つ以上を意味する。「及び／又は」は、関連対象の関連関係を記述するものであり、３種類の関係が存在し得ることを表す。例えば、Ａ及び／又はＢは、Ａが単独で存在すること、Ａ及びＢが同時に存在すること、Ｂが単独で存在することの３種類の場合を表すことができる。符号「／」は、一般的に、前後の関連対象に「又は」という関係があることを表す。

上述した本願の実施例の番号は、記述のためのものにすぎず、実施例の優劣を示すものではない。

当業者であれば理解できるように、上記実施例を実現するステップの全部又は一部は、ハードウェアによって実現されてもよいし、プログラムによって関連ハードウェアに指示することにより実現されてもよい。前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記で言及された記憶媒体は、読出し専用メモリ、磁気ディスク、又は光ディスクなどであってもよい。

上記は、本願の好ましい実施例にすぎず、本願の保護範囲を限定するものではない。本願の精神および原則内で行われる種々の修正、均等置換え、改善などは全て本願の保護範囲内に含まれるべきである。

１１０端末
１２０サーバ
１３０端末
４００移動窓
９１０スマートロボット
９２０スマートスピーカー
９３０スマートフォン
１０１０ユーザ
１０２０電子デバイス
１１１０取得モジュール
１１２０処理モジュール
１２１０プロセッサ
１２２０メモリ

Claims

コンピューティングデバイスが実行する音声認識方法であって、
音声情報を取得するステップと、
重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメントの開始位置及び終了位置を決定するステップであって、前記候補音声セグメントが、所定のキーワードに対応する音声情報セグメントである、ステップと、
前記開始位置及び前記終了位置に基づいて、前記音声情報から前記候補音声セグメントを切り取るステップと、
前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出するステップと、
前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記音声情報に前記所定のキーワードが含まれると決定するステップと、
を含むことを特徴とする方法。
前記重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメントの開始位置及び終了位置を決定するステップは、
前記音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得するステップと、
前記複数のフレームの音声セグメントを前記重み付き有限状態トランスデューサネットワークに入力することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得するステップと、
前記言語情報に所定のキーワードが含まれる場合、前記所定のキーワードに対応する候補音声セグメントの前記音声情報における開始位置及び終了位置を決定するステップであって、前記候補音声セグメントには、少なくとも前記複数のフレームの音声セグメントのうち１フレームの音声セグメントが含まれる、ステップと、
を含むことを特徴とする請求項１に記載の方法。
前記重み付き有限状態トランスデューサネットワークは、ディープニューラルネットワークと、隠れマルコフモデルと、辞書と、言語モデルとを含み、前記複数のフレームの音声セグメントを重み付き有限状態トランスデューサネットワークに入力することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得するステップは、
前記複数のフレームの音声セグメントを前記ディープニューラルネットワークに入力することにより、前記複数のフレームの音声セグメントのうちの各フレームの音声セグメントに対応する隠れ状態の事後確率を取得するステップと、
前記各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、前記隠れマルコフモデルによって、前記各フレームの音声セグメントに対応する隠れ状態を取得するステップと、
前記各フレームの音声セグメントに対応する隠れ状態に基づいて、前記複数のフレームの音声セグメントに対応する音素を取得するステップと、
前記複数のフレームの音声セグメントに対応する音素に基づいて、前記辞書及び前記言語モデルを参照することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得するステップと、を含み、
前記辞書には、前記音素と単語との対応関係が含まれ、前記言語モデルには、前記単語と文法及び／又は構文との対応関係が含まれる、
ことを特徴とする請求項２に記載の方法。
前記各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、前記隠れマルコフモデルによって、前記各フレームの音声セグメントに対応する隠れ状態を取得するステップは、
ベイズの公式によって、前記各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、前記各フレームの音声セグメントに対応する隠れ状態の出力確率を取得するステップと、
前記各フレームの音声セグメントに対応する隠れ状態の出力確率、前記隠れマルコフモデルにおける各隠れ状態の初期確率及び前記各隠れ状態間の遷移確率に基づいて、前記隠れマルコフモデルによって順方向復号を行うことにより、前記各フレームの音声セグメントに対応する隠れ状態を取得するステップと、
を含むことを特徴とする請求項３に記載の方法。
前記機械学習モデルは、畳み込みニューラルネットワークであり、前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに所定のキーワードが含まれるか否かを検出するステップは、
前記候補音声セグメントを前記畳み込みニューラルネットワークに入力するステップと、
前記畳み込みニューラルネットワークによって、前記候補音声セグメントに対して畳み込み及びプーリングを行うことにより、前記候補音声セグメントの高レベルの意味的特徴を抽出するステップと、
前記畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、前記候補音声セグメントの高レベルの意味的特徴を分類し、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出するステップと、を含む、
ことを特徴とする請求項１〜４のいずれか１項に記載の方法。
前記コンピューティングデバイスは、サーバであり、
前記音声情報を取得するステップは、前記サーバが端末から音声情報を受信するステップを含み、
前記音声情報に前記所定のキーワードが含まれると決定するステップの後に、前記方法は、前記サーバが前記端末にウェイクアップ指示を送信するステップであって、前記ウェイクアップ指示が、前記端末の休止状態及び／又は画面ロック状態を解除するためのものである、ステップをさらに含む、
ことを特徴とする請求項１〜５のいずれか１項に記載の方法。
前記コンピューティングデバイスは、端末であり、
前記音声情報に前記所定のキーワードが含まれると決定するステップの後に、前記方法は、前記端末が、本機の休止状態及び／又は画面ロック状態を解除するステップをさらに含む、
ことを特徴とする請求項１〜５のいずれか１項に記載の方法。
音声認識装置であって、
取得モジュールと、処理モジュールと、を含み、
前記取得モジュールは、音声情報を取得し、
前記処理モジュールは、重み付き有限状態トランスデューサネットワークによって、前記音声情報における候補音声セグメントの開始位置及び終了位置を決定し、前記候補音声セグメントが、所定のキーワードに対応する音声情報セグメントであり、前記開始位置及び前記終了位置に基づいて、前記音声情報から前記候補音声セグメントを切り取り、前記候補音声セグメントを機械学習モデルに入力し、前記機械学習モデルによって、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出し、前記候補音声セグメントに前記所定のキーワードが含まれる場合、前記音声情報に所定のキーワードが含まれると決定する、
ことを特徴とする装置。
前記処理モジュールは、さらに、前記音声情報をフレーム化することにより、複数のフレームの音声セグメントを取得し、前記複数のフレームの音声セグメントを前記重み付き有限状態トランスデューサネットワークに入力することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、
前記取得モジュールは、さらに、前記言語情報に所定のキーワードが含まれる場合、前記所定のキーワードに対応する候補音声セグメントの前記音声情報における開始位置及び終了位置を決定し、前記候補音声セグメントには、少なくとも前記複数のフレームの音声セグメントのうち１フレームの音声セグメントが含まれる、
ことを特徴とする請求項８に記載の装置。
前記重み付き有限状態トランスデューサネットワークは、ディープニューラルネットワークと、隠れマルコフモデルと、辞書と、言語モデルとを含み、
前記処理モジュールは、さらに、前記複数のフレームの音声セグメントを前記ディープニューラルネットワークに入力することにより、前記複数のフレームの音声セグメントのうちの各フレームの音声セグメントに対応する隠れ状態の事後確率を取得し、前記各フレームの音声セグメントに対応する隠れ状態の事後確率に基づいて、前記隠れマルコフモデルによって、前記各フレームの音声セグメントに対応する隠れ状態を取得し、前記各フレームの音声セグメントに対応する隠れ状態に基づいて、前記複数のフレームの音声セグメントに対応する音素を取得し、前記複数のフレームの音声セグメントに対応する音素に基づいて、前記辞書及び前記言語モデルを参照することにより、前記複数のフレームの音声セグメントに対応する事後確率が最大となる言語情報を取得し、
前記辞書には、前記音素と単語との対応関係が含まれ、前記言語モデルには、前記単語と文法及び／又は構文との対応関係が含まれる、
ことを特徴とする請求項９に記載の装置。
前記処理モジュールは、さらに、ベイズの公式によって、前記各フレームの音声セグメントに対応する隠れ状態の事後確率を変換することにより、前記各フレームの音声セグメントに対応する隠れ状態の出力確率を取得し、前記各フレームの音声セグメントに対応する隠れ状態の出力確率、前記隠れマルコフモデルにおける各隠れ状態の初期確率及び前記各隠れ状態間の遷移確率に基づいて、前記隠れマルコフモデルによって順方向復号を行うことにより、前記各フレームの音声セグメントに対応する隠れ状態を取得する、
ことを特徴とする請求項１０に記載の装置。
前記機械学習モデルは、畳み込みニューラルネットワークであり、
前記処理モジュールは、さらに、前記候補音声セグメントを前記畳み込みニューラルネットワークに入力し、前記畳み込みニューラルネットワークによって、前記候補音声セグメントに対して畳み込み及びプーリングを行うことにより、前記候補音声セグメントの高レベルの意味的特徴を抽出し、前記畳み込みニューラルネットワークにおける全結合層及びソフトマックス関数によって、前記候補音声セグメントの高レベルの意味的特徴を分類し、前記候補音声セグメントに前記所定のキーワードが含まれるか否かを検出する、
ことを特徴とする請求項８〜１１のいずれか１項に記載の装置。
前記取得モジュールは、さらに、端末から音声情報を受信し、
前記処理モジュールは、さらに、前記音声情報に前記所定のキーワードが含まれると決定した後に、前記端末にウェイクアップ指示を送信し、前記ウェイクアップ指示が、前記端末の休止状態及び／又は画面ロック状態を解除するためのものである、
ことを特徴とする請求項８〜１２のいずれか１項に記載の装置。
前記処理モジュールは、さらに、前記音声情報に前記所定のキーワードが含まれると決定した後に、本機の休止状態及び／又は画面ロック状態を解除する、
ことを特徴とする請求項８〜１２のいずれか１項に記載の装置。
音声認識デバイスであって、プロセッサとメモリとを備え、前記メモリには、少なくとも１つの命令が記憶され、前記少なくとも１つの命令は、前記プロセッサによりロードされて実行されることで、請求項１〜７のいずれか１項に記載の音声認識方法を実現させる、ことを特徴とする音声認識デバイス。
コンピュータ読み取り可能な記憶媒体であって、少なくとも１つの命令が記憶され、少なくとも１つの命令は、プロセッサによりロードされて実行されることで、請求項１〜７のいずれか１項に記載の音声認識方法を実現させる、ことを特徴とする記憶媒体。
請求項１〜７のいずれか１項に記載の音声認識方法をコンピューティングデバイスに実行させるコンピュータプログラム。