JP6974421B2

JP6974421B2 - 音声認識方法及び装置

Info

Publication number: JP6974421B2
Application number: JP2019218463A
Authority: JP
Inventors: シャオ，ジュンヤオ; キアン，シェン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-16
Filing date: 2019-12-03
Publication date: 2021-12-01
Anticipated expiration: 2039-12-03
Also published as: US20200365144A1; CN110136715B; US11393458B2; JP2020187340A; CN110136715A

Description

本願の実施例は、コンピュータの技術分野に関し、具体的には、音声認識方法及び装置に関する。

音声認識とは、人工知能技術分野における重要な研究方向の一つである。音声認識アルゴリズムのフローでは、まず音響特徴を抽出して音響スコアを算出し、そして、デコーダにより音響スコアに応じて各音声フレームに対し、時間次元で復号し、復号パスに応じて対応する言語モデルスコアを付け、最終フレームの復号が完了した後に最適な復号パスを認識結果として選択する。

デコーダの復号速度は音声認識システムの速度に大きく影響する。デコーダの復号速度を最適化することにより、ユーザ体験が向上するだけでなく、システムの演算圧力を低減することができる。

本願の実施例は、音声認識方法及び装置を提供する。

第１態様において、音声認識方法であって、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することと、前記音声フレームの音響スコアに基づいて、隣接する非静音フレーム間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定することと、前記音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることと、を含む音声認識方法を提供する。

幾つかの実施例において、前記音響スコアは、前記音声フレームが空白モデリングユニットに対応する確率を表す第１の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも１つの第２の音響スコアとを、含み、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することは、前記音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することを含む。

幾つかの実施例において、前記音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、前記音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第１のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することを含む。

幾つかの実施例において、前記音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、前記音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第２のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することを含む。

幾つかの実施例において、前記方法は、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定すること、を含み、前記音声信号からバッファフレームが除去された音声フレームを復号することは、前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号することを含む。

第２態様において、音声認識装置であって、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定するように構成される第１の特定ユニットと、前記音声フレームの音響スコアに基づいて隣接する非静音フレームの間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定するように構成される第２の特定ユニットと、前記音声信号から前記バッファフレームが除去された音声フレームを復号し、音声認識結果を得るように構成される復号ユニットとを含む音声認識装置を提供する。

幾つかの実施例において、前記音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第１の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも１つの第２の音響スコアとを、含み、前記第１の特定ユニットは、さらに、前記音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの間の差に基づいて前記音声信号における非静音フレームを特定するように構成される。

幾つかの実施例において、前記第１の特定ユニットは、さらに、前記音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第１のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される。

幾つかの実施例において、前記第１の特定ユニットは、さらに、前記音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第２のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される。

幾つかの実施例において、前記装置は、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定するように構成される第３の特定ユニットを、さらに含み、前記復号ユニットは、さらに前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号するように構成される。

第３態様において、電子機器であって、一つまたは複数のプロセッサと、一つまたは複数のプログラムを記憶する記憶装置と、を含み、前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行されると、前記一つまたは複数のプロセッサに、第１態様に記載の方法を実行させる電子機器を提供する。

第４態様において、コンピュータプログラムを格納したコンピュータ可読媒体であって、前記プログラムは、プロセッサにより実行されると、第１態様に記載の方法を実行させるコンピュータ可読媒体を提供する。

以下の図面を参照して行われた限定的ではない実施例の詳細な説明により、本願の他の特徴、目的及び利点がより明らかになる。
本開示の一実施形態を適用可能で例示的なシステムアーキテクチャ図である。本開示の音声認識方法による一実施形態のフローチャートである。本開示の音声認識方法による他の実施形態のフローチャートである。本開示の音声認識装置の一実施形態の構造概略図である。本願の実施例の電子機器を実現するためのコンピュータシステムの構造概略図である。

以下、図面及び実施例を合わせて本願をさらに詳細に説明する。なお、ここで説明された具体的な実施例は本発明を解釈するためのものだけで、この発明を限定するものではないと理解されるべきである。なお、図面には、説明の便宜上、発明に関連するユニット分のみが示されている。

なお、対立しない場合、本願における実施例及び実施例における特徴は、互いに組み合わせることができる。以下、図面を参照しながら実施例を合わせて本願を詳細に説明する。

図１は、本開示の一実施形態を適用可能で例示的なシステムアーキテクチャ図１００である。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクを提供するための媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブル等の各種接続タイプを含んでもよい。

端末装置１０１、１０２、１０３は、ネットワーク１０４を介してサーバ１０５とインタラクティブし、ワードやオーディオメッセージ等を受信または送信することができる。端末装置１０１、１０２、１０３には、例えば、音声アシスタントアプリケーション、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオ再生アプリケーション等の各種情報インタラクティブアプリケーションがインストールされていてもよい。

端末装置１０１、１０２、１０３は、オーディオ信号収集機能を有する装置であってもよく、マイクロフォンを有し、インターネットアクセスをサポートする様々な電子機器であってもよく、スマートスピーカー、スマートフォン、タブレット、スマートウォッチ、ノートパソコン、ラップトップ携帯型コンピュータ、電子ブックリーダーなどを含むが、これらに限定されない。

サーバ１０５は、オーディオ信号処理サービスを提供するサーバあってもよく、例えば音声認識サーバであってもよい。サーバ１０５は、端末機器１０１、１０２、１０３が送信した音声信号を解析してもよく、音声認識アルゴリズムにより音声信号を対応するテキストに変換してもよい。サーバ１０５は、音声信号の認識結果を、ネットワーク１０４を介して端末装置１０１、１０２、１０３にフィードバックしてもよい。

なお、本願の実施例が提供する音声認識方法は、サーバ１０５により実行されてもよく、その分、音声認識装置がサーバ１０５に設けられてもよい。

なお、サーバは、ハードウェアであってもよいが、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現してもよいが、１つのサーバとして実現してもよい。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば分散サービスを提供するための複数のソフトウェアモジュール）として実現してもよいが、１つのソフトウェアまたはソフトウェアモジュールとして実現してもよい。ここでは特に限定されない。

端末機器が物理演算を実行するための部材（例えばＧＰＵなどのプロセッサ）を含む場合、本願の実施例が提供する音声認識方法は、端末装置１０１、１０２、１０３により実行されてもよく、その分、端末装置１０１、１０２、１０３に設けられてもよい。

図１における端末装置、ネットワーク、サーバの数は、ただ例示的なものであると理解されるべきである。実現の必要に応じて、任意の数の端末装置、ネットワーク、サーバを有していてもよい。

続いて、図２を参照すると、本願の音声認識方法の一実施例によるフロー２００を示す。該音声認識方法は、以下のステップを含む。

ステップ２０１は、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームを特定する。

本実施例において、音声認識方法の実行主体は、音声信号を取得し、該音声信号は認識待ち音声信号であり、音収集部材で話者が発した音を信号収集して生成された信号であり、音声信号に対して音響特徴抽出を行うことができる。なお、音響特徴は、音声信号のシーケンス特性と周波数特性を示す特徴であってもよい。具体的には、時間領域の音声信号を周波数領域の信号に変換し、その中のスペクトル特性を抽出することができ、例えば、基本周波数特徴、メル周波数特徴等を抽出することができる。

音声信号は、時間的に連続する信号であり、音声信号を一定の時間周期で複数の音声フレームに区切ってもよいが、一定の時間長度の音声フレームを時間次元で接続して形成されるものであってもよい。本実施形態において、音響特徴抽出は、これらの音声フレームの強度と周波数特性を表す特徴であってもよい。

音響特徴を抽出した後、音響モデルで音響採点を行ってもよい。音響モデルは、音響特徴の分布をＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｅｄＭｏｄｅｌ，ガウス混合モデル）または隠れマルコフモデルに基づいて音響特徴の分布にモデル化し、音響特徴を対応する音響モデリングユニットにマッピングして各音響モデリングユニットに対応するスコアを計算するために用いられる。音響特徴を音響モデルに入力し、異なる音響モデリングユニットに対応する音響スコアを得ることができる。ここで、音響モデリングユニットは、空白モデリングユニットと非空白モデリングユニットを含んでもよい。非空白モデリングユニットが発音の最小ユニットに対応してもよく、例えば１つの音素に対応し、一例として漢語の１つの声母または１つの韻母を１つの音素とし、各非空白モデリングユニットが１つの声母または１つの韻母に対応し、空白モデリングユニットは静音または非音声を示す。

本実施例において、各音声フレームの音響スコアに従って非静音フレームを特定してもよい。非静音フレームは、話者の発音による音声情報を含む音声フレームであり、非空白モデリングユニットに対応する。具体的には、異なる音響モデリングユニットに対応する音声フレームの音響スコアに基づいて、複数の方式で音声フレームが非静音フレームであるか否かを判定してもよい。いくつかの代替実施形態において、１つの音声フレームがいずれかの非空白モデリングユニットに対応する音響スコアがプリセット閾値よりも高ければ、該音声フレームが非静音フレームであると判定してもよいが、あるいは、１つの音声フレームが少なくとも２つの非空白モデリングユニットに対応する音響スコアが０より大きい場合、その音声フレームが非静音フレームであると判定してもよい。

本実施例のいくつかの代替実施形態において、音声フレームの音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第１の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも１つの第２の音響スコアとを含む。ここで、同一の音声フレームの異なる第２の音響スコアは、異なる音声フレームが異なる非空白モデリングユニットに対応する確率を示す。このとき、音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの差に基づいて、音声信号における非静音フレームを特定してもよい。

実際には、第１の音響スコアと第２の音響スコアとの差が大きいと、音声フレームが空白モデリングユニットに対応する確率と非空白モデリングユニットに対応する確率が大きく、音声フレームを非静音フレームまたは静音フレームとして特定する誤差が小さい。第１の音響スコアと第２の音響スコアとの差が小さいと、音声フレームが空白モデリングユニットに対応する確率と非空白モデリングユニットに対応する確率が小さく、音声フレームを非静音フレームまたは静音フレームとして特定する誤差が大きい。

具体的には、いくつかの代替実施形態において、音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第１のプリセット閾値以下であると判断することに応じて、音声フレームが非静音フレームであると判定してもよい。すなわち、音声フレームの第１の音響スコアと各第２の音響スコアとの差が第１のプリセット閾値以下である場合、該音声フレームが静音フレームである確率と非静音フレームである確率との差が小さく、該音声フレームが非静音フレームであると判定できる。

別の代替実施形態において、音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第２のプリセット閾値以上であることに応じて、音声フレームを非静音フレームにマーキングし、音声信号における静音フレームにマーキングされない音声フレームを非静音フレームに判定してもよい。このような実装形態において、まず、第１の音響スコアと各第２の音響スコアとの差が第２のプリセット閾値以上である音声フレームが静音フレームであると判定し、それ以外の他の音声フレームを非静音フレームに判定してもよい。

上記第１のプリセット閾値及び第２のプリセット閾値は統計結果または経験に基づいて設定された値であってもよく、第１のプリセット閾値と第２のプリセット閾値は等しくてもよい。

一例として、「今日の天気」の音声信号における各音声フレーム（番号はそれぞれ１〜１４である）の第１の音響スコアと各第２の音響スコアにおける最大値の間の差を［表１］に示す。１行目は音声フレームの番号を示し、２行目は音声フレームの音響スコアが最も高いモデリングユニット（ここでは漢字をモデリングユニットとする）を示し、３行目は音声フレームに対応する第１の音響スコアと各第２の音響スコアとの最大値の差ｇａｐを示す。
［表１］

ここで、「<Ｓ>」、「</Ｓ>」が文頭及び文末に対応するモデリングユニットを示し、「Ｂ」が空白モデリングユニットを示す。上記第１のプリセット閾値と第２のプリセット閾値を４とすると、ｇａｐ≦４の音声フレーム、すなわち０、３、４、５、８、９、１０、１１、１４番目のフレームが非静音フレーム、ｇａｐ＞４の音声フレーム、すなわち１、２、６、７、１２、１３番目のフレームが静音フレームに判定される。

ステップ２０２は、音声フレームの音響スコアに基づいて隣接する非静音フレーム間にバッファフレームを特定する。

ここで、バッファフレームに対応するモデリングユニットが語句の先頭または終了を表す。上記表１の例では、第１フレームと第１４フレームはそれぞれ「<Ｓ>」、「</Ｓ>」であり、それぞれ語句の先頭と終了を示す。音声信号の任意の位置が<「<Ｓ>」、「</Ｓ>」のジャンプを行うことができることを確保するために、各非静音フレームの後に２つのバッファフレームを予約する。

本実施形態において、ステップ２０１により判定された非静音フレームに基づいて、非静音フレームの後に予約する２つの音声フレームが上記バッファフレームであると判定してもよい。漢字をモデリングユニットとし、各漢字が１つの音声フレームに対応すれば、各非静音フレームの後の２つのフレームがバッファフレームであると判定してもよい。声母、韻母等の音素をモデリングユニットとすると、各要因が１つの音声フレームに対応し、少なくとも一つの音声フレームに対応する非静音フレームを合わせて形成される非静音フレーム列の後の２フレームをバッファフレームとしてもよく、例えば「ｎ」、「ｉ」に対応する非静音フレームを合わせて形成される非静音フレーム「ｎｉ」の後の２フレームをバッファフレームとして特定する。

ステップ２０３は、音声信号からバッファフレームが除去された後の音声フレームを復号し、音声認識結果を得る。

各音声フレームの音響スコアに基づいて、デコーダで音声信号に対して復号し、復号の時、上記バッファフレームをスキップしてもよい。具体的には、上記バッファフレームの音響スコアを０として発音辞書、音響モデルおよび言語パターンに基づいて構築されるネットワークにおいて、復号パスを探索し、確率が最も大きい経路を得て音声認識の結果とし、あるいは、音声信号から上記バッファフレームを削除し、残りの音声フレームにより形成された系列をフレーム毎に復号してもよい。

あるいは、上記バッファフレームをマーキングし、フレーム毎に復号するときに、対象フレームがバッファフレームにマーキングされた場合、対象フレームをスキップして次のフレームをフレーム毎に復号してもよい。

復号する時に上記バッファフレームをスキップし、復号する必要がある音声フレームの数が減少するため、本開示の上記実施例の音声認識方法は、デコーダの演算圧力を低減し、復号速度を向上させ、音声認識効率を向上させることができる。

続いて、図３を参照すると、本開示による音声認識方法の他の実施例のフローチャートを示す。図３に示すように、音声認識方法のフロー３００は、以下のステップを含む。

ステップ３０１は、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームと静音フレームを特定する。

本実施例において、音声認識方法の実行主体は、音声信号を取得し、音声信号から音響特徴を抽出し、音響モデルを入力して採点し、音声フレームの音響スコアを得ることができる。ここで、音声フレームの音響スコアは、音声フレームが異なる音響モデリングユニットに対応する音響スコアを含んでもよい。音響モデリングユニットは、空白モデリングユニットと非空白モデリングユニットとを含んでもよい。非空白モデリングユニットは音素または漢字に対応し、空白モデリングユニットは静音を示してもよい。音響スコアは、音声フレームが各プリセット非空白モデリングユニットに対応する音響スコア及び空白モデリングユニットに対応する音響スコアを含んでもよい。

本実施例において、音声フレームが各プリセットの非空白モデリングユニットに対応する音響スコアと、空白モデリングユニットに対応する音響スコアに基づいて、複数の方式で各音声フレームが静音フレームまたは非静音フレームであると判定してもよい。一代替実施形態において、各音声フレームに対応する音響スコアが最大となるモデリングユニットに従って、音声フレームが静音フレームであるか否かを判定し、例えば、空白モデリングユニットと非空白モデリングユニット１、非空白モデリングユニット２に対応する音声フレーム、…の音響スコアが順次Ｓ１、Ｓ２、Ｓ３であってもよい、…最大値がＳ１であると、空白モデリングユニットに対応する該音声フレームの音響スコアが最も高く、該音声フレームが静音フレームであると判定することができる、最大値がＳ２であると、いずれかの非空白モデリングユニットに対応する該音声フレームの音響スコアが最も高く、その音声フレームが非静音フレームであると判定することができる。

別の代替実施形態において、いずれかの非空白モデリングユニットに対応する１つの音声フレームの音響スコアがプリセット閾値よりも高ければ、該音声フレームが非静音フレームであると判定してもよく、あるいは、少なくとも２つの非空白モデリングユニットに対応する１つの音声フレームの音響スコアが０より大きい場合、その音声フレームが非静音フレームであると判定してもよい。

別の代替実施形態において、音声フレームが空白モデリングユニットに対応する確率を表す第１の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも１つの第２の音響スコアとを含み、ここで、同一の音声フレームの異なる第２の音響スコアは、音声フレームが異なる非空白モデリングユニットに対応する確率を表す。音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの差に基づいて、音声信号における非静音フレームを特定することができる。具体的には、音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第１のプリセット閾値以下であると判定することに応じて、音声フレームが非静音フレームであると判定してもよいが、また、音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第２のプリセットの閾値以上であると判定することに応じて、音声フレームを静音フレームにマーキングし、音声信号における静音フレームにマーキングされない音声フレームを非静音フレームと判定してもよい。

例として、上記表１の例において、モデリングユニットが「Ｂ」であることは、対応する音声フレームが静音フレームであることを示し、モデリングユニットが漢字であることは、対応する音声フレームが非静音フレームであることを示す。

ステップ３０２は、音声フレームの音響スコアに基づいて、隣接する非静音フレーム間にバッファフレームを特定する。

バッファフレームに対応するモデリングユニットは、語句の先頭または終了を表し、「<Ｓ>」、「</Ｓ>」で示してもよい。音声信号の任意の位置が<「<Ｓ>」、「</Ｓ>」のジャンプを行うことができることを確保するために、各非静音フレームの後に２つのバッファフレームを予約する。

本実施例のステップ３０２は、前述した実施例のステップ２０２と一致し、ステップ３０２の具体的な実現形態は前述した実施例におけるステップ２０２の説明を参照してもよいが、ここで説明を省略する。

ステップ３０３は、音声信号からバッファフレームと静音フレームが除去された音声フレームを復号し、音声認識結果を得る。

各音声フレームの音響スコアに基づいて、デコーダで音声信号を復号してもよい。上記音声信号における静音フレームとバッファフレームを削除した後に残りの非静音フレームにより形成される系列をデコーダで復号してもよい。あるいは、復号する時に、上記バッファフレームと上記静音フレームをスキップしてもよい。具体的には、ステップ３０１およびステップ３０２において、それぞれ静音フレームまたはバッファフレームをマーキングしてもよく、フレーム毎に復号する時に、対象フレームが静音フレームまたはバッファフレームにマーキングされる場合、対象フレームをスキップし、次のフレームが静音フレームまたはバッファフレームであるか否かを判断する。対象フレームが静音フレームまたはバッファフレームにマーキングされない場合、対象フレームが発音辞書、音響モデルおよび言語モデルに基づいて構築されるネットワークをトラバースすることに基づいて、対象フレーム位置の最大確率経路を探索してもよい。音声信号における全ての音声フレームをトラバースして経路を検索した後、音声識別結果を得る。

実際の復号する過程において、静音フレームの数が非静音フレームの数よりもはるかに大きいが、復号する時に静音フレームとバッファフレームをスキップすることで、復号する必要がある音声フレームの数を低減し、復号する過程においてネットワークでのトラバース過程を簡略化し、復号速度をさらに向上させることができる。

さらに、図４を参照して、上記各図において示される方法の実現として、本願は、音声認識装置の一実施例を提供し、該装置の実施例は、図２または図３おいて示される方法実施例に対応し、該装置は、具体的には、各種電子機器に適用可能である。

図４に示すように、本実施形態の音声認識装置４００は、第１の特定ユニット４００１と、第２の特定ユニット４０２と、および復号ユニット４０３とを含む。ここで、第１の特定ユニット４０１は、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームを特定するように構成され、第２の特定ユニット４０２は、音声フレームの音響スコアに基づいて、隣接する非静音フレーム間に対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定するように構成され、復号ユニット４０３は、音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得るように構成される。

いくつかの実施形態において、上記音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第１の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも１つの第２の音響スコアと含み、上記第１の特定ユニット４０１は、さらに、音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの差に基づいて、音声信号における非静音フレームを特定するように構成される。

いくつかの実施形態において、上記第１の特定ユニット４０１は、さらに以下の方式で音声信号における非静音フレームを特定するように構成され、音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第１のプリセット閾値以下であると判定することに応じて、音声フレームが非静音フレームであると判定する。

いくつかの実施形態において、上記第１の特定ユニット４０１は、さらに、以下の方式で音声信号における非静音フレームを特定するように構成され、音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第２のプリセット閾値以上であると判定することに応じて、音声フレームを静音フレームにマーキングし、音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定する。

いくつかの実施形態において、上記装置４００は、音声信号における音声フレームの音響スコアに基づいて、音声信号における静音フレームを特定するように構成される第３の特定ユニットをさらに含んでもよいが、上記復号ユニット４０３は、さらに、音声信号からバッファフレームと静音フレームが除去された音声フレームを復号するように構成されてもよい。

本発明の上記実施例の音声識別装置４００は、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームを特定し、音声フレームの音響スコアに基づいて隣接する非静音フレーム間に対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定し、音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることにより、復号する必要がある音声フレームの数を効果的に減少させ、デコーダの演算圧力を低減し、復号速度を向上させ、音声認識速度を向上させることができる。

以下、図５を参照して、本開示の実施例を実現するための電子機器（例えば図１における検索エンジンサーバ）５００の構造概略図を示す。図５において示される電子機器は一例に過ぎず、本開示の実施形態の機能および使用範囲にいかなる制限も与えるべきではない。

図５に示すように、電子機器５００は、処理装置（例えば、中央プロセッサ、グラフィックプロセッサなど）５０１を含んでもよく、リードオンリーメモリ（ＲＯＭ）５０２に格納されたプログラム、または記憶装置５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたプログラムに従って、適切な動作、処理を実行してもよい。また、ＲＡＭ５０３において、電子機器５００の動作に必要な各種プログラムやデータが格納される。処理装置５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４により互いに接続される。バス５０４にはまた、入力/出力インタフェース５０５も接続されている。

一般的に、以下の装置は、Ｉ/Ｏインターフェース５０５に接続されてもよいが、例えば、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロ等の入力装置５０６と、液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータ等の出力装置５０７と、ハードディスク等の記憶装置５０８と、及び通信装置５０９とを含む。通信装置５０９は、データを交換できるように、電子機器５００が他の装置と無線または有線通信を行うことを許可してもよい。図５は、種々の装置を有する電子機器５００を示すが、必ずしも全ての示される装置を実施しまたは備えることを要求するものではないことが理解されるべきである。代替的に実施するかまたはより少ない装置を備えることができる。図５に示される各ブロックは、１つの装置を示してもよいが、必要に応じて複数の装置を示してもよい。

特に、本開示の実施例によれば、上記したフローチャートを参照して説明された処理を、コンピュータのソフトウェアプログラムとして実現することができる。例えば、本開示の実施例は、コンピュータ可読媒体にベアラされるコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、該コンピュータプログラムは、通信装置５０９を介してネットワークからダウンロードされてインストールされ、または記憶装置５０８からインストールされ、またはＲＯＭ５０２からインストールされてもよい。該コンピュータプログラムが、処理装置５０１により実行される場合、本開示の実施例に説明された方法に限定された上記機能が実行される。
なお、本開示の実施例に説明されたコンピュータ可読媒体は、コンピュータ可読信号媒体であっても、コンピュータ可読記憶媒体であってもよいが、上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気、光、電磁、赤外線、または半導体のシステム、装置またはデバイス、または任意の組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、一つまたは複数の導線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＣＤ-ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記任意の適切な組み合わせを含むがこれらに限定されない。本発明の実施例において、コンピュータ可読記憶媒体は、プログラムを含みまたは記憶する実体のある記憶媒体であってよく、該プログラムは、命令実行システム、装置またはデバイスにより使用されるかまたはそれを組み合わせて使用されてもよい。しかしながら、本開示の実施例において、コンピュータ可読信号媒体は、ベースバンドにおけるまたはキャリアの部分として伝搬するデータ信号を含んでもよく、ここでコンピュータが可読プログラムコードをベアラする。このような伝搬するデータ信号は、多種の形式を採用してもよく、電磁信号、光信号、または上記任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は、命令実行システム、装置またはデバイスにより使用されるかまたはそれを組み合わせて使用されるためのプログラムを送信、伝搬または伝送してもよい。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されてもよく、電線、光ケーブル、ＲＦ高周波）等、または上記任意の適切な組み合わせを含むがこれに限定されない。

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいが、単独で存在し該電子機器に組み込まれなくてもよい。上記コンピュータ可読媒体は、一つまたは複数のプログラムをベアラし、上記一つまたは複数のプログラムが該電子機器により実行される場合、該電子機器に、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームを特定し、音声フレームの音響スコアに基づいて隣接する非静音フレーム間に対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定し、音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることを実現させる。

本発明の実施例の動作を実行するためのコンピュータプログラムコードを一つまたは複数のプログラミング言語またはその組み合わせで書いてもよく、プログラミング言語はオブジェクト指向プログラミング言語であるｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のプログラミング言語を含み、「Ｃ」言語等の一般的なプロセス式のプログラミング言語をさらに含む。プログラムコードは、完全にユーザーコンピュータで実行してもよいが、部分的にユーザーコンピュータで実行してもよく、独立したソフトウェアパッケージとして実行してもよいが、部分的にユーザーコンピュータで部分的に遠隔コンピュータで実行してもよく、または完全に遠隔コンピュータまたはサーバで実行してもよい。遠隔コンピュータに係る場合、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）やワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザコンピュータに接続されてもよいが、インターネットを介して外部のコンピュータに接続されてもよい（例えばインターネットサービス事業者を利用してインターネットで接続される）。

図面におけるフローチャート及びブロック図は本願の様々な実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。ここで、フローチャートまたはブロック図における各ブロックは、１つのモジュール、プログラムブロック、またはコードの一部を示してもよく、該モジュール、プログラムブロック、またはコードの一部は、所定の論理機能を実現するための一つまたは複数の実行可能命令を含む。なお、代替の実現において、ブロックに付された機能は、図中に付された順序とは異なる順序で発生してもよい。例えば、２つの連続して示されるブロックは、実質的に並列的に実行されてもよいが、それらが逆の順序で実行されてもよく、係る機能に依存する場合もある。なお、ブロック図及び/またはフローチャートにおける各ブロック、及びブロック図及び/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアによるシステムで実現してもよいが、専用ハードウェアとコンピュータ命令との組み合わせで実現してもよい。

本願の実施例に係るユニットは、ソフトウェアの形態で実現されてもよいが、ハードウェアの形態で実現されてもよい。なお、説明された各ユニットは、プロセッサに設けられていてもよく、例えば、第１の特定ユニットと、第２の特定ユニットと、復号ユニットとを含むプロセッサのように構成されてもよい。ここで、これらの各ユニットの名称は、場合によって該ユニット自体を限定するものではなく、例えば、「音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームユニットを判定する」と説明されてもよい。

以上の説明は、本願の好適な実施例及び運用技術原理の説明である。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせで形成される技術的解決手段に限定されるものではないと同時に、上記発明の構想から逸脱せず、上記技術的特徴とその均等の特徴から任意に組み合わせて形成される他の技術的解決手段も含むものである。例えば、上記特徴は、本願において開示される（ただし、特許請求の範囲に記載された）類似した機能を有する技術的特徴を相互に入れ替えて形成されたものである。

Claims

音声認識方法であって、
音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することと、
前記音声フレームの音響スコアに基づいて、隣接する非静音フレーム間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定することと、
前記音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることと、
を含む音声認識方法。
前記音響スコアは、
前記音声フレームが空白モデリングユニットに対応する確率を表す第１の音響スコアと、
前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも１つの第２の音響スコアとを、含み、
前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することは、
前記音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することを含む請求項１に記載の方法。
前記音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、
前記音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第１のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することを含む請求項２に記載の方法。
前記音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、
前記音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第２のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、
前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することを含む、請求項２に記載の方法。
前記方法は、
前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定すること、を含み、
前記音声信号からバッファフレームが除去された音声フレームを復号することは、
前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号することを含む、
請求項１〜４のいずれか１項に記載の方法。
音声認識装置であって、
音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定するように構成される第１の特定ユニットと、
前記音声フレームの音響スコアに基づいて隣接する非静音フレームの間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定するように構成される第２の特定ユニットと、
前記音声信号から前記バッファフレームが除去された音声フレームを復号し、音声認識結果を得るように構成される復号ユニットと、
を含む音声認識装置。
前記音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第１の音響スコアと、
前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも１つの第２の音響スコアとを、含み、
前記第１の特定ユニットは、さらに、
前記音声信号における音声フレームの第１の音響スコアと第２の音響スコアとの間の差に基づいて前記音声信号における非静音フレームを特定するように構成される請求項６に記載の装置。
前記第１の特定ユニットは、さらに、前記音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第１のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される、請求項７に記載の装置。
前記第１の特定ユニットは、さらに、前記音声フレームの第１の音響スコアと各第２の音響スコアにおける最大値の間の差が第２のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される、請求項７に記載の装置。
前記装置は、
前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定するように構成される第３の特定ユニットを、さらに含み、
前記復号ユニットは、さらに
前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号するように構成される、
請求項６〜９のいずれか１項に記載の装置。
電子機器であって、
一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶する記憶装置と、を含み、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行されると、前記一つまたは複数のプロセッサに、請求項１〜５のいずれか１項に記載の方法を実行させる電子機器。
コンピュータプログラムを格納したコンピュータ可読媒体であって、
前記コンピュータプログラムは、プロセッサにより実行されると、請求項１〜５のいずれか１項に記載の方法を実行させるコンピュータ可読媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、プロセッサにより実行されると、請求項１〜５のいずれか１項に記載の方法を実行させるコンピュータプログラム。