JP2019191557A

JP2019191557A - 音声認識方法、装置、機器及び記憶媒体

Info

Publication number: JP2019191557A
Application number: JP2018247610A
Authority: JP
Inventors: 超李; Chao Li; 唯▲きん▼ 朱; Weixin Zhu; 銘文; Ming Wen
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-04-20
Filing date: 2018-12-28
Publication date: 2019-10-31
Anticipated expiration: 2038-12-28
Also published as: CN108550364B; US11087763B2; US20190325877A1; JP6757398B2; CN108550364A

Abstract

【課題】音声認識のリアルタイム性を向上させる音声認識方法、装置、機器及び記憶媒体を提供する。【解決手段】認識対象となる音声信号を取得するステップと、因果的畳み込みニューラルネットワークに基づいて訓練して得られた事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するステップとを含む。【選択図】図１

Description

本発明の実施例は、音声認識の技術分野に関し、特に音声認識方法、装置、機器及び記憶媒体に関する。

コンピュータ科学技術、特に人工知能（ＡＩ：Artificial Intelligence）技術の継続的な発展に伴い、音声認識技術が、実験室から市場へ普及されており、音声入力システム、産業制御、スマートホーム、スマート玩具、端末装置の音声制御システム、スマート対話クエリシステム等のように、益々多くの分野で使用されている。音声認識技術は、情報の取得及び処理をより容易にして、ユーザーの作業効率を向上させ、人々の生活に便利をもたらす。

畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）は、フィードフォワードニューラルネットワークであり、パターン認識分野において優れた性能を発揮して、近年注目を集めており、広く使用されている。畳み込みニューラルネットワーク（ＣＮＮ）は、音声処理分野における使用もより一般的になりつつあり、畳み込みカーネルが通常左右に展開しているので、音声認識を行う場合には、現在フレームよりも前のフレームの情報と、現在フレーム以降の情報と、が必要である。すなわち、現在フレームを認識する場合には、将来の情報が必要になる。例えば、コンテキストが２である畳み込みニューラルネットワークを用いて音声認識を行う場合には、Ｎ番目のフレームの音声認識をする際に、Ｎ−２、Ｎ−１、Ｎ、Ｎ＋１、Ｎ＋２番目の５つのフレームの情報を利用する必要がある。音声認識システムは、処理を行うために、５つのフレームの情報が揃うまで２つのフレームを待つ必要があるため、必然的に２フレーム分のハード遅延が発生し、リアルタイム性に対する要求が高い状況では、この遅延を許容できないことが多い。

上述したように、従来技術の畳み込みニューラルネットワークに基づく音声認識技術では、リアルタイム性に対する高い要求を満たすことができない。

本発明の実施例は、音声認識方法、装置、機器及び記憶媒体を提供し、従来技術の畳み込みニューラルネットワークに基づく音声認識技術での問題（ハード遅延が存在し、リアルタイム性に対する高い要求を満たせないという問題）を解決する。

第１態様によれば、本発明の実施例にて提供される音声認識方法は、
認識対象となる音声信号を取得するステップと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するステップと、
を含む。

一実施形態において、前記方法は、
現在フレームの前のフレームが不足する場合に、空フレームで補充するステップをさらに含む。

一実施形態において、所定期間は、因果的音響モデルのコンテキストパラメータの値に基づいて決定される。

一実施形態において、因果的音響モデルは、因果的音響モデルの受容野を拡大させるためのスタッキングした複数の因果的畳み込み層を含む。

一実施形態において、因果的音響モデルは、音声信号の履歴情報を学習するための少なくとも一層の長短期記憶ネットワークをさらに含む。

一実施形態において、音声信号における現在フレームを認識するステップの前に、
認識対象となる音声信号に対してハイパスフィルタリング処理を行うステップと、
ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップと、
をさらに含む。

一実施形態において、干渉信号は、ノイズ信号及び／又はエコー信号を含む。

第２態様によれば、本発明の実施例にて提供される音声認識装置は、
認識対象となる音声信号を取得するための取得モジュールと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するための認識モジュールと、
を備える。

第３態様によれば、本発明の実施例にて提供される音声認識機器は、
メモリと、
プロセッサと、
コンピュータプログラムと、を備え、
コンピュータプログラムは、メモリに記憶されており、プロセッサにより実行されると、上記の何れかの方法をプロセッサに実行させるように構成されている。

第４態様によれば、本発明の実施例にて提供されるコンピュータ可読記憶媒体は、プロセッサにより実行されると、上記の何れかの方法をプロセッサに実行させるコンピュータプログラムが記憶されている。

本発明の実施例による音声認識方法、装置、機器及び記憶媒体によれば、認識対象となる音声信号を取得し、因果的畳み込みニューラルネットワークに基づいて訓練して得られた事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識する。本発明の実施例による方法は、現在フレームを認識する場合に、現在フレーム及び現在フレームの前のフレームの情報のみを用いるので、従来技術の畳み込みニューラルネットワークに基づく音声認識技術における、現在フレーム以降のフレームまで待つ必要があることによるハード遅延という問題を解決して、音声認識のリアルタイム性を向上させる。

図面は、明細書に組み込まれて本明細書の一部を構成し、本発明と一致する実施例を示し、明細書と共に本発明の原理を説明するために使用される。

本発明による音声認識方法の一実施例のフローチャートである。本発明の一実施例における空フレームの補充を示す概略図である。本発明の一実施例における因果的音響モデルを示す構造概略図である。本発明による音声認識方法の別の実施例のフローチャートである。本発明による音声認識装置の一実施例の構造概略図である。本発明による音声認識機器の一実施例の構造概略図である。

本発明の実施例は上述した図面に示されており、以下、これらの実施例について詳細に説明する。これらの図面及び記載された説明は、本発明の技術的範囲を限定することを何等意図するものではなく、当業者のために、特定の実施例を参照することによって本発明の概念を説明するためのものである。

ここで、例示的な実施例を詳細に説明し、このような実施例を例示として図面に示す。以下の説明において、図面を参照する場合、特に断らない限り、異なる図面における同一符号は、同一又は類似の要素を表している。以下、例示的な実施例において説明される実施形態の全ては、本発明と一致するわけではない。これらは、添付した特許請求の範囲に詳細に説明された本発明の一部の態様と一致する装置及び方法の一例に過ぎない。

本発明の明細書及び特許請求の範囲に使用されている、「含む」、「有する」という用語及びこれらの任意の変形は、非排他的な包含をカバーすることを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、列挙されたステップ又はユニットに限定されず、列挙されていないステップ又はユニットを含んでもよいし、これらのプロセス、方法、製品又機器に固有の他のステップ又はユニットを含んでもよい。

本発明における「第１」及び「第２」という用語は、識別目的のためにのみ使用され、順番関係、相対的重要性を指示又は示唆し、又は、指示された技術的特徴の数を暗示的に示すものとして解釈されるべきではない。「複数」とは、２つ以上を意味する。「及び／又は」とは、関連するオブジェクトの関連関係を示し、３種類の関係を示すことができる。例えば、Ａ及び／又はＢは、Ａが独立して存在する場合、ＡとＢが同時に存在する場合、Ｂが独立して存在する場合を示す。「／」という文字は、一般的に、前後における関連オブジェクトが「又は」の関係を有することを示している。

本発明の明細書全体を通して使用される「１つの実施例」又は「一実施例」は、実施例に関連する特定の特徴、構造又は特性が、本発明の少なくとも１つの実施例に含まれることを意味する。従って、本明細書を通して使用される「１つの実施例では」又は「一実施例では」とは、必ずしも同じ実施例を指しているわけではない。なお、矛盾がない限り、本発明の実施例及び実施例の特徴を組み合わせることが可能である。

本発明の実施例は、図１に示すように、音声認識方法を提供する。本発明の実施例は、図１を一例として説明するものであって、本発明を限定するものではない。図１は、本発明による音声認識方法の一実施例のフローチャートである。本実施例の実行主体は、ユーザ機器、ネットワーク機器のうち少なくとも１つを備えるが、これらに限定されない。ユーザ機器は、コンピュータ、スマートフォン、ＰＤＡ等を含むが、これらに限定されない。ネットワーク機器は、単一のネットワークサーバ、複数のネットワークサーバから構成されたサーバ群、クラウドコンピューティングに基づく大量のコンピュータ又はネットワークサーバから構成されるクラウドを含むが、これらに限定されない。クラウドコンピューティングは、分散型コンピューティングの一種であり、疎結合された一群のコンピュータで構成された仮想スーパーコンピュータである。本実施例では、これについて限定しない。図１に示すように、本実施例による音声認識方法は、ステップ１０１と、ステップ１０２と、を含む。

ステップ１０１では、認識対象となる音声信号を取得する。
実行主体は、ユーザ機器（例えば、スマートフォン、タブレットＰＣ、電子書籍リーダ、ラップトップポータブルコンピュータ及びデスク型コンピュータ等）を含むがこれらに限定されない。ユーザ機器がマイク（マイクロフォン）を取り付けた電子機器である場合には、ユーザ機器のマイクで音声信号を収集して、認識対象となる音声信号を取得する。実行本体が例えばサーバのようなネットワーク機器である場合には、サーバは、ユーザ機器から送信された音声信号を受信して、認識対象となる音声信号を取得する。

ステップ１０２では、因果的畳み込みニューラルネットワークに基づいて訓練して得られた事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識する。

アノテーションされている音声データベース内の音声データを用いて因果的音響モデルを訓練する。本実施例では、訓練に使用される音声データベースや訓練方法の何れについても限定しない。なお、本実施例におけるフレームの長さは、必要に応じて設定可能であるが、音声認識のリアルタイム性に対する要求を考慮すると、好ましくは短く（例えば、１フレームの長さが１０ミリ秒等）設定される。

従来技術では、畳み込みニューラルネットワークＣＮＮに基づいて構築される非因果的音響モデルは、畳み込みが左右に展開しているので、音声認識を行う場合には、現在フレームよりも前のフレームの情報と、現在フレーム以降のフレームの情報と、が必要になる。すなわち、現在フレームを認識する際に、現在フレーム以降のフレームまで待たなければならないので、ハード遅延を引き起こす。例えば、コンテキストが２である畳み込みニューラルネットワークを用いて音声認識を行う場合には、Ｎ番目のフレームの音声認識をする際に、Ｎ−２、Ｎ−１、Ｎ、Ｎ＋１、Ｎ＋２番目の５つのフレームの情報を利用する必要がある。すなわち、Ｎ番目のフレームの認識をする際に、音声認識システムは、処理を行うために、５つのフレームの情報が揃うまで２つのフレーム（Ｎ＋１番目のフレーム及びＮ＋２番目のフレーム）の情報を待つ必要があるため、必然的に２フレーム分のハード遅延が発生する。ここで、フレーム長が１０ミリ秒である場合には、２０ミリ秒のハード遅延となるので、リアルタイム性に対する要求が高い用途に利用することができない。畳み込みニューラルネットワークのコンテキストパラメータの値が大きいほど、それに起因するハード遅延のフレーム数が大きくなる。

本実施例は、因果的音響モデルを提供する。本実施例による因果的音響モデルを用いると、認識対象となる音声信号における現在フレームを認識する場合に、現在フレーム及び現在フレームの前のフレームの情報のみを用いるので、音声認識を行う際に現在フレームの後のフレームを待つ必要がなくなることから、ハード遅延を回避することができる。本実施例における因果的音響モデルは、因果関係を有するネットワークに基づく訓練によって得られる。すなわち、ネットワークの現在時点での出力が履歴入力だけに関わり、以降の入力とは無関係である。

一実施形態において、因果的音響モデルは、因果的畳み込みニューラルネットワークに基づく訓練により得られる。例えば、コンテキストが２である因果的畳み込みニューラルネットワークを用いて構築した因果的音響モデルでは、Ｎ番目のフレームの音声認識を行う場合に、Ｎ−４、Ｎ−３、Ｎ−２、Ｎ−１及びＮ番目の５つのフレームの情報を利用する。すなわち、現在フレームを認識する際に、現在フレーム及び現在フレームの前のフレームの情報のみを用いるので、現在フレームの後のフレームを待つ必要がなくなることから、ハード遅延を回避することができる。

可能な実施形態では、因果的音響モデルは、例えばベイジアンネットワーク等の因果ネットワークに基づく訓練によって得られたものであってもよい。

なお、本実施例における所定期間は、因果的音響モデルのコンテキストパラメータの値に基づいて決定されてもよい。可能な実施形態では、所定期間の値は、コンテキストパラメータの値の２倍とフレーム長との積に等しい。本実施例における数値は、例示的なものに過ぎず、本発明を限定するものではない。

本実施例による音声認識方法は、リアルタイム性が高いので、例えば音声検索、音声入力、音声インタラクション等のように、リアルタイム性に対する要求が高い複数のタイプのアプリケーションに用いることができる。リアルタイム性に対する要求が低いアプリケーションであっても、本実施例による方法を利用してリアルタイム性を向上させることができ、さらには、ユーザーエクスペリエンスを向上させることができる。

本実施例による音声認識方法は、認識対象となる音声信号を取得し、因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識する。本発明の実施例による方法は、現在フレームを認識する場合に、現在フレーム及び現在フレームの前のフレームの情報のみを用いるので、従来技術の畳み込みニューラルネットワークに基づく音声認識技術における、現在フレーム以降のフレームまで待つ必要があることによるハード遅延の問題を解決して、音声認識のリアルタイム性を向上させる。

上述した実施例に基づいて、本実施例は、音声認識方法をさらに提供する。上述した実施例で説明した因果的音響モデルが現在フレームを認識する場合に、現在フレームの前のフレームが不足する状況に対する具体的な実施形態を提供する。例えば、現在フレームが第１フレームである場合に、これよりも前のフレームデータが存在しない場合、又は、コンテキストが２である因果的畳み込みニューラルネットワークの場合には、現在フレームの前の４フレームのデータが必要になるが、現在フレームが第１フレーム、第２フレーム、第３フレーム又は第４フレームである場合には、何れも現在フレームの前のフレームが不足する。本実施例による音声認識方法によれば、現在フレームの前のフレームが不足する場合には、空フレームで補充する。本実施例における空フレームは、オールゼロベクトルで実現することができる。

以下、空フレームの補充に関する具体例を説明する。コンテキストパラメータ値が２である因果的畳み込みニューラルネットワークに基づく訓練により得られた因果的音響モデルでは、第２フレームの音声信号認識を行う場合に、図２に示す方法によって、現在フレームの前に空フレームを補充することができる。図２は、本発明の一実施例における空フレームの補充を示す概略図である。図２に示すように、黒色ボックスは、実データを含むデータフレームを示しており、白色ボックスは、オールゼロベクトルから構成された空フレームを示している。矢印は現在フレームを指しており（すなわち、現在フレームは第２フレームである）、現在フレームの前のフレーム情報が現在フレームの認識を行うのに不十分であるため、現在フレームの認識を行うために、現在フレームの前にオールゼロベクトルから構成される３つの空フレームを補充して、５つのフレームを構成する。

現在フレームの認識に必要なデータフレームの数は、因果的音響モデルにおける因果的畳み込みニューラルネットワークのコンテキスト値Ｃにより決まる。現在フレームの認識に必要なデータフレームの数は（２Ｃ＋１）に等しくてもよい（すなわち、現在フレームの認識に必要な現在フレームの情報、及び、現在フレームの前の２Ｃフレーム分の情報である）。このため、現在フレームの前のデータフレームの数が２Ｃより小さい場合には、現在フレームの認識を完了するために空フレームで補充する必要がある（すなわち、現在フレームのフレーム番号Ｎが（２Ｃ＋１）より小さい場合、現在フレームの前に空フレームを補充しなければならず、空フレームの補充数は（２Ｃ＋１−Ｎ）となる）。

上記の何れかの実施例に基づいて、本実施例において、上記実施例における因果的音響モデルの実施形態についてさらに説明する。因果的音響モデルの受容野をより拡大させるために、本実施例による音声認識方法では、因果的音響モデルは、スタッキングした複数の因果的畳み込み層を含んでもよい。

一実施形態において、履歴情報をより十分に利用して、音声認識の精度を向上させるために、本実施例による音声認識方法における因果的音響モデルは、上述した実施例に基づいて、少なくとも１つの層の長短期記憶ネットワークＬＳＴＭ（Long Short Term Memory）をさらに含んでもよい。長短期記憶ネットワークＬＳＴＭは、時間リカレントニューラルネットワークであり、長期の履歴情報を活用することができ、本実施例におけるＬＳＴＭは、音声信号の履歴情報の学習に用いられる。

上記実施例に基づいて、本実施例は上記実施例を組み合わせたものであり、１つの可能な組み合わせのみを示す。

受容野を拡大させるために、スタッキングした因果的畳み込み層が使用され得る。このようなスタッキングした因果的畳み込みニューラルネットワークでは、各層のコンテキストが１であれば、第１層では過去２フレーム、第２層では過去４フレーム、第３層では過去６フレーム、第４層では過去８フレームが見られる。過去８フレームの情報を用いて現在フレームを認識する。コンテキストの値が大きいほど、スタッキングした因果的畳み込み層が多くなり、利用可能な過去フレームの情報が多くなる。より長期的な情報を記憶するために、スタッキングした因果的畳み込みニューラルネットワーク層において多層の長短期記憶ネットワークＬＳＴＭが使用され、音声信号の履歴情報を学習する。スタッキングしたネットワークの層数が多いほど、利用可能な情報が多くなる一方で、複雑さも高まる。

本実施例による音声認識方法では、情報量と複雑さのバランスが取られる。本実施例による音声認識方法は、図３に示す因果的音響モデルを用いることができる。図３は、本発明の一実施例における因果的音響モデルを示す構造概略図である。図３に示すように、因果的音響モデルは、因果的畳み込み層０〜因果的畳み込み層３の４層の因果的畳み込みニューラルネットワークと、長短期記憶ネットワーク層０〜長短期記憶ネットワーク層６の７層の長短期記憶ネットワークと、コネクショニスト時系列分類器と、を備えてもよい。

本実施例による音声認識方法は、スタッキングした４層の因果的畳み込みニューラルネットワークを用いるので、受容野を拡大させて、できるだけ多くの情報を用いることができる。そして、現在フレームの音声信号を認識する場合に、より多くの過去フレームの情報を用いるとともに、過去フレームの情報のみを利用すればよいので、将来フレームの情報を待つ必要がないことから、リアルタイム性に対する高い要求を満たす。因果的畳み込みニューラルネットワークを前側の層のネットワーク構造とすることによって、フレーム毎の音声の特性を細かく把握し、後側の層に長短期記憶ネットワークＬＳＴＭである時間リカレントニューラルネットワークを使用することによって、より長期的な情報を記憶する。本実施例による音声認識方法に使用される因果的音響モデルは、因果的畳み込みニューラルネットワークと、ＬＳＴＭネットワークと、を組み合わせることによって、現在フレームの音声信号を認識する場合に、現在フレームの情報を把握することができるとともに、長期的な履歴フレームの情報を利用することができ、これにより、音声認識の精度を向上させる。上述したように、本実施例による音声認識方法は、リアルタイム性に対する高い要求を満たすだけでなく、認識精度を高め、ユーザーエクスペリエンスをさらに向上させる。

因果的音響モデル訓練を行うために使用される音声データベースでは、通常、純粋な音声信号が存在する。すなわち、因果的音響モデルが純粋な音声信号に基づく訓練により得られたことを考慮すると、音声認識の精度をさらに向上させるために、上記何れかの実施例に基づいて、本実施例による音声認識方法は、音声信号における現在フレームを認識する前に、予め設定された周波数閾値未満の音声信号を遮断又は減衰するように、認識対象となる音声信号に対してハイパスフィルタリング処理を行うステップと、ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップと、をさらに含む。場合によっては、干渉信号は、ノイズ信号及び／又はエコー信号を含む。

ノイズ信号は、例えば公共の場所、走行している車両等の様々な環境に存在し、静かな環境であっても滑らかな背景ノイズが存在する。従って、取得した認識対象となる音声信号には、ノイズ信号が必然的に含まれており、最小二乗平均（ＬＭＳ：Least Mean Square）フィルタリングアルゴリズム、リアプノフアクティブノイズコントロールアルゴリズム等によって、ハイパスフィルタリング処理済みの音声信号におけるノイズ信号を除去することができる。

認識対象となる音声信号を取得するための電子機器がスピーカを備えている場合には、ユーザが、当該電子機器の音声合成（ＴＴＳ：Text to Speech）再生機能を使用してナビゲーション音声、ニュース放送音声等を再生し、又は、音声対話を実行する場合に、電子機器のスピーカから発せられた音が空気等の媒体を介してマイクに伝達されて、音響エコーを形成することができる。このとき、干渉信号は、スピーカによって送信されマイクに伝達されたエコー信号を含んでもよい。アコースティックエコーキャンセル（ＡＥＣ：Acoustic Echo Cancellation）技術によって、ハイパスフィルタリング処理済みの音声信号におけるエコー信号を除去することができる。

本発明の実施例は、音声認識方法をさらに提供する。図４に示すように、本発明の実施例は、図４を一例として説明するものであり、本発明を限定するものではない。図４は、本発明による音声認識方法の別の実施例のフローチャートである。図４に示すように、本実施例による音声認識方法は、認識対象となる音声信号を取得するステップ４０１と、認識対象となる音声信号に対してハイパスフィルタリング処理を行うステップ４０２と、ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップ４０３と、因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するステップ４０４と、を含む。

本実施例による音声認識方法は、認識対象となる音声信号に対してハイパスフィルタリング及び干渉除去処理を実行することによって、認識精度を向上させる。また、因果的音響モデルを用いることによって、現在フレームを認識する場合に、現在フレーム以降のフレームまで待つ必要がなく、ハード遅延を回避し、リアルタイム性に対する高い要求を満たす。本実施例による音声認識方法は、従来技術の畳み込みニューラルネットワークに基づく音声認識技術における、現在フレームを認識する際に現在フレーム以降のフレームまで待つ必要があることによるハード遅延という問題を解決して、音声認識のリアルタイム性を向上させるだけでなく、認識精度を向上させ、さらにユーザーエクスペリエンスを向上させる。

本発明の実施例は、音声認識装置をさらに提供する。図５に示すように、本発明の実施例は、図５を一例として説明するものであり、本発明を限定するものではない。図５は、本発明による音声認識装置の一実施例の構造概略図である。図５に示すように、本実施例による音声認識装置５０は、取得モジュール５０１と、認識モジュール５０２と、を備える。

取得モジュール５０１は、認識対象となる音声信号を取得する。認識モジュール５０２は、因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識する。

本実施例の装置は、図１に示す方法を実行することができ、原理及び技術的効果が類似するので、ここでの詳細な説明については省略する。

場合によっては、現在フレームの前のフレームが不足する場合に、空フレームで補充してもよい。

場合によっては、所定期間は、因果的音響モデルのコンテキストパラメータの値に基づいて決定されてもよい。

場合によっては、因果的音響モデルは、因果的音響モデルの受容野を拡大させるためのスタッキングした複数の因果的畳み込み層を含んでもよい。

場合によっては、因果的音響モデルは、音声信号の履歴情報を学習するための少なくとも一層の長短期記憶ネットワークをさらに含んでもよい。

上記の何れかの実施例に基づいて、本実施例による音声認識装置は、フィルタリングモジュールと、干渉除去モジュールと、をさらに含む。フィルタリングモジュールは、音声信号における現在フレームを認識する前に、認識対象となる音声信号に対してハイパスフィルタリング処理を行う。干渉除去モジュールは、ハイパスフィルタリング処理済みの音声信号における干渉信号を除去する。

本実施例による装置は、図１又は図４に示す方法を実行することができ、原理及び技術的効果が類似するので、ここでの詳細な説明については省略する。

場合によっては、干渉信号は、ノイズ信号及び／又はエコー信号を含んでもよい。

本発明の実施例は、音声認識機器をさらに提供する。図６に示すように、本発明の実施例は、図６を一例として説明するものであり、本発明を限定するものではない。図６は、本発明による音声認識機器の一実施例の構造概略図である。図６に示すように、本実施例による音声認識機器６０は、メモリ６０１と、プロセッサ６０２と、バス６０３と、を備える。バス６０３は各素子同士を接続する。

メモリ６０１には、プロセッサ６０２により実行されると、上述した何れかの方法をプロセッサ６０２に実行させるコンピュータプログラムが記憶されている。

メモリ６０１及びプロセッサ６０２は、直接的又は間接的に電気的に接続されており、データ伝送又は交換を行う。例えば、これらの素子は、１本以上の通信バス又は信号線（例えば、バス６０３）を介して電気的に接続されてもよい。メモリ６０１には、音声認識方法のコンピュータプログラムが記憶されており、ソフトウェア又はファームウェアの形態でメモリ６０１に記憶された少なくとも１つのソフトウェア機能モジュールが設けられている。プロセッサ６０２は、メモリ６０１に記憶されたソフトウェアプログラム及びモジュールを動作させることにより、各種の機能アプリケーション及びデータ処理を実行する。

メモリ６０１は、ランダムアクセスメモリ（ＲＡＭ：Random Access Memory）、読み出し専用メモリ（ＲＯＭ：Read Only Memory）、プログラマブル読み出し専用メモリ（ＰＲＯＭ：Programmable Read-Only Memory）、消去可能な読み出し専用メモリ（ＥＰＲＯＭ：Erasable Programmable Read-Only Memory）、電気的消去可能読み出し専用メモリ（ＥＥＰＲＯＭ：Electric Erasable Programmable Read-Only Memory）等を含むが、これらに限定されない。メモリ６０１は、プロクラムを記憶し、プロセッサ６０２は、実行指示を受信すると、プロクラムを実行する。さらに、メモリ６０１内のソフトウェアプログラム及びモジュールは、システムタスク（例えば、メモリ管理、記憶デバイス制御、電源管理等）を管理するソフトウェアユニット及び／又はドライバを含み、且つ、各種ハードウェア又はソフトウェアユニットと通信して、他のソフトウェアユニットのための動作環境を提供するオペレーティングシステムを含んでもよい。

プロセッサ６０２は、信号処理能力を有する集積回路チップであってもよい。プロセッサ６０２は、中央処理装置（ＣＰＵ：Central Processing Unit）、ネットワークプロセッサ（ＮＰ：Network Processor）等を含む汎用プロセッサであってもよい。本発明の実施例において開示されている各方法、ステップ及びロジックブロック図を実現又は実行可能である。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の通常のプロセッサ等であってもよい。

なお、図６の構造は例示的なものに過ぎず、図６に示すものよりも多い又は少ないユニットを有してもよいし、図６に示すものと異なる構成を有してもよい。図６に示す各ユニットは、ハードウェア及び／又はソフトウェアとして実現することができる。

例えば、音声認識機器がユーザ機器である場合には、オーディオ信号を出力及び／又は入力するためのオーディオユニットをさらに含んでもよい。本実施例では、オーディオユニットは、認識対象となる音声信号を取得する。

本実施例による音声認識機器は、上述した何れかの方法を実行することができ、原理及び技術的効果が類似するので、ここでの詳細な説明については省略する。

本発明の実施例は、プロセッサにより実行されると、上述した何れかの方法をプロセッサに実行させるコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。

なお、以上の各実施例は、本発明の技術を説明するものであって、本発明を限定するものではない。上述した各実施例を参照しながら本発明を詳細に説明したが、当業者には明らかであるように、上述した各実施例で説明した技術を変更してもよいし、その一部又は全ての技術的特徴に対して同等の置換を行ってもよく、これらの変更又は置換は、本発明の各実施例の技術的範囲から逸脱するものではない。

Claims

音声認識方法であって、
認識対象となる音声信号を取得するステップと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、前記音声信号における現在フレーム及び前記現在フレームの前の所定期間内のフレームに基づいて、前記音声信号における現在フレームを認識するステップと、を含む、
ことを特徴とする音声認識方法。
前記現在フレームの前のフレームが不足する場合に、空フレームで補充するステップをさらに含む、ことを特徴とする請求項１に記載の方法。
前記所定期間は、前記因果的音響モデルのコンテキストパラメータの値に基づいて決定される、ことを特徴とする請求項１に記載の方法。
前記因果的音響モデルは、前記因果的音響モデルの受容野を拡大させるためのスタッキングした複数の因果的畳み込み層を含む、ことを特徴とする請求項１に記載の方法。
前記因果的音響モデルは、前記音声信号の履歴情報を学習するための少なくとも一層の長短期記憶ネットワークをさらに含む、ことを特徴とする請求項４に記載の方法。
前記音声信号における現在フレームを認識するステップの前に、
前記音声信号に対してハイパスフィルタリング処理を行うステップと、
ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップと、
をさらに含む、ことを特徴とする請求項１〜５の何れか１項に記載の方法。
前記干渉信号は、ノイズ信号及び／又はエコー信号を含む、ことを特徴とする請求項６に記載の方法。
音声認識装置であって、
認識対象となる音声信号を取得するための取得モジュールと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、前記音声信号における現在フレーム及び前記現在フレームの前の所定期間内のフレームに基づいて、前記音声信号における現在フレームを認識するための認識モジュールと、を備える、
ことを特徴とする音声認識装置。
音声認識機器であって、
メモリと、
プロセッサと、
コンピュータプログラムと、を備え、
前記コンピュータプログラムは、前記メモリに記憶されており、前記プロセッサにより実行されると、請求項１〜７の何れか１項に記載の方法を前記プロセッサに実行させるように構成されている、
ことを特徴とする音声認識機器。
コンピュータ可読記憶媒体であって、
プロセッサにより実行されると、請求項１〜７の何れか１項に記載の方法を前記プロセッサに実行させるコンピュータプログラムが記憶されている、
ことを特徴とするコンピュータ可読記憶媒体。