JP7209674B2

JP7209674B2 - 音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラム

Info

Publication number: JP7209674B2
Application number: JP2020173007A
Authority: JP
Inventors: 能鈞欧陽; 峻華許; 政斌宋; 丹青楊; 剛徐
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-10-14
Publication date: 2023-01-20
Anticipated expiration: 2040-10-14
Also published as: CN111402868A; EP3882914B1; CN111402868B; JP2021149086A; US20210295857A1; EP3882914A1; DK3882914T3

Description

本願は音声認識技術の分野に関し、特に音声認識方法、音声認識装置、電子機器、コンピュータ可読記憶媒体及びプログラムに関する。

従来のメーカーにより提供する車載用電子機器は、旅行の快適性に対する要求が高まっているため、その要求に応えられなくなり、車と機械の相互接続は、ナビゲーション、音楽、音声等の旅行ニーズを効果的に補うことができるため、近年、車と機械の相互接続が受け入れられている。しかし、車と機械の相互接続の場合、車載端末がオーディオを再生する際の伝送遅延が大きいため、従来の入力音声を認識する際のノイズ低減方式では、ノイズ低減の要求を満たすことができず、音声認識効果が低い。

本願は、従来技術の音声認識効果が低いという問題点を解決するために、音声認識方法、音声認識装置、電子機器、及びコンピュータ可読記憶媒体を提供する。

上記の技術問題を解決するために、本願は次のように実現される。

第１の態様では、本願の実施例が提供する音声認識方法は、
所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することと、
前記第２の基準信号に基づいて、収集された第２のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することと、
前記認識すべき音声信号を認識することと、を含む。

これにより、遅延推定により取得された遅延値を利用して、ノイズキャンセリング処理用の基準信号を取得することができ、よって、基準信号と対応するマイクロホン信号の整列が保証され、マイクロホン信号のノイズキャンセリング処理効果が向上し、該マイクロホン信号における音声信号の認識効果が向上する。

選択的に、前記の所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することは、
取得された第１の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第１のマイクロホン信号に対して、現在の時間帯の第１の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第１の基準信号、第１のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第１の遅延値を取得することと、の工程を繰り返し実行することを含み、
ここで、前記現在の時間帯の第１の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第１の遅延値で処理して得られるものである。

これにより、上記工程の繰り返しにより、安定した精度の高い遅延値を取得し得、よって、後に取得された基準信号と対応するマイクロホン信号との整列が保証される。

選択的に、前記方法は、
新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得し、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第３の基準信号を取得し、前記第３の基準信号に基づいて収集された第３のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得すること、をさらに含む。

これにより、遅延値の変化に伴う適応的な新たな遅延値の迅速な取得が可能となり、後に取得された基準信号と対応するマイクロホン信号との整列が保証される。

選択的に、前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することは、
前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第２の基準信号を取得することを含む。

これにより、バッファリングプロセスにより、必要な基準信号を簡単かつ容易に取得できる。

選択的に、前記システムオーディオ信号を取得することの後に、前記方法は、
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることをさらに含み、
ここで、前記第２のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む。

これにより、本願の手段によって、車載端末がオーディオ再生を行う際の伝送遅延が大きい車と機械の相互接続の場合でも、入力音声を認識する際のノイズ低減の要求を満たすことと、音声認識効果を高めることとができる。

第２の態様では、本願の実施例が提供する音声認識装置は、
所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュールと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することに用いられる第１の処理モジュールと、
前記第２の基準信号に基づいて、収集された第２のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる第２の処理モジュールと、
前記認識すべき音声信号を認識することに用いられる認識モジュールとを含む。

選択的に、前記遅延モジュールは具体的に、取得された第１の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第１のマイクロホン信号に対して、現在の時間帯の第１の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第１の基準信号、第１のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第１の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
ここで、前記現在の時間帯の第１の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第１の遅延値で処理して得られるものである。

選択的に、前記遅延推定モジュールはさらに、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得することに用いられ、
前記第１の処理モジュールはさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第３の基準信号を取得することに用いられ、
前記第２の処理モジュールはさらに、前記第３の基準信号に基づいて収集された第３のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得することに用いられる。

選択的に、前記第１の処理モジュールは、具体的に、前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第２の基準信号を取得することに用いられる。

選択的に、前記装置は、
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることに用いられる出力モジュールをさらに含み、
ここで、前記第２のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む。

第３の態様では、本願の実施例が提供する電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと接続するメモリとを含み、
ここで、前記メモリは、前記少なくとも１つのプロセッサによって実行され得る命令を記憶し、前記命令を前記少なくとも１つのプロセッサが実行すると、上記の音声認識方法を前記少なくとも１つのプロセッサに実行させる。

第４の態様では、本願の実施例が提供する非一時的なコンピュータ可読記憶媒体は、コンピュータに上記の音声認識方法を実行させるコンピュータ命令を記憶する。

本出願の１つの実施例には、遅延推定により取得された遅延値を利用して、ノイズキャンセリング処理用の基準信号を取得することができ、これにより、基準信号と対応するマイクロホン信号の整列が保証され、マイクロホン信号のノイズキャンセリング処理効果が向上し、該マイクロホン信号における音声信号の認識効果が向上するというメリット又は有益な効果を有する。所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することと、システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することと、前記第２の基準信号に基づいて、収集された第２のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することと、前記認識すべき音声信号を認識することとの技術手段を採用することにより、従来技術における音声認識の効果が低いという問題を解消し、音声認識効果を向上させる技術的効果を達成する。

上記の選択的な方式の他の効果は、以下で特定の実施例と併せて説明する。

図面は、本願の解決手段をより良く理解するために使用され、本願を限定するものではない。そのうち、
本願の実施例に係る音声認識方法のフローチャートである。本願の具体例における音声認識工程のフレーム図である。本願の実施例に係る音声認識方法を実現するための音声認識装置のブロック図である。本願の実施例に係る音声認識方法を実現するための電子機器のブロック図である。

以下、本願の例示的な実施例を図面に基づいて説明するが、理解を容易にするために、本願の実施例の詳細な内容は含まれ、それが例示的なものにすぎないと理解されたい。したがって、当業者は、本開示の範囲及び趣旨から逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを理解すべきである。また、説明の明確化及び簡略化のため、以下の記載では、周知の機能及び構成についての記載を省略する。

本出願の明細書及び特許請求の範囲における「第１」、「第２」等の用語は、類似の対象を区別するために使用されるものであり、特定の順序又は次序を記述するために使用される必要はない。そのように使用されるデータは、本明細書に記載される本開示の実施例が、本明細書に示されるか、または記載されるもの以外の順序で実施され得るように、適切に交換され得ることが理解されるべきである。さらに、「含む」および「有する」という用語ならびにそれらの任意の変形は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品または機器は、必ずしも明確に列挙されたそれらのステップまたはユニットに限定されるものではなく、明確に列挙されていないまたはそれらのプロセス、方法、製品または機器に固有の他のステップまたはユニットを含み得る。

図１は、本願の実施例による電子機器に適用される音声認識方法のフローチャートであり、図１に示すように、該方法は、
ステップ１０１：所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することを含む。

本実施例において、該電子機器は、後付けの車載機器、例えばスマートバックミラー、スマートハンドル、スマートフロントビューミラー等を選択でき、車載機器に接続される携帯電話、ｉＰａｄ（登録商標）、スマートハンドリング等の端末機器を選択でき、これらに制限されない。

このステップにおける遅延推定の工程は、主に電子機器内の中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）によって、すなわちソフトウェアの方式で実現されることができる。このようにＣＰＵの強力な演算能力により、遅延値推定を高速に実現することができる。該所定時間帯は、予め設定された時間帯であってもよい。この遅延値は、第１の基準信号に対応する第１のマイクロホン信号内の信号の、第１の基準信号に対する時間差値として理解され得る。

ステップ１０２：システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することを該方法はさらに含む。

この実施例では、該システムオーディオ信号は、電子機器において出力されるべきまたは再生されるべき元のオーディオ信号として理解され得る。例えば、電子機器は、ある車載端末に接続され、電子機器内のメインシステムオンチップ（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳｏＣ）は、コーデックＣｏｄｅｃから出力されたシステムオーディオ信号を収集し、対応するインターフェース（例えば、ＡｕｄｉｏＲｅｃｏｒｄインターフェース）をソフトウェア層でパッケージ化することにより、アプリケーション層（Ａｐｐ層）が該インターフェースを介してシステムオーディオ信号を取得し、該システムオーディオ信号を、該電子機器と車載端末との間の接続チャネル（例えば、ＵＳＢチャネル）を介して車載端末に伝送し、そして再生することができ、ここで、メインＳｏＣは、ＣＰＵと理解され得る。

ある実施例では、遅延値を用いてシステムオーディオ信号を処理して第２の基準信号を取得する際に、システムオーディオ信号を該遅延値に応じて直接バッファリングしてから第２の基準信号を取得することができる。このように、バッファリングプロセスにより、所望の基準信号を簡単に取得し得る。なお、この実施例なら、上記の方式以外は、該遅延値を用いてシステムオーディオ信号の時間を調整するなど他の方式で第２の基準信号を取得するようにしてもよい。

ステップ１０３：前記第２の基準信号に基づいて、収集された第２のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することを該方法は更に含む。

本実施例では、このステップにおけるノイズキャンセリング処理は、具体的にはエコーノイズキャンセリング処理、すなわちエコーによるノイズの除去である。選択的に、このステップのノイズキャンセリングは、電子機器のＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＤＳＰ）、すなわちハードノイズ低減によって実現され得る。このように、ソフトウェア方式に基づいて遅延推定を実現し、ソフトウェア・ハードウェアに基づいてノイズ低減を実現し得、すなわち、ソフトウェア層（ＳｏＣ層）による遅延推定の実現とハードウェア層によるノイズキャンセリングの実現。電力の消費を減らすとともに、ソフトウェアメモリが巨大である特性を利用することにより、ソフトウェアとハードウェアのそれぞれの利点を活用する。

ある実施形態では、上記のシステムオーディオ信号を取得した後、電子機器はさらに、該システムオーディオ信号を車載端末に出力し、車載端末がシステムオーディオ信号を再生できるようにすることもできる。この場合、収集される第２のマイクロホン信号には、認識すべき音声信号に加えて、マイクによって収集される、該車載端末によって再生されるオーディオ信号が含まれる。

ステップ１０４：前記認識すべき音声信号を認識することを該方法がさらに含む。

選択的に、認識すべき音声信号を認識する場合、認識すべき音声信号を音声認識エンジンに入力して認識してもよい。音声認識の具体的な方式なら、従来の方式を採用してもよく、本実施例はこれに限定されるものではない。

本出願の実施例の音声認識方法は、遅延推定により取得された遅延値を利用して、ノイズキャンセリング処理用の基準信号を取得することができ、これにより、基準信号と対応するマイクロホン信号の整列が保証され、マイクロホン信号のノイズキャンセリング処理効果が向上し、該マイクロホン信号における音声信号の認識効果が向上する。

本願の実施例では、上記のステップ１０１における遅延推定の工程は、取得された第１の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第１のマイクロホン信号に対して、現在の時間帯の第１の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第１の基準信号、第１のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第１の遅延値を取得することと、の工程を繰り返し実行することであってもよく、
ここで、前記現在の時間帯の第１の基準信号は、現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第１の遅延値に応じて処理（例えば、バッファリング）して得られるものである。第１の遅延値は、対応するシステムオーディオ信号に対する現在時間帯内の第１のマイクロホン信号の到着時間差であり、現在の時間帯内の第１の基準信号と、第１のマイクロホン信号とノイズキャンセリング後の信号との比較分析に基づいて得られるものである。

前記現在の時間帯は、現在の遅延推定を行う時間帯として理解され得る。遅延推定の工程を繰り返し実行するに伴い、取得された遅延値は収束し続けていき、安定に近づくようになる。上記の所定の収束条件は、第１の遅延値が所定の閾値により小さいことであり得、所定の収束条件を満たすその第１の遅延値は推定による遅延値である。該所定の閾値は、例えば、２０ｍｓである。

なお、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得し、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第３の基準信号を取得し、前記第３の基準信号に基づいて収集された第３のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得する。これにより、遅延値の変化に伴う適応的な新たな遅延値の迅速な取得が可能となり、後に取得された基準信号と対応するマイクロホン信号との整列が保証される。

選択的に、新たな遅延値が発生するか否かの検出は以下のようにしてもよい。認識すべき音声信号、第２の基準信号および第２のマイクロホン信号に基づいて遅延を推定し、この推定した遅延値が所定の収束条件を満たすか否かを検出し、満たす場合には新たな遅延値が発生していなく、そうでない場合には新たな遅延値が発生した。または、推定した遅延値に基づいてノイズキャンセリング処理を行った後の信号の歪みの程度を検出し、歪みが大きい場合には新たな遅延値が発生して、そうでない場合には新たな遅延値が発生していない。

次に、図２を参照して、本願の具体例における音声認識工程について説明する。

本願の具体例に係るスマートバックミラーと車載端末は、図２に示すように、ＵＳＢを介して接続され、スマートバックミラーと車載端末の両方に、相互接続を実現するためのアプレット（例えば、ＣａｒＬｉｆｅ）がインストールされ、スマートバックミラーは、（楽曲のオーディオ信号などの）オーディオ信号を車載端末に出力し、車載端末にオーディオ信号を再生させる。車載端末がオーディオ信号を再生している間に、ユーザがスマートバックミラーに音声制御信号を入力して、車載端末が再生する曲を調整する場合、スマートバックミラーの音声認識工程は、
１）マイクロホンアレイが信号を収集し、ここで、２つのインターフェースに対応する信号、すなわち、Ｍｉｃ０信号及びＭｉｃ１信号は、ユーザの入力した音声制御信号及び車載端末の再生しているオーディオ信号を少なくとも含み、ＤＳＰは、マイクロホン信号を収集した後、基準信号（対応するシステムオーディオ信号をバッファリングした後得られるものである、メインＳｏＣから入力されるＲｅｆ信号）に基づいてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号（Ｌｉｎｅｏｕｔ信号、実質的にはユーザの入力した音声制御信号）を取得することと、
２）ＤＳＰは、Ｍｉｃ０信号、Ｍｉｃ１信号、Ｒｅｆ信号、及びＬｉｎｅｏｕｔ信号を下記の表１の形式で２チャンネルのＩ２Ｓ信号に合成し出力し、Ｉ２ＳのＴＤＭ（Ｔｉｍｅ－ｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅｘｉｎｇ）の出力フォーマットをサポートし得ることと、

３）メインＳｏＣは、ＤＳＰの出力するＩ２Ｓ信号を受信し、Ａｐｐ層がＤＳＰの出力するＩ２Ｓ信号を取得するように、対応するＡｕｄｉｏＲｅｃｏｒｄインターフェースをソフトウェア層でパッケージ化することと、
４）同様に、メインＳｏＣは、Ｃｏｄｅｃの出力したシステムオーディオ信号を収集して、Ａｐｐ層がシステムオーディオ信号を取得するように、対応するＡｕｄｉｏＲｅｃｏｒｄインターフェースをソフトウェア層でパッケージ化し、このシステムオーディオ信号をＵＳＢチャネルを介して車載端末に伝送して再生することと、
５）Ａｐｐ層は、ＤＳＰの出力したＩ２Ｓ信号を取得した後、原信号、すなわちＭｉｃ０信号、Ｍｉｃ１信号、Ｒｅｆ信号、及びＬｉｎｅｏｕｔ信号を、プロトコルに従って解析して、遅延推定を行う。すなわち、対応するシステムオーディオ信号に対するマイクロホン信号の到着時間差を推定して、（遅延値とも呼ぶことができる）遅延推定値を得ると同時に、このＬｉｎｅｏｕｔ信号を、直接、音声認識エンジンに入力して、認識することができることと、
６）該遅延推定値に対しては、システム層が、該遅延推定値を受信するためのインタフェースを解放し、該遅延推定値に基づいてＤＳＰに入力する基準信号を調整し、例えば、ＲＯＭ層に該遅延推定値を渡し、該ＲＯＭ層が、現在のシステムオーディオ信号を該遅延推定値に応じて自動的にバッファリングして、基準信号としてＤＳＰに入力することと、を含む。

なお、上記の遅延推定工程は、制御信号により、取得された遅延推定値が所定の収束条件を満たすまで、例えば２０ｍｓ以下に収束するまで、繰り返し実行される。このとき、基準信号とマイク信号とが整列し、エコーノイズキャンセリング要求を満たすことを示し、新たな遅延推定値が発生するまで遅延推定値の登録を自動的に停止するようにしてもよい。また、遅延推定値の登録を停止する場合には、現在登録されている遅延推定値に基づいてＤＳＰに入力する基準信号を調整することにより、ユーザの入力した音声制御信号の認識が実現される。これにより、車載端末がオーディオ再生を行う際の伝送遅延が大きく不安定な車と機械の相互接続の場合でも、入力音声を認識する際のノイズ低減の要求を満たすことと、音声認識効果を向上させることとができる。

図３は、本願の実施例に係る音声認識装置の構成概略図であり、図３に示すように、該音声認識装置３０は、
所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュール３１と、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することに用いられる第１の処理モジュール３２と、
前記第２の基準信号に基づいて、収集された第２のマイクロホン信号に対して処理ノイズキャンセリングを行い、認識すべき音声信号を取得することに用いられる第２の処理モジュール３３と、
前記認識すべき音声信号を認識することに用いられる認識モジュール３４と、を含む。

選択的に、前記遅延推定モジュール３１は具体的に、取得された第１の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第１のマイクロホン信号に対して、現在の時間帯の第１の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第１の基準信号、第１のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第１の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
ここで、前記現在の時間帯の第１の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第１の遅延値で処理して得られるものである。

選択的に、前記遅延推定モジュール３１はさらに、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得することに用いられ、
前記第１の処理モジュール３２はさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第３の基準信号を取得することに用いられ、
前記第２の処理モジュール３３はさらに、前記第３の基準信号に基づいて収集された第３のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得することに用いられる。

選択的に、前記第１の処理モジュール３２は、具体的に、前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第２の基準信号を取得することに用いられる。

なお、本願の実施例に係る音声認識装置３０は、上述した図１に示す方法の実施例において各工程を実現することができ、同様の効果を奏することができる。重複を避けるため、ここで説明を省略する。

本願の実施例によれば、本願は、電子機器及び可読記憶媒体をさらに提供する。

図４は、本願の実施例による音声認識方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、ＰＤＡ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置など、様々な形態のモバイル装置を表し得る。本明細書に示される部品、それらの接続および関係、およびそれらの機能は、例のみとし、本明細書に記載されるおよび／または要求された本願の実現を制限することを意図していない。

図４に示すように、電子機器は、１つ以上のプロセッサ４０１、メモリ４０２、および高速インタフェースおよび低速インタフェースを含む各コンポーネントを接続するためのインタフェースを含む。個々のコンポーネントは、異なるバスを使用して相互に接続され、しかも、共通マザーボードにインストールされたり、必要に応じて他の方法でインストールされたりすることできる。プロセッサは、外部入力・出力装置（例えば、インターフェイスに結合された表示機器など）にＧＵＩのグラフィック情報を表示するためにメモリに記憶された命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスは、複数のメモリと共に使用され得る。同様に、複数の電子機器を接続することができ、個々の機器は、必要な操作（例えば、サーバアレイ、１セットのブレードサーバ、またはマルチプロセッサシステム）の一部を提供する。図４には、プロセッサ４０１を例とする。

メモリ４０２は、本願に提供される非一時的なコンピュータ可読記憶媒体である。ここで、前記メモリは、少なくとも１つのプロセッサによって実行できる命令を記憶し、前記少なくとも１つのプロセッサが本願の提供する音声認識方法を実行するようにする。本願の非一時的なコンピュータ可読記憶媒体は、本願によって提供される音声認識方法をコンピュータに実行させるコンピュータ命令を記憶する。

メモリ４０２は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本願実施例における音声認識方法に対応するプログラム命令／モジュール（例えば、図３に示す遅延推定モジュール３１、第１の処理モジュール３２、第２の処理モジュール３３および認識モジュール３４）を記憶するために使用され得る。プロセッサ４０１は、メモリ４０２に記憶された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの各種の機能アプリケーションおよびデータ処理を行い、すなわち、上記方法の実施例における音声認識方法を実現する。
メモリ４０２は、プログラム記憶領域とデータ記憶領域を含んでもよく、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータを記憶することができる。また、メモリ４０２は、高速ランダムアクセスメモリだけでなく、少なくとも１つのディスクメモリデバイス、フラッシュメモリデバイス、または他の非一時的な固体メモリデバイスなどの非一時的なメモリも含んでもよい。いくつかの実施例では、メモリ４０２は、選択的に、プロセッサ４０１に対して遠隔に設定されたメモリを含み、これらの遠隔なメモリは、ネットワークを介して電子機器に接続することができる。上記のネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。

音声認識方法における電子機器は、入力装置４０３および出力装置４０４をさらに含んでもよい。プロセッサ４０１、メモリ４０２、入力装置４０３、及び出力装置４０４は、バスまたは他の方式で接続され得、図４は、バスによる接続を例とする。

入力装置４０３は、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック等の入力装置であり、入力される数字や文字情報を受信し、音声認識方法における電子機器のユーザ設定や機能制御に関するキー信号入力を生成し得る。出力装置４０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）等を含んでもよい。該表示機器としては、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイを含んでもよいが、それらに限定されない。いくつかの実施形態では、表示機器は、タッチパネルであってもよい。

ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現されることができる。これらのさまざまな実施形態には、１つ以上のコンピュータプログラムで実施され、該１つ以上のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈でき、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力ユニットからデータおよび命令を受信し、データおよび命令をこのストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置に伝送し得る専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）には、プログラマブルプロセッサのマシン命令が含まれ、高度なプロセスおよび／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／マシン言語を使用して実施され得る。本明細書で使用される「機械可読記憶媒体」および「コンピュータ可読記憶媒体」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される任意のコンピュータプログラム製品、機器、および／または装置（例えば、ディスク、光ディスク、メモリ、プログラマブル論理装置（ＰＬＤ））を指し、機械可読信号とする機械命令を受け取る機械読み取り可能な媒体を含む。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶表示ディスプレー）モニタ）、およびキーボードおよびポインティング装置（例えば、マウスまたはトラックボール）を有し、ユーザは、該キーボードおよび該ポインティング装置を介してコンピュータに入力を提供することができる。他の種類の装置もユーザーとの対話を提供するために使用され得、たとえば、ユーザーに提供されるフィードバックは、（視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどの）任意の形式の感覚フィードバックであり、且つ（サウンド入力、音声入力、触覚入力を含む）任意の形式でユーザーからの入力を受信し得る。

ここで説明するシステムおよび技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（データサーバーとして）、またはミドルウェアコンポーネントを含む（アプリケーションサーバーなどの）コンピューティングシステム、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザーインターフェイスまたはウェブブラウザを有するユーザーコンピュータなどのコンピューティングシステムであって、ユーザーは、該グラフィカルユーザーインターフェイスまたは該ウェブブラウザを介して、ここで説明するシステムおよび技術の実施方式と対話できるコンピューティングシステム）で、または、バックグラウンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施され得る。システムのコンポーネントは、（通信ネットワークなどの）任意の形式または媒体のデジタルデータ通信によって相互に接続され得る。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットなどを含む。

コンピュータシステムには、クライアントとサーバーを含んでもよい。クライアントとサーバーは、通常、互いから遠く離れており、通信ネットワークを介して対話する。クライアントとサーバーの関係は、対応するコンピューターで互いにクライアント・サーバー関係を有するコンピュータプログラムを実行することにより、生成される。

本出願の実施例の技術手段は、遅延推定により取得された遅延値を利用して、ノイズキャンセリング処理用の基準信号を取得することができ、これにより、基準信号と対応するマイクロホン信号の整列が保証され、マイクロホン信号のノイズキャンセリング処理効果が向上し、該マイクロホン信号における音声信号の認識効果が向上する。

上記のプロセスの様々な形式のフローの使用が可能であれば、ステップの並べ替え、追加、または削除も可能である。例えば、本出願に記載されている各ステップは、本願によって開示される技術手段の所望の結果が達成される限り、並行の次序、逐次的な次序、または異なる次序で実施することができ、本明細書では制限されない。

上記の具体的な実施形態は、本願の保護範囲の制限を構成するものではない。当業者にとっては、設計要件およびその他の要因に基づいて、様々な変更、コンビネーション、サブコンビネーションおよび置換が可能であり得る。本願の精神および原則に基づく変更、同等の取り換えおよび改良は、本願の保護範囲に含まれるものとする。

Claims

音声認識方法であって、
所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することと、
前記第２の基準信号に基づいて、収集された第２のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することと、
前記認識すべき音声信号を認識することと、を含み、
前記の所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することは、
取得された第１の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第１のマイクロホン信号に対して、現在の時間帯の第１の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第１の基準信号、第１のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第１の遅延値を取得することと、の工程を繰り返し実行することを含み、
ここで、前記現在の時間帯の第１の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第１の遅延値で処理して得られるものである、
音声認識方法。
新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得し、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第３の基準信号を取得し、前記第３の基準信号に基づいて収集された第３のマイクロホン信号をノイズキャンセリング処理して認識すべき音声信号を取得すること、をさらに含む請求項１に記載の方法。
前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することは、
前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第２の基準信号を取得することを含む、請求項１に記載の方法。
前記システムオーディオ信号を取得することの後に、
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることをさらに含み、
ここで、前記第２のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む、請求項１から３のいずれか１項に記載の方法。
音声認識装置であって、
所定の時間帯内の第１のマイクロホン信号および第１の基準信号に基づいて、遅延推定を行い、遅延値を取得することに用いられる遅延推定モジュールと、
システムオーディオ信号を取得し、前記遅延値を用いて前記システムオーディオ信号を処理して第２の基準信号を取得することに用いられる第１の処理モジュールと、
前記第２の基準信号に基づいて、収集された第２のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる第２の処理モジュールと、
前記認識すべき音声信号を認識することに用いられる認識モジュールと、を含み、
前記遅延推定モジュールは、具体的に、取得された第１の遅延値が所定の収束条件を満たすまで、
現在の時間帯に収集される第１のマイクロホン信号に対して、現在の時間帯の第１の基準信号を用いてエコーノイズキャンセリング処理を行い、ノイズキャンセリング後の信号を取得ることと、
前記現在の時間帯内の第１の基準信号、第１のマイクロホン信号、及びノイズキャンセリング後の信号に基づいて遅延推定を行い、第１の遅延値を取得することと、の工程を繰り返し実行することに用いられ、
ここで、前記現在の時間帯の第１の基準信号は、前記現在の時間帯のシステムオーディオ信号を、直前の時間帯内で取得された第１の遅延値で処理して得られるものである、
音声認識装置。
前記遅延推定モジュールはさらに、新たな遅延値の発生を検出した場合には、前記工程を再度繰り返し実行して新たな遅延値を取得することに用いられ、
前記第１の処理モジュールはさらに、前記新たな遅延値を用いて対応するシステムオーディオ信号を処理して第３の基準信号を取得することに用いられ、
前記第２の処理モジュールはさらに、前記第３の基準信号に基づいて、収集された第３のマイクロホン信号に対してノイズキャンセリング処理を行い、認識すべき音声信号を取得することに用いられる、請求項５に記載の装置。
前記第１の処理モジュールは、具体的に、前記システムオーディオ信号を前記遅延値に応じてバッファリングして前記第２の基準信号を取得することに用いられる、請求項５に記載の装置。
前記システムオーディオ信号を車載端末に出力して前記車載端末に前記システムオーディオ信号を再生させることに用いられる出力モジュールをさらに含み、
ここで、前記第２のマイクロホン信号は、マイクロホンにより収集される、前記車載端末により再生される音声信号を含む、請求項５から７のいずれか１項に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと接続するメモリと、を含み、
ここで、前記メモリは、前記少なくとも１つのプロセッサによって実行され得る命令を記憶し、前記命令を前記少なくとも１つのプロセッサが実行すると、請求項１から４のいずれか１項に記載の方法を前記少なくとも１つのプロセッサに実行させる、電子機器。
コンピュータに請求項１から４のいずれか１項に記載の方法を実行させるコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
プログラムであって、
コンピュータに請求項１から４のいずれか１項に記載の方法を実行させるためのコンピュータ命令からなるプログラム。