JP2020518861A

JP2020518861A - 音声認識方法、装置、デバイス、及び記憶媒体

Info

Publication number: JP2020518861A
Application number: JP2019560155A
Authority: JP
Inventors: 平 ▲鄭▼; ▲豐▼ ▲饒▼; ▲鯉▼ ▲盧▼; 涛李
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-29
Filing date: 2018-05-28
Publication date: 2020-06-25
Anticipated expiration: 2038-05-28
Also published as: WO2019001194A1; EP3648099B1; KR20190120353A; KR102315732B1; EP3648099A1; CN108288468A; US11164568B2; US20190385599A1; CN108288468B; JP6820058B2; EP3648099A4

Abstract

本発明は、音声認識方法、装置、デバイス、及び記憶媒体であって、コンピュータ分野に属する。この方法は、音声信号を取得し（１０１）、音声認識アルゴリズムにより該音声信号を認識して、ｎ個の候補認識結果を得（１０２）、ｍ種の選択規則のうち実行順序がｊである選択規則により、該ｎ個の候補認識結果のうちの目標結果を決定し（１０３）、該実行順序がｊである選択規則により該目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、該ｎ個の候補認識結果のうちの該目標結果を決定する（１０４）、ことを含む。この方法によれば、ＲＮＮ言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因して、複数の候補認識結果の中から目標結果を選択することのリアルタイム性が悪くなるという課題が解決され、ｎ個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。

Description

本願は、２０１７年０６月２９日に中国国家知識産権局に出願された、出願番号が２０１７１０５１７７３７４号であり、発明名称が「音声認識方法及び装置」である中国特許出願の優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。

[技術分野]
本願の実施例は、コンピュータ分野に関し、特に、音声認識方法、装置、デバイス、及び記憶媒体に関する。

音声認識技術とは、音声認識デバイスにより音声情報をテキスト情報として認識する技術である。音声認識技術は、音声ダイヤル、音声ナビゲーション、スマートホームコントロール、音声検索、ディクテーションデータ入力などのシーンに広く用いられている。

本願の実施例は、音声認識方法、装置、デバイス、及び記憶媒体を提供しており、音声認識デバイスがＲＮＮ言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因する、複数の候補認識結果のうちの目標結果を選択することのリアルタイム性が悪くなるという課題を解決することができる。

解決手段は以下の通りである。
本願の一態様によれば、音声認識方法が提供され、前記方法は、
音声信号を取得し、
音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得、
ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、
前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定する、ことを含む。

本願の他の一態様によれば、候補認識結果選択装置が提供され、前記装置は、
音声信号を取得する信号取得モジュールと、
音声認識アルゴリズムにより、前記信号取得モジュールで取得された前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得る音声認識モジュールと、
ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記音声認識モジュールで認識された前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定する決定モジュールと、を含み、
前記決定モジュールは、前記第１の決定モジュールによって、前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定する。

本願の別の一態様によれば、音声認識デバイスが提供され、前記音声認識デバイスは、少なくとも１つの命令、少なくとも１つのプログラム、コードセット、又は命令セットを記憶したメモリと、前記少なくとも１つの命令、前記少なくとも１つのプログラム、前記コードセット、又は前記命令セットをロードして実行することにより、第１の態様で提供された音声認識方法を実現するプロセッサと、を含む。

本願のさらに別の一態様によれば、前記記憶媒体には、少なくとも１つの命令、少なくとも１つのプログラム、コードセット、又は命令セットが記憶され、前記少なくとも１つの命令、前記少なくとも１つのプログラム、前記コードセット、又は前記命令セットがプロセッサによりロードされて実行されることで、第１の態様で提供された音声認識方法を実現させる。

本願の実施例で提供された解決手段による有益な効果は、少なくとも以下の効果を含む。

ｍ種の選択規則のうち少なくとも１種を順次に実行することにより、音声認識されたｎ個の候補認識結果のうちの目標結果を選択する。ここで、各種の選択規則のアルゴリズムの複雑さは、いずれも、ＲＮＮ言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低い。ＲＮＮ言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因して、複数の候補認識結果の中から目標結果を選択することのリアルタイム性が悪くなるという課題が解決される。１種の選択規則のみを実行するだけで、目標結果を決定できる場合、この選択規則のアルゴリズムの複雑さがＲＮＮ言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いため、ｎ個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。

本願の実施例における解決手段をさらに明確に説明するために、以下、実施例の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているにすぎず、当業者にとって、創造的な労働をせずに、これらの図面から他の図面を得ることもできる。

本願の一実施例で提供された音声認識システムの構成の模式図である。本願の一実施例で提供された音声認識方法のフローチャートである。本願の別の実施例で提供された音声認識方法のフローチャートである。本願の一実施例で提供された第１の対応関係及び第２の対応関係の模式図である。本願の別の実施例で提供された音声認識方法のフローチャートである。本願の別の実施例で提供された音声認識方法のフローチャートである。本願の一実施例で提供された音声認識装置のブロック図である。本願の一実施例で提供された音声認識デバイスの構成の模式図である。

本願の目的、解決手段、及びメリットをさらに明確にするために、以下、本願の実施形態について図面を参照してさらに詳しく説明する。
まず、本願の実施例に係る若干の用語を説明する。

音声認識デバイス：音声信号をテキスト情報として認識する機能を有する電子デバイス。
選択的に、音声認識デバイスは、音声認識エンジンが実装されたサーバであってよく、この音声認識エンジンによって、音声信号をテキスト情報として認識する。

また、音声認識デバイスで受信された音声信号は、この音声認識デバイスがオーディオ収集コンポーネントで収集したものであってよく、又は、音声受信デバイスがオーディオ収集コンポーネントで収集して音声認識デバイスへ送信したものであってもよい。音声受信デバイスは、音声認識デバイスと別体の電子デバイスであってよい。例えば、音声受信デバイスは、携帯電話、タブレット、スマートスピーカー、スマートテレビ、スマート空気清浄器、スマートエアコン、電子書籍リーダー、動画専門家グループオーディオレイヤー３（ＭＰ３：ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）プレーヤー、動画専門家グループオーディオレイヤー４（ＭＰ４：ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤー、ラップトップポータブルコンピュータ、デスクトップコンピュータなどであってよい。

選択的に、音声認識デバイスも、携帯電話、タブレット、スマートスピーカー、スマートテレビ、スマート空気清浄器、スマートエアコンなどであってよく、本実施例では限定されない。

選択的に、以下、音声認識デバイスがサーバであり、音声認識デバイスが音声受信デバ
イスから送信された音声信号を受信することを例に説明する。

候補認識結果：ある１つの音声信号について、音声認識デバイスで認識された少なくとも１つのテキスト情報。

選択的に、音声認識デバイスで得られた候補認識結果が２つ以上である場合、この２つ以上の候補認識結果のうちの目標結果を選択する必要がある。ここで、目標結果とは、音声信号とのマッチング度が最も高い候補認識結果を指す。

関連技術では、同じ発音の音声信号が複数の異なる文字の組み合わせに対応し得、例えば、ｎｉｈａｏが中国語の

の３つの組み合わせに対応するため、音声認識デバイスは、音声信号から複数の候補認識結果を認識する可能性がある。音声認識デバイスが複数の候補認識結果を認識した場合、如何に音声信号とのマッチング度が最も高い候補認識結果を選択するかが特に重要になる。

関連技術では、下記の典型的な音声認識方法が提供されている。音声認識デバイスは、ｎ個の候補認識結果を取得した後、再帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）言語モデルに従って各候補認識結果のパープレキシティを計算し、パープレキシティの最小値に対応する候補認識結果を目標結果として決定する。ここで、ＲＮＮ言語モデルは、１つの共通のコーパスに基づいてトレーニングすることにより得られたものであり、パープレキシティは、候補認識結果と音声信号との類似度を示すものであり、パープレキシティとこの類似度とが負の相関関係にあり、目標結果とは、ｎ（ｎは１より大きい整数）個の候補認識結果のうち、実際に受信された音声信号とのマッチング度が最も大きい候補認識結果を指す。

ＲＮＮ言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因して、ｎ個の候補認識結果のうちの目標結果を選択することのリアルタイム性が悪くなる。

図１は、本願の一実施例で提供された音声認識システムの構成の模式図である。このシステムは、少なくとも１つの音声受信デバイス１１０と、音声認識デバイス１２０と、を含む。

音声受信デバイス１１０は、携帯電話、タブレット、スマートスピーカー、スマートテレビ、スマート空気清浄器、スマートエアコン、電子書籍リーダー、ＭＰ３プレーヤー、ＭＰ４プレーヤー、ラップトップポータブルコンピュータ、デスクトップコンピュータであってよく、本実施例では限定されない。

音声受信デバイス１１０には、オーディオ収集コンポーネント１１１が取り付けられている。オーディオ収集コンポーネント１１１は音声信号を収集する。

音声受信デバイス１１０と音声認識デバイス１２０との間は、無線ネットワークや有線ネットワークにより接続を確立する。音声受信デバイス１１０は、オーディオ収集コンポーネント１１１により音声信号を収集した後、この接続により音声信号を音声認識デバイス１２０に送信する。

音声認識デバイス１２０は、音声信号をテキスト情報（候補認識結果）として認識する。選択的に、このテキスト情報は２つ以上である。

選択的に、音声認識デバイス１２０は、複数の候補認識結果を認識した場合、さらに、この複数の候補認識結果のうちの目標結果を選択する。

選択的に、音声認識デバイス１２０は、目標結果を選択した後、この目標結果を音声受信デバイス１１０にフィードバックする。

選択的に、音声認識デバイス１２０は、サーバ又はサーバクラスタとして実現されてもよく、本実施例では限定されない。

選択的に、携帯電話、タブレット、スマートスピーカー、スマートテレビ、スマート空気清浄器、スマートエアコン、電子書籍リーダー、ＭＰ３プレーヤー、ＭＰ４プレーヤー、ラップトップポータブルコンピュータなどのモバイル端末の物理ハードウェアが複雑なアルゴリズムの実行をサポートする場合、音声認識デバイス１２０は、これらのモバイル端末の少なくとも１つとして実現されてもよく、本実施例では限定されない。

選択的に、上記の無線ネットワークや有線ネットワークは、標準化通信技術及び／又はプロトコルを使用する。ネットワークは、通常、インターネットであるが、任意のネットワークであってもよく、ローカルエリアネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、大都市圏ネットワーク（ＭＡＮ：ＭｅｔｒｏｐｏｌｉａｎＡｒｅａＮｅｔｗｏｒｋ）、広域ネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、モバイルネットワーク、有線ネットワーク又は無線ネットワーク、専用ネットワーク又は仮想専用ネットワークの任意の組み合わせを含むが、これらに限定されない。いくつかの実施例では、ハイパーテキストマークアップ言語（ＨＴＭＬ：ＨｙｐｅｒＴｅｘｔＭａｒｋ−ｕｐＬａｎｇｕａｇｅ）、拡張可能なマークアップ言語（ＸＭＬ：ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などを含む技術及び／又はフォーマットを用いて、ネットワークを介して交換されるデータを表す。また、セキュアソケットレイヤー（ＳＳＬ：ＳｅｃｕｒｅＳｏｃｋｅｔＬａｙｅｒ）、トランスポートレイヤーセキュリティ（ＴＬＳ：ＴｒａｓｓｐｏｒｔＬａｙｅｒＳｅｃｕｒｉｔｙ）、仮想専用ネットワーク（ＶＰＮ：ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ：ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＳｅｃｕｒｉｔｙ）などの通常の暗号化技術を使用して、全部又は一部のリンクを暗号化してもよい。他の一部の実施例では、上記のデータ通信技術の代わりや補足として、カスタマイズ及び／又は専用のデータ通信技術を使用してもよい。

選択的に、本願の実施例では、各実施例の実行主体が音声認識デバイスであることを例に説明する。

図２は、本願の例示的な一実施例で提供された音声認識方法のフローチャートである。本実施例では、この方法を音声認識デバイスに適用する場合を例に説明する。この方法は、以下のステップを含んでよい。

ステップ１０１で、音声信号を取得する。
選択的に、音声信号は、音声受信デバイスから音声認識デバイスに送信されるものであり、又は音声認識デバイスで収集されるものであり、又は、モバイル記憶装置を介して音声認識デバイスに入力されるものである。

ステップ１０２で、音声認識アルゴリズムにより音声信号を認識して、ｎ個の候補認識結果を得る。
ここで、候補認識結果とは、音声信号に対応するテキスト情報を指す。ｎは、１より大きい整数である。

音声認識アルゴリズムは、音声信号を少なくとも１つのテキスト情報として認識する。音声認識アルゴリズムは、ビットビー（Ｖｉｔｅｒｂｉ）アルゴリズムを改善することにより得られた並列アルゴリズムであってもよいし、あるいは、ビットビーアルゴリズムを改善することにより得られたシリアルアルゴリズムであってもよいし、あるいは、ツリー・トレリス（Ｔｒｅｅ−Ｔｒｅｌｌｉｓ）アルゴリズムであってもよいが、本実施例では限定されない。

選択的に、音声認識アルゴリズムは、ｎ個の候補認識結果を初歩的に並べ替える機能を有する。この場合、音声認識デバイスが取得したｎ個の候補認識結果に順序識別子がある。このように、音声認識デバイスは、目標結果を選択する際に、順序識別子に示された順序に従って、目標結果であるかどうかを順次に検出する。
補足的に説明すべきものとして、音声認識デバイスは、１つの候補認識結果のみを認識してもよく、本実施例では限定されない。

ステップ１０３で、ｍ種の選択規則のうち実行順序がｊである選択規則により、ｎ個の候補認識結果のうちの目標結果を決定する。
目標結果とは、ｎ個の候補認識結果のうち、音声信号とのマッチング度が最も高い候補認識結果を指す。ｍは１より大きい整数であり、ｊの初期値は１である。１≦ｊ≦ｍ−１である。

選択的に、ｍ種の選択規則の実行順序が各選択規則のアルゴリズムの複雑さに基づいて決定され、アルゴリズムの複雑さと実行順序とが正の相関関係にある。即ち、アルゴリズムの複雑さが低いほど、実行順序の番号が小さくなり、実行順序が前になり、アルゴリズムの複雑さが高いほど、実行順序の番号が大きくなり、実行順序が後になる。

ここで、選択規則のアルゴリズムの複雑さと目標結果の選択速度とが負の相関関係にある。即ち、アルゴリズムの複雑さが高いほど、目標結果の選択速度が遅くなり、アルゴリズムの複雑さが低いほど、目標結果の選択速度が速くなる。

選択的に、各選択規則のアルゴリズムの複雑さは、複雑さ識別子で表される。例示的に、アルゴリズムの複雑さ識別子は、１、２、３であり、ここで、数値が小さいほど、アルゴリズムの複雑さが低くなる。

選択的に、ｍ種の選択規則の実行順序は開発者によって指定され、ｍ種の選択規則のアルゴリズムの複雑さは、いずれも、ＲＮＮ言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いので、どの選択規則を優先的に実行しても、音声認識デバイスの目標結果の選択速度は、ＲＮＮ言語モデルに従ってパープレキシティを計算することにより目標結果を選択する場合の速度よりも速い。

この場合、実行順序は、実行順序識別子で表されてもよい。例示的に、実行順序識別子は、＃１、＃２、＃３である。ここで＃１は実行順序が１であることを示し、＃２は実行順序が２であることを示し、＃３は実行順序が３であることを示す。
選択的に、ｍ種の選択規則の実行順序はランダムに選択される。

ステップ１０４で、実行順序がｊである選択規則により目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、ｎ個の候補認識結果のうちの目標結果を決定する。

実行順序がｊである選択規則により、目標結果が音声認識デバイスによって決定されなかったことがあり得る。この場合、音声認識デバイスは、ｎ個の候補認識結果のうちの目標結果が決定されるまで、実行順序がｊ＋１である選択規則により目標結果を引き続き決定し、フローを終了する。

選択的に、音声認識デバイスは、ｎ個の候補認識結果を再び並べ替える。ここで、ｎ個の候補認識結果のうちの目標結果の並び順は、１番目となり、１番目の結果以外の残りのｎ−１個の候補認識結果のうちの目標結果の並び順は、２番目となり、１番目及び２番目の結果以外の残りのｎ−２個の候補認識結果のうちの目標結果の並び順は、３番目となるように繰り返す。

以上のように、本願で提供された音声認識方法では、ｍ種の選択規則のうちの少なくとも１種を順次に実行することにより、音声認識されたｎ個の候補認識結果の中から目標結果を選択する。ここで、各選択規則のアルゴリズムの複雑さは、いずれも、ＲＮＮ言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低い。ＲＮＮ言語モデルに従ってパープレキシティを計算するのに消費される時間が長いことに起因して、複数の候補認識結果の中から目標結果を選択することのリアルタイム性が悪くなるという課題が解決される。１種の選択規則のみを実行するだけで、目標結果を決定できる場合、この選択規則のアルゴリズムの複雑さがＲＮＮ言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑度よりも低いため、ｎ個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。

選択的に、本実施例におけるｍ種の選択規則は、異なる使用シーンに応じて決定される選択規則である。ｍ種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも２種を含む。命令シーン（即ち、音声信号は命令形式のメッセージ）では、ｍ種の選択規則のうちの命令選択規則により、目標結果を認識することができる。機能シーン（即ち、音声信号は機能的メッセージ）では、ｍ種の選択規則のうちの機能選択規則により、目標結果を認識することができる。会話シーン（即ち、音声信号は会話形式のメッセージ）では、ｍ種の選択規則のうちの会話選択規則により、目標結果を認識することができる。

ここで、命令形式のメッセージは、ある命令を実行するように音声受信デバイスに指示するためのものである。例えば、音声受信デバイスがスマートスピーカーである場合、命令形式のメッセージは、前の曲、次の曲、一時停止、再生などのメッセージであってよい。

通常、命令形式のメッセージは、規則的ではなく、かつ数に限りがある。例えば、前の曲という命令形式のメッセージは、前曲、前の曲を再生してください、前曲を再生してください、前曲に切り替えてください、前の曲に切り替えてくださいなどに変化することが可能である。上記の様々な変化は、規則的ではなく、かつ変化の種類に限りがある。

命令形式のメッセージは、規則的ではなく、かつ数に限りがあるので、本実施例では、音声認識デバイスにおいて、複数の命令キーワードを含む命令レキシコンが予め設けられ、命令選択規則は、命令レキシコンにｉ（１≦ｉ≦ｎ）番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、このｉ番目の候補認識結果が目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものである。

機能的メッセージは、少なくとも１つの音声キーワードに基づいて、ある命令を実行するように音声受信デバイスに指示するためのものである。例えば、機能的メッセージは、「周杰倫の歌を再生する」である。

通常、機能的メッセージは、固定形式の機能テンプレートと変化可能な音声キーワードとを有する。例えば、「周杰倫の歌を再生する」の中で、機能テンプレートは「（）の歌を再生する」であり、音声キーワードは「周杰倫」である。

通常、機能的メッセージは、固定形式の機能テンプレートと変化可能な音声キーワードとを有するので、本実施例では、音声認識デバイスにおいて、機能テンプレートライブラリと音声レキシコンとが予め設けられ、機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、ｉ番目の候補認識結果が目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、この音声キーワードはｉ番目の候補認識結果における少なくとも１つのキーワードである。

会話形式のメッセージとは、規則的ではなく、かつ変化の数が未知であるメッセージを意味する。例えば、会話メッセージは、「何をしていますか」、「今日は暇ですか」、「映画が本当に面白いです」などである。

会話形式のメッセージは、規則的ではなく、かつ変化の数が未知であるので、本実施例では、音声認識デバイスにおいて、事前にトレーニングされた言語モデルが設けられ、会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と音声信号との類似度を決定することにより、目標結果を選択するように音声認識デバイスに指示するためのものである。

選択的に、本実施例では、命令選択規則のアルゴリズムの複雑さは、機能選択規則のアルゴリズムの複雑さよりも低く、機能選択規則のアルゴリズムの複雑さは、会話選択規則のアルゴリズムの複雑さよりも低い。これに応じて、音声認識デバイスは、命令選択規則を優先的に実行して目標結果を選択し、命令選択規則により目標結果が選択されなかった場合、機能選択規則を実行して目標結果を選択し、機能選択規則により目標結果が選択されなかった場合、会話選択規則を実行して目標結果を選択する。

選択的に、本実施例では、命令選択規則のアルゴリズムの複雑さ、機能選択規則のアルゴリズムの複雑さ、及び会話選択規則のアルゴリズムの複雑さは、いずれも、ＲＮＮ言語モデルに従って目標結果を選択するアルゴリズムの複雑さよりも遥かに小さいので、音声認識デバイスが命令選択規則、機能選択規則、及び会話選択規則を順次に実行してやっと目標結果を決定した場合にも、音声認識デバイスが消費した全体時間は、ＲＮＮ言語モデルに従って目標結果を選択するのに消費される全体時間よりも小さい。

以下、命令選択規則により目標結果を選択すること（図３に示す実施例を参照）、機能選択規則により目標結果を選択すること（図５に示す実施例を参照）、会話選択規則により目標結果を選択すること（図６に示す実施例を参照）をそれぞれ説明する。

図３は、本願の他の実施例で提供された音声認識方法のフローチャートである。本実施例では、この音声認識方法を音声認識デバイスに適用する場合を例に説明する。この方法は、以下のステップを含んでよい。
ステップ２０１で、命令レキシコンの第１の対応関係にｉ番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出する。

第１の対応関係は、インデックス値と命令キーワードとの対応関係を含む。
選択的に、第１の対応関係は、正引きテーブルにより実現される。この正引きテーブルは、少なくとも１つのキー/値ペアを含み、各キー/値ペアのキーがハッシュ値（インデックス値）であり、各キー/値ペアの値が命令キーワードである。
本実施例では、第１の対応関係のキー/値ペアの数を限定しないが、例示的に、第１の対応関係のキー/値ペアの数は１０００である。

音声認識デバイスは、命令レキシコンの第１の対応関係にｉ番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出することは、ｉ番目の候補認識結果のハッシュ値を計算し、第１の対応関係において該ハッシュ値に等しいキーがあるかどうかを検出し、第１の対応関係において該ハッシュ値に等しいキーがある場合、第１の対応関係にｉ番目の候補認識結果とマッチングする命令キーワードが含まれると決定し、ステップ２０２を実行し、第１対応関係において該ハッシュ値に等しいキーがない場合、ｉ＝ｉ＋１にして、本ステップを実行し続ける、こと含む。

選択的に、第１の対応関係は、少なくとも１つの命令キーワードのみを含んでよく、音声認識デバイスは、ｉ番目の候補認識結果と各命令キーワードとをマッチングし、第１の対応関係にｉ番目の候補認識結果と完全にマッチングする命令キーワードがある場合、ステップ２０２を実行し、第１の対応関係にｉ番目の候補認識結果と完全にマッチングする命令キーワードがない場合、ｉ＝ｉ＋１にして、本ステップを実行し続ける。
ステップ２０２で、ｉ番目の候補認識結果を目標結果として決定し、フローを終了する。

選択的に、第１の対応関係に少なくとも２つの候補認識結果に対応する命令キーワードが含まれる場合、音声認識デバイスは、１番目の候補認識結果を目標結果としてもよく、又は、音声認識デバイスは、ステップ２０３を実行して、この少なくとも２つの候補認識結果の中から目標結果を再度選択してもよい。

ステップ２０３で、第１の対応関係にｎ個の候補認識結果のうちのいずれの候補認識結果とマッチングする命令キーワードも含まれない場合、命令レキシコンの第２の対応関係にｉ番目の候補認識結果におけるいずれか１文字とマッチングする１文字キーワードが含まれるかどうかを検出する。

第２の対応関係は、インデックス値と１文字キーワードとの対応関係を含み、命令キーワードは、１文字キーワードを含む。
選択的に、第２の対応関係は、逆引きテーブルにより実現される。この逆引きテーブルは、少なくとも１つのキー/値ペアを含み、各キー/値ペアのキーが１文字キーワードのハッシュ値であり、各キー/値ペアの値がこの１文字キーワードに対応する第１の対応関係における少なくとも１つのインデックス値である。

音声認識デバイスは、命令レキシコンの第２の対応関係にｉ番目の候補認識結果におけるいずれか１文字とマッチングする１文字キーワードが含まれるかどうかを検出することは、ｉ番目の候補認識結果における各文字のハッシュ値を計算し、第２の対応関係にいずれか１文字のハッシュ値に等しいキーが含まれるかどうかを検出し、第２対応関係にいずれか１文字のハッシュ値に等しいキーが含まれる場合、第２の対応関係にｉ番目の候補認識結果における文字とマッチングする１文字キーワードが含まれると決定し、ステップ２０４を実行し、第２の対応関係にいずれか１文字のハッシュ値に等しいキーが含まれない場合、ｉ＝ｉ＋１にして、本ステップを実行し続ける、ことを含む。
選択的に、第２の対応関係における各キー/値ペアのキーは、１文字キーワードであってもよい。

ステップ２０４で、第２の対応関係における１文字キーワードに対応するインデックス値に基づいて、第１の対応関係においてインデックス値に対応する命令キーワードを検索する。

命令キーワードが１文字キーワードから構成されているが、異なる命令キーワードに同じ１文字キーワードが含まれる可能性があるため、音声認識デバイスが１文字キーワードに対応するインデックス値、即ち、第２の対応関係における１文字キーワードに対応するキー/値ペアの値に基づいて検索した命令キーワードの数は、少なくとも１つである。

本実施例では、第１の対応関係と第２の対応関係とを組み合わせて、ｉ番目の候補認識結果とマッチングする命令キーワードを検出することにより、音声認識デバイスが命令キーワードのすべての変化形式を記憶する必要がなく、すべての変化形式に含まれる１文字キーワードを記憶するだけで、対応する命令キーワードを決定することができ、音声認識デバイスの記憶空間を節約する。
ステップ２０５で、ｉ番目の候補認識結果と命令キーワードとの編集距離を決定する。

編集距離（又はライビングステン（Ｌｅｖｅｎｓｈｔｅｉｎ）距離と呼ぶ）は、ｉ番目の候補認識結果を命令キーワードに変換するために必要な操作回数を示すものである。ここで、変換の操作は、置換、挿入、及び削除を含むが、これらに限定されない。

音声認識デバイスによって、複数の命令キーワードが決定されることが可能である。このとき、ｉ番目の候補認識結果と各命令キーワードとの編集距離を決定する。

例えば、ｉ番目の候補認識結果が中国語の「在停」であり、音声認識デバイスによって決定された命令キーワードが中国語の

であり、音声認識デバイスが中国語の「在」を中国語の

に置き換えるだけで、中国語の「在停」を中国語の

に変換できる場合、ｉ番目の候補認識結果と命令キーワードとの編集距離は１である。
ステップ２０６で、編集距離が所定値より小さい場合、ｉ番目の候補認識結果を目標結果として決定する。

編集距離が所定値より小さい場合は、ｉ番目の候補認識結果と命令キーワードとの類似度が高いことを表す。この場合、このｉ番目の候補認識結果を目標結果として決定する。
所定値は、通常小さい値を取るが、本実施例では、所定値を限定しない。例示的に、所定値は２である。

図４に示す第１の対応関係及び第２の対応関係の模式図を参照すると、第１の対応関係は、３つのキー/値ペアを含み、各キー/値ペアがインデックス値及び命令キーワードからなり、第２の対応関係は、３つのキー/値ペアを含み、各キー/値ペアがハッシュ値及びインデックス値からなる。

音声認識デバイスによって、それぞれ中国語の

である４つの候補認識結果が認識された場合、音声認識デバイスは、この４つの候補認識結果のハッシュ値をそれぞれ計算する。ここで、中国語の「再填」のハッシュ値は１であり、中国語の「在田」のハッシュ値は２であり、中国語の「在填」のハッシュ値は３であり、中国語の

のハッシュ値は４である。第１の対応関係におけるキーに４が含まれるため、中国語の

を目標結果として決定する。

音声認識デバイスによって、それぞれ中国語の「再填」、「在田」、「在填」、及び「在停」である４つの候補認識結果が認識された場合、音声認識デバイスは、この４つの候補認識結果のハッシュ値をそれぞれ計算する。ここで、中国語の「再填」のハッシュ値は１であり、中国語の「在田」のハッシュ値は２であり、中国語の「在填」のハッシュ値は３であり、中国語の「在停」のハッシュ値は５である。第１の対応関係におけるキーに１、２、３、５が含まれないため、音声認識デバイスは、各候補認識結果における各文字のハッシュ値を計算する。中国語の「在停」という候補認識結果について、中国語文字「在」のハッシュ値は１１であり、中国語文字「停」のハッシュ値は１２である。第２の対応関係におけるキーに１２が含まれるため、音声認識デバイスは、第２の対応関係における１２に対応するインデックス値４に基づいて、第１の対応関係においてインデックス値４に対応する中国語の

という命令キーワードを検索する。中国語の

との編集距離は、１であり、所定値２より小さいので、中国語の「在停」を目標結果として決定する。

選択的に、すべての候補認識結果と命令キーワードとの編集距離が所定値以上である場合、命令選択規則により目標結果が選択されなかった。この場合、音声認識デバイスは、他の選択規則により目標結果を選択し続け、又は、１番目の候補認識結果を目標結果として決定し、又は、目標結果を選択せずに、フローを終了する。ここで、他の選択規則は、機能選択規則又は会話選択規則である。

選択的に、音声認識デバイスは、編集距離が最も小さい候補認識結果を目標結果として決定してもよい。

以上のように、本願で提供された音声認識方法では、命令選択規則によりｎ個の候補認識結果のうちの目標結果を選択し、命令選択規則を実行するだけで目標結果を決定することができる場合、命令選択規則のアルゴリズムの複雑さが、ＲＮＮ言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いため、ｎ個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。

また、第１の対応関係と第２の対応関係とを組み合わせて、ｉ番目の候補認識結果とマッチングする命令キーワードを検出することにより、音声認識デバイスが命令キーワードのすべての変化形式を記憶する必要がなく、すべての変化形式に含まれる１文字キーワードを記憶するだけで、対応する命令キーワードを決定することができ、音声認識デバイスの記憶空間を節約する。

選択的に、音声認識デバイスは目標結果を音声受信デバイスに送信し、この音声受信デバイスは目標結果に対応する命令に従って相応の動作を実行する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が中国語の

である場合、スマートスピーカーは、この目標結果を受信した後、現在再生中のオーディオ情報の再生を一時停止する。

図５は、本願の他の実施例で提供された音声認識方法のフローチャートである。本実施例では、この音声認識方法を音声認識デバイスに適用する場合を例に説明する。この方法は、以下のステップを含んでよい。

ステップ４０１で、ｉ（１≦ｉ≦ｎ）番目の候補認識結果の機能テンプレートを分析する。
選択的に、音声認識デバイスには、少なくとも１つの機能テンプレートを含む機能テンプレートライブラリが予め設けられている。

選択的に、機能テンプレートは、正規表現（又は規則表現と呼ぶ）によって表される。例えば、機能テンプレートは、「一曲の（．＋）の歌」である。本実施例では、機能テンプレートライブラリにおける機能テンプレートの数を限定しないが、例示的に、機能テンプレートライブラリにおける機能テンプレートの数は５４０個である。

また、正規表現は、ある機能テンプレートに該当するテキスト情報を検索及び／又は置換するために使用される。

音声認識デバイスは、ｉ番目の候補認識結果と機能テンプレートライブラリにおける各機能テンプレートとをマッチングすることにより、ｉ番目の候補認識結果における機能テンプレートを分析する。

ステップ４０２で、音声レキシコンにｉ番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかを検出する。

ｉ番目の候補認識結果は、機能テンプレートと少なくとも１つの音声キーワードとを含み、音声認識デバイスは、ｉ番目の候補認識結果の機能テンプレートを分析した後、ｉ番目の候補認識結果における残りのキーワードを音声キーワードとする。

音声認識デバイスには音声レキシコンが予め設けられ、音声レキシコンには少なくとも１つのレキシコンキーワードが含まれる。本実施例では、音声レキシコンにおけるレキシコンキーワードの数を限定しないが、例示的に、音声レキシコンにおけるレキシコンキーワードの数は１００万である。

音声認識デバイスは、ｉ番目の候補認識結果における音声キーワードと音声レキシコンにおける少なくとも１つのレキシコンキーワードとを逐一にマッチングし、音声レキシコンにｉ番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれる場合、ステップ４０３を実行し、音声レキシコンにｉ番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれない場合、ｉ＝ｉ＋１にして、本ステップを実行し続ける。

ステップ４０３で、ｉ番目の候補認識結果を目標結果として決定し、フローを終了する。
選択的に、機能選択規則により目標結果が選択されなかった場合、音声認識デバイスは、他の選択規則により目標結果を選択し続け、又は、１番目の候補認識結果を目標結果として決定し、又は、目標結果を選択せずに、フローを終了する。ここで、他の選択規則は、命令選択規則又は会話選択規則である。

なお、機能選択規則により目標結果が選択されなかったことは、各候補認識結果の機能テンプレートが音声認識デバイスの分析によって得られなかった場合、又は、音声レキシコンにおいて、各候補認識結果における音声キーワードとマッチングするレキシコンキーワードが音声認識デバイスによって検索されなかった場合を含むが、これらに限定されない。

音声認識デバイスによって、それぞれ、１、「図案歌の歌を聞きたい」、２、「童安格の咯を聞きたい」、３、「童安格の歌を聞きたい」である３つの候補認識結果が得られると仮定する。音声認識デバイスは、これらの３つの候補認識結果と機能テンプレートライブラリにおける機能テンプレートとをそれぞれマッチングする。得られた１番目の候補認識結果の機能テンプレートは「（．＋）の歌を聞きたい」であり、２番目の候補認識結果の機能テンプレートは「（．＋）の（．＋）を聞きたい」であり、３番目の候補認識結果の機能テンプレートは「（．＋）の歌を聞きたい」である。

１番目の候補認識結果について、音声キーワードは図案歌である。２番目の候補認識結果について、音声認識デバイスは１番目のキーワードを音声キーワードとし、即ち、音声キーワードは童安格である。３番目の候補認識結果について、音声キーワードは童安格である。

音声認識デバイスは、候補認識結果における音声キーワードと音声レキシコンにおけるレキシコンキーワードとを順次にマッチングする。２番目の候補認識結果における音声キーワードとレキシコンキーワードとをマッチングする場合、音声認識デバイスは、音声キーワードとマッチングするレキシコンキーワードを決定することができるため、２番目の候補認識結果を目標結果として決定する。

選択的に、２番目の候補認識結果について、音声認識デバイスは、すべてのキーワードを音声キーワードとしてもよく、即ち、音声キーワードは童安格及び咯である。この場合、音声レキシコンには、「童安格」とマッチングするレキシコンキーワードが含まれるが、「咯」とマッチングするレキシコンキーワードが含まれない。このとき、音声認識デバイスは、候補認識結果における音声キーワードと音声レキシコンにおけるレキシコンキーワードとを順次にマッチングする。３番目の候補認識結果における音声キーワードとレキシコンキーワードとをマッチングする場合、音声認識デバイスは、音声キーワードとマッチングするレキシコンキーワードを決定することができるため、３番目の候補認識結果を目標結果として決定する。

以上のように、本願で提供された音声認識方法では、機能選択規則によりｎ個の候補認識結果のうちの目標結果を選択し、機能選択規則を実行するだけで目標結果を決定することができる場合、機能選択規則のアルゴリズムの複雑さが、ＲＮＮ言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いため、ｎ個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。

選択的に、音声認識デバイスは目標結果を音声受信デバイスに送信し、この音声受信デバイスは目標結果における音声キーワードに従って相応の動作を実行する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が「周杰倫の歌を再生する」である場合、スマートスピーカーは、この目標結果を受信した後、周杰倫の歌を検索し、検索結果に対応するオーディオ情報を再生する。

選択的に、音声認識デバイスは、目標結果における音声キーワードに基づいて検索し、検索結果を音声受信デバイスに送信し、この音声受信デバイスは該検索結果に対応するオーディオ情報を再生する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が「周杰倫の歌を再生する」である場合、音声認識デバイスは、目標結果における音声キーワード「周杰倫」に基づいて、周杰倫の歌を検索し、検索結果をスマートスピーカーに送信する。スマートスピーカーは、検索結果に対応するオーディオ情報を再生する。

図６は、本願の他の実施例で提供された音声認識方法のフローチャートである。本実施例では、この音声認識方法を音声認識システムに適用する場合を例に説明する。この方法は、以下のステップを含んでよい。

ステップ５０１で、言語モデルに従って、各候補認識結果のパープレキシティを計算する。

パープレキシティ（ｐｒｅｐｌｅｘｉｔｙ）は、候補認識結果と音声信号との類似度を示すためのものである。パープレキシティと類似度とが負の相関関係にある。
言語モデルは、自然言語に内在する法則を記述するための数学モデルである。

選択的に、本実施例では、言語モデルは、少なくとも１つの分野に対応する専用コーパスから生成されたＮ−ｇｒａｍ言語モデルであり、Ｎ−ｇｒａｍ言語モデルは、現在の単語の前のＮ−１個の単語の生起確率に基づいて、現在の単語の生起確率を決定するために使用され、Ｎは正整数である。本実施例では、Ｎの値が限定されないが、例示的に、Ｎは３であり、３−ｇｒａｍ言語モデルはＴｒｉ−ｇｒａｍ言語モデルとも呼ばれる。例示的に、Ｎは２であり、２−ｇｒａｍ言語モデルはＢｉ−ｇｒａｍ言語モデルとも呼ばれる。

Ｎ−ｇｒａｍ言語モデルは、確率及び分布関数によって単語、フレーズ及びセンテンスなどの自然言語の基本単位の性質及び関係を記述し、自然言語に存在する統計原理に基づく生成及び処理規則を体現している。

本実施例では、音声認識デバイスが３−ｇｒａｍ言語モデル又は２−ｇｒａｍ言語モデルに従って各候補認識結果のパープレキシティを計算することを例に説明する。
選択的に、３−ｇｒａｍ言語モデルは、以下の数式によって表される。
ｐ（Ｓ）＝ｐ（ｗ１）ｐ（ｗ２｜ｗ１）ｐ（ｗ３｜ｗ１，ｗ２）．．．ｐ（ｗｎ｜ｗ１，ｗ２，．．．，ｗｎ−１）
＝ｐ（ｗ１）ｐ（ｗ２｜ｗ１）ｐ（ｗ３｜ｗ１，ｗ２）．．．ｐ（ｗｎ｜ｗｎ−１，ｗｎ−２）

ここで、ｐ（Ｓ）は候補認識結果の生起確率を表し、ｐ（ｗ１）は候補認識結果における１番目の単語の生起確率を表し、ｐ（ｗ２｜ｗ１）は候補認識結果における１番目の単語の生起に依存した２番目の単語の生起確率を表し、ｐ（ｗ３｜ｗ１，ｗ２）は候補認識結果における１番目及び２番目の単語の生起に依存した３番目の単語の生起確率を表し、ｐ（ｗｎ｜ｗｎ−１，ｗｎ−２）は、候補認識結果における１つ前の単語（ｎ−１番目の単語）及び２つ前の単語（ｎ−２番目の単語）の生起に依存したｎ番目の単語の生起確率を表す。

選択的に、２−ｇｒａｍ言語モデルは、以下の数式によって表される。
ｐ（Ｓ）＝ｐ（ｗ１）ｐ（ｗ２｜ｗ１）ｐ（ｗ３｜ｗ１，ｗ２）．．．ｐ（ｗｎ｜ｗ１，ｗ２，．．．，ｗｎ−１）
＝ｐ（ｗ１）ｐ（ｗ２｜ｗ１）ｐ（ｗ３｜ｗ２）．．．ｐ（ｗｎ｜ｗｎ−１）

ここで、ｐ（Ｓ）は候補認識結果の生起確率を表し、ｐ（ｗ１）は候補認識結果における１番目の単語の生起確率を表し、ｐ（ｗ２｜ｗ１）は候補認識結果における１番目の単語の生起に依存した２番目の単語の生起確率を表し、ｐ（ｗ３｜ｗ２）は候補認識結果における２番目の単語の生起に依存した３番目の単語の生起確率を表し、ｐ（ｗｎ｜ｗｎ−１）は、候補認識結果における１つ前の単語（ｎ−１番目の単語）の生起に依存したｎ番目の単語の生起確率を表す。

なお、少なくとも１つの分野は、天気分野、音楽分野、数学分野、スポーツ分野、コンピュータ分野、家庭生活分野、地理分野、自然分野を含むが、これらに限定されない。
もちろん、少なくとも１つの分野は、他の分野を含んでもよいが、本実施例では限定されない。

音声認識デバイスは、所定の数式により、言語モデルに従って各候補認識結果のパープレキシティを計算する。

パープレキシティは、言語モデルに従って予測された各単語の後の候補単語の生起確率の幾何平均と見なされてもよい。通常、候補認識結果の生起確率とパープレキシティとが負の相関関係にあり、即ち、候補認識結果の生起確率が大きいほど、パープレキシティが低くなり、候補認識結果の生起確率が小さいほど、パープレキシティが高くなる。

選択的に、音声認識デバイスは、所定の数式により、言語モデルに従って各候補認識結果のパープレキシティを計算する際に、まず、各候補認識結果のクロスエントロピーを計算し、このクロスエントロピーと所定の数式とに基づいてこの音声認識結果のパープレキシティを決定する。

ここで、クロスエントロピーは、言語モデルに従って決定されたモデル言語と候補認識結果との違いの様子を示すためのものである。クロスエントロピーが小さいほど、モデル言語と候補認識結果との違いが小さくなり、候補認識結果と音声信号とのマッチング度が高くなり、クロスエントロピーが大きいほど、モデル言語と候補認識結果との違いが大きくなり、候補認識結果と音声信号とのマッチング度が低くなる。

選択的に、言語モデルは、例えば、神経ネットワーク言語モデルのような他のタイプであってもよく、本実施例では限定されない。

ステップ５０２で、ｎ個の候補認識結果のパープレキシティの最小値を決定し、最小値に対応するｉ番目の候補認識結果を目標結果として決定する。

パープレキシティが小さいほど、候補認識結果と音声信号との類似度が高いことを表すので、パープレキシティの最小値に対応するｉ番目の候補認識結果を目標結果として決定する。

以上のように、本願で提供された音声認識方法では、会話選択規則によりｎ個の候補認識結果のうちの目標結果を選択し、会話選択規則を実行するだけで目標結果を決定することができる場合、会話選択規則のアルゴリズムの複雑さが、ＲＮＮ言語モデルに従ってパープレキシティを計算するアルゴリズムの複雑さよりも低いため、ｎ個の候補認識結果の中から目標結果を選択することのリアルタイム性を向上させる。

選択的に、音声認識デバイスは目標結果を音声受信デバイスに送信し、この音声受信デバイスは目標結果に従って会話情報を取得する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が「何をしていますか」である場合、スマートスピーカーは、この目標結果を受信した後、会話モデルに従って会話情報を生成する。

選択的に、音声認識デバイスは、目標結果に基づいて会話情報を生成し、会話情報を音声受信デバイスに送信し、この音声受信デバイスは、この会話情報に対応するオーディオ情報を再生する。例えば、音声受信デバイスがスマートスピーカーであり、かつ目標結果が「何をしていますか」である場合、音声認識デバイスは、目標結果に基づいて会話情報を生成し、会話情報をスマートスピーカーに送信し、スマートスピーカーは、会話情報に対応するオーディオ情報を再生する。

説明すべきものとして、図３に示す実施例、図５に示す実施例、及び図６に示す実施例を２つずつ組み合わせて、新たな実施例としてもよく、又は３つの実施例を組み合わせて新たな実施例としてもよい。ｍ＝３を例にして、命令選択規則は１番目の選択規則であり、機能選択規則は２番目の選択規則であり、会話選択規則は３番目の選択規則である。

下記は、本願に係る装置の実施例であり、本願に係る方法の実施例を実行するために用いることができる。本願に係る装置の実施例に披露されていない詳細について、本願に係る方法の実施例を参照されたい。

図７は、本願の一実施例で提供された音声認識装置のブロック図である。この装置は、上記の方法例を実行する機能を有する。この機能は、ハードウェアによって実現されてもよいし、ハードウェアによって相応のソフトウェアを実行することにより実現されてもよい。この装置は、
音声信号を取得する信号取得モジュール６１０と、
音声認識アルゴリズムにより、前記信号取得モジュール６１０で取得された前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得る音声認識モジュール６２０と、
ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記音声認識モジュール６２０で認識された前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定する決定モジュール６３０と、を含んでよく、
前記決定モジュール６３０は、前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定する。

選択的に、ｍ種の選択規則の実行順序がそれぞれのアルゴリズムの複雑さに基づいて決定され、実行順序とアルゴリズムの複雑さとが正の相関関係にある。

選択的に、ｍ種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも２種を含み、命令選択規則のアルゴリズムの複雑さが機能選択規則のアルゴリズムの複雑さよりも低く、機能選択規則のアルゴリズムの複雑さが会話選択規則のアルゴリズムの複雑さよりも低く、

命令選択規則は、命令レキシコンにｉ（１≦ｉ≦ｎ）番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、ｉ番目の候補認識結果が目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、
機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、ｉ番目の候補認識結果が目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、音声キーワードは、ｉ番目の候補認識結果における少なくとも１つのキーワードであり、
会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と音声信号との類似度を決定することにより、目標結果を選択するように音声認識デバイスに指示するためのものである。

選択的に、決定モジュール６３０は、第１の検出手段と第１の決定手段とを含む。
命令レキシコンの第１の対応関係にｉ（１≦ｉ≦ｎ）番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出する第１の検出手段と、
第１の対応関係にｉ番目の候補認識結果とマッチングする命令キーワードが含まれる場合、ｉ番目の候補認識結果を目標結果として決定する第１の決定手段と、を含み、
第１の対応関係は、少なくとも命令キーワードを含む。

選択的に、この決定モジュール６３０は、
第１の対応関係にｎ個の候補認識結果のうちのいずれの候補認識結果とマッチングする命令キーワードも含まれない場合、命令レキシコンの第２の対応関係にｉ番目の候補認識結果におけるいずれか１文字とマッチングする１文字キーワードが含まれるかどうかを検出する第２の検出手段と、
第２の対応関係にｉ番目の候補認識結果における文字とマッチングする１文字キーワードが含まれる場合、第２の対応関係における１文字キーワードに対応するインデックス値に基づいて、第１の対応関係においてインデックス値に対応する命令キーワードを検索するキーワード検索手段と、
ｉ番目の候補認識結果を命令キーワードに変換するために必要な操作回数を示すための、ｉ番目の候補認識結果と命令キーワードとの編集距離を決定する第２の決定手段と、
編集距離が所定値より小さい場合、ｉ番目の候補認識結果を目標結果として決定する第３の決定手段と、をさらに含み、
第１の対応関係は、インデックス値と命令キーワードとの対応関係を含み、第２の対応関係は、インデックス値と１文字キーワードとの対応関係を含む。

選択的に、決定モジュール６３０は、
ｉ（１≦ｉ≦ｎ）番目の候補認識結果の機能テンプレートを分析するテンプレート分析手段と、
音声レキシコンにｉ番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかを検出する第３の検出手段と、

音声レキシコンにｉ番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれる場合、ｉ番目の候補認識結果を目標結果として決定する第４の決定手段と、を含み、
音声キーワードは、ｉ番目の候補認識結果における少なくとも１つのキーワードであり、
ｉ番目の候補認識結果は、機能テンプレートと音声キーワードとを含む。

選択的に、決定モジュール６３０は、
言語モデルに従って、各候補認識結果のパープレキシティを計算するパープレキシティ計算手段と、
ｎ個の候補認識結果のパープレキシティの最小値を決定し、最小値に対応するｉ番目の候補認識結果を目標結果として決定する第５の決定手段と、を含み、
パープレキシティは、候補認識結果と音声信号との類似度を示すためのものであり、パープレキシティと類似度とが負の相関関係にあり、言語モデルは、少なくとも１つの分野に対応する専用コーパスから生成されたＮ−ｇｒａｍ言語モデルであり、Ｎ−ｇｒａｍ言語モデルは、現在の単語の前のＮ−１個（Ｎは正整数）の単語の生起確率に基づいて、現在の単語の生起確率を決定するために使用される。

また、本願の実施例は、コンピュータ可読記憶媒体を提供している。このコンピュータ可読記憶媒体は、メモリに含まれるコンピュータ可読記憶媒体であってよく、音声認識デバイスに取り付けられておらず、単独で存在するコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体には、少なくとも１つの命令、少なくとも１つのプログラム、コードセット、又は命令セットが記憶され、この少なくとも１つの命令、少なくとも１つのプログラム、コードセット、又は命令セットがプロセッサによりロードされて実行されることで、上述した様々な方法の実施例で提供された音声認識方法を実現させる。

図８は、本願の一実施例で提供された音声認識デバイスの構成の模式図である。音声認識デバイス７００は、中央処理装置（英語：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、略称：ＣＰＵ）７０１と、ランダムアクセスメモリ（英語：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、略称：ＲＡＭ）７０２及び読み出し専用メモリ（英語：ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ、略称：ＲＯＭ）７０３を含めたシステムメモリ７０４と、システムメモリ７０４及び中央処理装置７０１を接続するシステムバス７０５と、を含む。前記音声認識デバイス７００は、コンピュータ内の各部品間の情報の伝送を支援する基本入出力システム（Ｉ／Ｏシステム）７０６と、オペレーティングシステム７１３、アプリケーション７１４、及び他のプログラムモジュール７１５を記憶するための大容量記憶装置７０７と、をさらに含む。

前記基本入出力システム７０６は、情報を表示するためのディスプレイ７０８と、ユーザが情報を入力するためのマウスやキーボードのような入力デバイス７０９と、を含む。ここで、前記ディスプレイ７０８及び入力デバイス７０９の両方は、システムバス７０５に接続された入出力コントローラ７１０を介して中央処理装置７０１に接続されている。前記基本入出力システム７０６は、キーボード、マウス、又は電子タッチペンなどの他の複数のデバイスからの入力を受信して処理するための入出力コントローラ７１０を含んでもよい。同様に、入出力コントローラ７１０は、ディスプレイ、プリンタ、又は他のタイプの出力デバイスへの出力も提供する。

前記大容量記憶装置７０７は、システムバス７０５に接続された大容量記憶コントローラ（図示せず）を介して中央処理装置７０１に接続されている。前記大容量記憶装置７０７及びそれに関連するコンピュータ可読媒体は、音声認識デバイス７００に対して不揮発性記憶を提供する。つまり、前記大容量記憶装置７０７は、ハードディスクや読み出し専用光ディスク（英語：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、略称：ＣＤ−ＲＯＭ）ドライブのようなコンピュータ可読媒体（図示せず）を含んでよい。

一般性を失うことなく、前記コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体とを含んでよい。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどのような情報を記憶するための任意の方法又は技術によって実現される揮発性及び不揮発性、移動可能な及び移動不可な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、消去可能プログラマブル読み出し専用メモリ（英語：ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ、略称：ＥＰＲＯＭ）、電気的消去可能プログラマブル読み出し専用メモリ（英語：ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ、略称：ＥＥＰＲＯＭ）、フラッシュメモリ又は他のソリッドステート記憶技術、ＣＤ−ＲＯＭ、デジタルバーサタイルディスク（英語：ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ、略称：ＤＶＤ）又は他の光学的記憶装置、テープカートリッジ、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置を含む。もちろん、当業者であれば、前記コンピュータ記憶媒体がこれらに限定されないことが分かる。上記のシステムメモリ７０４及び大容量記憶装置７０７を総称してメモリと呼んでもよい。

本願の様々な実施例によれば、前記音声認識デバイス７００は、インターネットなどのようなネットワークを介して、ネットワーク上のリモートコンピュータに接続されて実行されてもよい。即ち、音声認識デバイス７００は、前記システムバス７０５に接続されたネットワークインターフェースユニット７１１を介して、ネットワーク７１２に接続されてもよく、言い換えれば、ネットワークインターフェースユニット７１１を使用して、他のタイプのネットワーク又はリモートコンピュータシステム（図示せず）に接続されてもよい。

具体的には、本願の実施例では、音声認識デバイス７００は、メモリと、１つ又は複数のプログラムと、をさらに含む。ここで、１つ又は複数のプログラムは、メモリに記憶され、１つ又は複数のプロセッサによって実行されるように構成される。上記の１つ又は複数のプログラムは、上記の音声認識方法を実行するための命令を含む。

選択可能な一実施例では、本願の実施例は、スマートスピーカーとサーバとを含む音声認識システムも提供している。このスマートスピーカーは、図１に示す音声収集デバイスであってもよく、サーバは、図１に示す音声認識デバイスであってもよい。

スマートスピーカーは、音声信号を収集し、前記サーバに前記音声信号を送信する。

サーバは、音声信号を取得し、音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得、ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定し、前記スマートスピーカーに前記目標結果を送信する。選択的に、サーバは、上記図３〜図６のいずれかに示す音声認識方法に従って、目標結果の認識を行う。

スマートスピーカーは、さらに、前記目標結果に応じて応答する。この応答は、目標結果に応じて命令の実行を行うこと、目標結果に応じて機能上の応答を行うこと、目標結果に応じて音声会話を行うことの少なくとも１つを含むが、これらに限定されない。
例示的に、目標結果に応じて命令の実行を行うことは、再生、一時停止、前の曲、次の曲の少なくとも１つの命令の実行を含む。

例示的に、目標結果に応じて機能上の応答を行うことは、ある歌手又はある歌曲名又はあるジャンルの歌曲の再生、ある司会者又はある番組名又はあるタイプの音楽番組の再生、音声ナビゲーション、スケジュールリマインダ、翻訳の少なくとも１つの機能上の応答を含む。

例示的に、対応結果に応じて音声会話を行うことは、天気問答、知識問答、娯楽雑談、笑い話解説の少なくとも１つの会話シーンを含む。

当業者であれば理解できるように、上述した実施例の手順の全部又は一部は、ハードウェアによって実行されてもよく、プログラムから関連のハードウェアへ指示することにより実行されてもよい。前記プログラムは、コンピュータ可読記憶媒体に記憶されてもよく、上記の記憶媒体は、読み出し専用メモリ、磁気ディスク、又は光ディスクなどであってよい。

上記は、本願の好ましい実施例にすぎず、本願の保護範囲を限定するものではない。本願の精神と原則内で行われる種々の修正、均等置換え、改善などは全て本願の保護範囲内に含まれるべきである。

６１０：信号取得モジュール
６２０：音声認識モジュール
６３０：決定モジュール
７００：音声認識デバイス
７０１：中央処理装置
７０２：ランダムアクセスメモリ
７０３：読み出し専用メモリ
７０４：システムメモリ
７０５：システムバス
７０６：入出力システム
７０７：大容量記憶装置
７０８：ディスプレイ
７０９：入力デバイス
７１０：入出力コントローラ
７１１：ネットワークインターフェースユニット
７１２：ネットワーク
７１３：オペレーティングシステム
７１４：アプリケーション
７１５：他のプログラムモジュール

本願の他の一態様によれば、音声認識装置が提供され、前記装置は、
音声信号を取得する信号取得モジュールと、
音声認識アルゴリズムにより、前記信号取得モジュールで取得された前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得る音声認識モジュールと、
ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記音声認識モジュールで認識された前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定する決定モジュールと、を含み、
前記決定モジュールは、前記第１の決定モジュールによって、前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定する。

Claims

音声認識方法であって、
音声信号を取得し、
音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得、
ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、
前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定する、
ことを含むことを特徴とする方法。
前記ｍ種の選択規則の実行順序がそれぞれのアルゴリズムの複雑さに基づいて決定され、前記実行順序と前記アルゴリズムの複雑さとが正の相関関係にあることを特徴とする請求項１に記載の方法。
前記ｍ種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも２種を含み、前記命令選択規則のアルゴリズムの複雑さが前記機能選択規則のアルゴリズムの複雑さよりも低く、前記機能選択規則のアルゴリズムの複雑さが前記会話選択規則のアルゴリズムの複雑さよりも低く、
前記命令選択規則は、命令レキシコンにｉ（１≦ｉ≦ｎ）番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、前記ｉ番目の候補認識結果が前記目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、
前記機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、前記ｉ番目の候補認識結果が前記目標結果であるかどうかを検出するように前記音声認識デバイスに指示するためのものであり、前記音声キーワードは、前記ｉ番目の候補認識結果における少なくとも１つのキーワードであり、
前記会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と前記音声信号との類似度を決定することにより、前記目標結果を選択するように前記音声認識デバイスに指示するためのものである、
ことを特徴とする請求項１に記載の方法。
前記実行順序がｊである選択規則は前記命令選択規則を含み、前記ｍ種の選択規則のうち実行順序がｊである選択規則により、前記ｎ個の候補認識結果のうちの目標結果を決定することは、
前記命令レキシコンの第１の対応関係に前記ｉ（１≦ｉ≦ｎ）番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出し、
前記第１の対応関係に前記ｉ番目の候補認識結果とマッチングする命令キーワードが含まれる場合、前記ｉ番目の候補認識結果を前記目標結果として決定する、ことを含み、
前記第１の対応関係は、少なくとも前記命令キーワードを含む、
ことを特徴とする請求項３に記載の方法。
前記命令レキシコンの第１の対応関係に前記ｉ番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出した後、
前記第１の対応関係に前記ｎ個の候補認識結果のうちのいずれの候補認識結果とマッチングする命令キーワードも含まれない場合、前記命令レキシコンの第２の対応関係に前記ｉ番目の候補認識結果におけるいずれか１文字とマッチングする１文字キーワードが含まれるかどうかを検出し、
前記第２の対応関係に前記ｉ番目の候補認識結果における文字とマッチングする１文字キーワードが含まれる場合、前記第２の対応関係における前記１文字キーワードに対応するインデックス値に基づいて、前記第１の対応関係において前記インデックス値に対応する命令キーワードを検索し、
前記ｉ番目の候補認識結果を前記命令キーワードに変換するために必要な操作回数を示すための、前記ｉ番目の候補認識結果と前記命令キーワードとの編集距離を決定し、
前記編集距離が所定値より小さい場合、前記ｉ番目の候補認識結果を前記目標結果として決定する、ことを含み、
前記第１の対応関係は、前記インデックス値と前記命令キーワードとの対応関係を含み、前記第２の対応関係は、前記インデックス値と前記１文字キーワードとの対応関係を含む、
ことを特徴とする請求項４に記載の方法。
前記実行順序がｊである選択規則は前記機能選択規則を含み、前記ｍ種の選択規則のうち実行順序がｊである選択規則により、前記ｎ個の候補認識結果のうちの目標結果を決定することは、
ｉ（１≦ｉ≦ｎ）番目の候補認識結果の機能テンプレートを分析し、
前記音声レキシコンに前記ｉ番目の候補認識結果における前記音声キーワードとマッチングする前記レキシコンキーワードが含まれるかどうかを検出し、
前記音声レキシコンに前記ｉ番目の候補認識結果における音声キーワードとマッチングする前記レキシコンキーワードが含まれる場合、前記ｉ番目の候補認識結果を前記目標結果として決定する、を含み、
前記音声キーワードは、前記ｉ番目の候補認識結果における少なくとも１つのキーワードであり、
前記ｉ番目の候補認識結果は、前記機能テンプレートと前記音声キーワードとを含む、
ことを特徴とする請求項３に記載の方法。
前記実行順序がｊである選択規則は前記会話選択規則を含み、前記ｍ種の選択規則のうち実行順序がｊである選択規則により、前記ｎ個の候補認識結果のうちの目標結果を決定することは、
前記言語モデルに従って、各前記候補認識結果のパープレキシティを計算し、
前記ｎ個の候補認識結果の前記パープレキシティの最小値を決定し、前記最小値に対応する前記ｉ番目の候補認識結果を前記目標結果として決定する、ことを含み、
前記パープレキシティは、前記候補認識結果と前記音声信号との前記類似度を示すためのものであり、前記パープレキシティと前記類似度とが負の相関関係にあり、前記言語モデルは、少なくとも１つの分野に対応する専用コーパスから生成されたＮ−ｇｒａｍ言語モデルであり、前記Ｎ−ｇｒａｍ言語モデルは、現在の単語の前のＮ−１個（Ｎは正整数）の単語の生起確率に基づいて、前記現在の単語の生起確率を決定するために使用される、
ことを特徴とする請求項３に記載の方法。
音声認識装置であって、
音声信号を取得する信号取得モジュールと、
音声認識アルゴリズムにより、前記信号取得モジュールで取得された前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得る音声認識モジュールと、
ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記音声認識モジュールで認識された前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定する決定モジュールと、を含み、
前記決定モジュールは、前記第１の決定モジュールによって、前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定する、
ことを特徴とする装置。
前記ｍ種の選択規則の実行順序がそれぞれのアルゴリズムの複雑さに基づいて決定され、前記実行順序と前記アルゴリズムの複雑さとが正の相関関係にあることを特徴とする請求項８に記載の装置。
前記ｍ種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも２種を含み、前記命令選択規則のアルゴリズムの複雑さが前記機能選択規則のアルゴリズムの複雑さよりも低く、前記機能選択規則のアルゴリズムの複雑さが前記会話選択規則のアルゴリズムの複雑さよりも低く、
前記命令選択規則は、命令レキシコンにｉ（１≦ｉ≦ｎ）番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、前記ｉ番目の候補認識結果が前記目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、
前記機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、前記ｉ番目の候補認識結果が前記目標結果であるかどうかを検出するように前記音声認識デバイスに指示するためのものであり、前記音声キーワードは、前記ｉ番目の候補認識結果における少なくとも１つのキーワードであり、
前記会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と前記音声信号との類似度を決定することにより、前記目標結果を選択するように前記音声認識デバイスに指示するためのものである、
ことを特徴とする請求項８に記載の装置。
前記決定モジュールは、
前記命令レキシコンの第１の対応関係にｉ（１≦ｉ≦ｎ）番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかを検出する第１の検出手段と、
前記第１の対応関係に前記ｉ番目の候補認識結果とマッチングする命令キーワードが含まれる場合、前記ｉ番目の候補認識結果を前記目標結果として決定する第１の決定手段と、を含み、
前記第１の対応関係は、少なくとも前記命令キーワードを含む、
ことを特徴とする請求項１０に記載の装置。
前記決定モジュールは、
前記第１の対応関係に前記ｎ個の候補認識結果のうちのいずれの候補認識結果とマッチングする命令キーワードも含まれない場合、前記命令レキシコンの第２の対応関係に前記ｉ番目の候補認識結果におけるいずれか１文字とマッチングする１文字キーワードが含まれるかどうかを検出する第２の検出手段と、
前記第２の対応関係に前記ｉ番目の候補認識結果における文字とマッチングする１文字キーワードが含まれる場合、前記第２の対応関係における前記１文字キーワードに対応するインデックス値に基づいて、前記第１の対応関係において前記インデックス値に対応する命令キーワードを検索するキーワード検索手段と、
前記ｉ番目の候補認識結果を前記命令キーワードに変換するために必要な操作回数を示すための、前記ｉ番目の候補認識結果と前記命令キーワードとの編集距離を決定する第２の決定手段と、
前記編集距離が所定値より小さい場合、前記ｉ番目の候補認識結果を前記目標結果として決定する第３の決定手段と、をさらに含み、
前記第１の対応関係は、前記インデックス値と前記命令キーワードとの対応関係を含み、前記第２の対応関係は、前記インデックス値と前記１文字キーワードとの対応関係を含む、
ことを特徴とする請求項１１に記載の装置。
前記決定モジュールは、
ｉ（１≦ｉ≦ｎ）番目の候補認識結果の機能テンプレートを分析するテンプレート分析手段と、
音声レキシコンにｉ番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかを検出する第３の検出手段と、
音声レキシコンにｉ番目の候補認識結果における音声キーワードとマッチングするレキシコンキーワードが含まれる場合、ｉ番目の候補認識結果を目標結果として決定する第４の決定手段と、を含み、
音声キーワードは、ｉ番目の候補認識結果における少なくとも１つのキーワードであり、
ｉ番目の候補認識結果は、機能テンプレートと音声キーワードとを含む、
ことを特徴とする請求項１０に記載の装置。
前記決定モジュールは、
前記言語モデルに従って、各前記候補認識結果のパープレキシティを計算するパープレキシティ計算手段と、
前記ｎ個の候補認識結果の前記パープレキシティの最小値を決定し、前記最小値に対応する前記ｉ番目の候補認識結果を前記目標結果として決定する第５の決定手段と、を含み、
前記パープレキシティは、前記候補認識結果と前記音声信号との前記類似度を示すためのものであり、前記パープレキシティと前記類似度とが負の相関関係にあり、前記言語モデルは、少なくとも１つの分野に対応する専用コーパスから生成されたＮ−ｇｒａｍ言語モデルであり、前記Ｎ−ｇｒａｍ言語モデルは、現在の単語の前のＮ−１個（Ｎは正整数）の単語の生起確率に基づいて、前記現在の単語の生起確率を決定するために使用される、
ことを特徴とする請求項１０に記載の装置。
音声認識方法であって、
音声認識デバイスが音声信号を取得し、
前記音声認識デバイスが、音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得、
前記音声認識デバイスが、ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、
前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、前記音声認識デバイスが、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定する、
ことを含むことを特徴とする方法。
前記ｍ種の選択規則の実行順序がそれぞれのアルゴリズムの複雑さに基づいて決定され、前記実行順序と前記アルゴリズムの複雑さとが正の相関関係にあることを特徴とする請求項１５に記載の方法。
前記ｍ種の選択規則は、命令選択規則と、機能選択規則と、会話選択規則との少なくとも２種を含み、前記命令選択規則のアルゴリズムの複雑さが前記機能選択規則のアルゴリズムの複雑さよりも低く、前記機能選択規則のアルゴリズムの複雑さが前記会話選択規則のアルゴリズムの複雑さよりも低く、
前記命令選択規則は、命令レキシコンにｉ（１≦ｉ≦ｎ）番目の候補認識結果とマッチングする命令キーワードが含まれるかどうかに基づいて、前記ｉ番目の候補認識結果が前記目標結果であるかどうかを検出するように音声認識デバイスに指示するためのものであり、
前記機能選択規則は、音声レキシコンに音声キーワードとマッチングするレキシコンキーワードが含まれるかどうかに基づいて、前記ｉ番目の候補認識結果が前記目標結果であるかどうかを検出するように前記音声認識デバイスに指示するためのものであり、前記音声キーワードは、前記ｉ番目の候補認識結果における少なくとも１つのキーワードであり、
前記会話選択規則は、トレーニングされた言語モデルに従って、各候補認識結果と前記音声信号との類似度を決定することにより、前記目標結果を選択するように前記音声認識デバイスに指示するためのものである、
ことを特徴とする請求項１５に記載の方法。
音声認識デバイスであって、
少なくとも１つの命令、少なくとも１つのプログラム、コードセット、又は命令セットを記憶したメモリと、
前記少なくとも１つの命令、前記少なくとも１つのプログラム、前記コードセット、又は前記命令セットをロードして実行することにより、請求項１〜７のいずれか１項に記載の音声認識方法を実現するプロセッサと、
を含むことを特徴とするデバイス。
コンピュータ可読記憶媒体であって、前記記憶媒体には、少なくとも１つの命令、少なくとも１つのプログラム、コードセット、又は命令セットが記憶され、前記少なくとも１つの命令、前記少なくとも１つのプログラム、前記コードセット、又は前記命令セットがプロセッサによりロードされて実行されることで、請求項１〜７のいずれか１項に記載の音声認識方法を実現させることを特徴とする記憶媒体。
音声認識システムであって、
音声信号を収集し、前記サーバに前記音声信号を送信するスマートスピーカーと、
音声信号を取得し、音声認識アルゴリズムにより前記音声信号を認識して、前記音声信号に対応するテキスト情報であるｎ（ｎは１より大きい整数）個の候補認識結果を得、ｍ（ｍは１より大きい整数）種の選択規則のうち実行順序がｊ（ｊの初期値は１）である選択規則により、前記ｎ個の候補認識結果のうち前記音声信号とのマッチング度が最も高い候補認識結果である目標結果を決定し、前記実行順序がｊである選択規則により前記目標結果が決定されなかった場合、実行順序がｊ＋１である選択規則により、前記ｎ個の候補認識結果のうちの前記目標結果を決定し、前記スマートスピーカーに前記目標結果を送信するサーバと、を含み、
前記スマートスピーカーは、前記目標結果に応じて応答する、
ことを特徴とするシステム。