JP6949195B2

JP6949195B2 - 音声認識方法及び装置、並びに記憶媒体

Info

Publication number: JP6949195B2
Application number: JP2020502569A
Authority: JP
Inventors: タン，フイゾン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2017-07-19
Filing date: 2018-06-20
Publication date: 2021-10-13
Anticipated expiration: 2038-06-20
Also published as: US11244672B2; JP2020527754A; CN107360327B; CN107360327A; KR20200027554A; WO2019015435A1; KR102354275B1; US20200152177A1

Description

本出願は、２０１７年７月１９日に中国特許庁に提出された、出願番号が２０１７１０５８８３８２.８であって、出願の名称が「音声認識方法及び装置、並びに記憶媒体」である中国特許出願の優先権を主張するものであり、その全内容を本出願に参照により援用する。

本発明は、通信技術の分野に関し、具体的に音声認識に関する。

人工知能の開発に伴い、インテリジェントハードウェア製品も急速に開発されている。インテリジェントハードウェア製品とは、インテリジェントモバイル端末(モバイル端末と略称される)などの、人工知能機能が集積されるハードウェア装置である。インテリジェントハードウェア製品のコアは必然的に「人」とのインタラクションから切り離せないものであり、音声インタラクションは自然で低学習コストのインタラクション方法として、インテリジェントハードウェア製品の主流の技術になっている。

音声インタラクションでは、音声ウェイクアップをどのように行うかが重要な問題である。モバイル端末を例にとると、従来の技術では、迅速な音声ウェイクアップを実現するために、一般に、端末の録音機能を常にオン状態にし、中央処理装置(ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ)は、いつでもオーディオデータを処理でき、ユーザーが話していない場合でも、ＣＰＵはスリープできない必要がある。ＣＰＵが様々なオーディオデータをエンコード、復号化、及び再生し、他の様々な機能を実現する必要があるため、当該解決策は、ＣＰＵの仕様に対する要求が高く、また、システム全体の消費電力も非常に大きく、バッテリー給電のモバイル端末にとって、待機時間が大幅に短縮される。そのため、従来の技術では、給電に外部電源を使用するか、又は１つの物理ボタンを使用してウェイクアップする解決策も提案しているが、外部電源を使用する場合、必然的にそのモビリティに影響し、物理ボタンによってウェイクアップする場合、音声ウェイクアップが実現できない。つまり、既存の解決策では、モビリティと音声ウェイクアップ機能を維持する必要がある場合、必然的に大量のバッテリー電力を消耗し、これは、モバイル端末の待機時間を大幅に短縮し、モバイル端末のパフォーマンスに影響を与える。

本発明の実施例は、音声認識方法、装置及び記憶媒体を提供し、システムの消費電力を削減することによって、モビリティと音声ウェイクアップ機能を維持しながら、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善することができる。

第１の態様によれば、本発明の実施例は音声認識方法を提供し、
オーディオデータを取得することと、
デジタル信号プロセッサー(ＤＳＰ、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ)によって前記オーディオデータに対してファジー音声認識を実行することと、
ファジー音声認識結果がウェイクアップワードの存在を示す場合、ＤＳＰによって、スリープ状態にあるＣＰＵをウェイクアップし、前記ＣＰＵが前記オーディオデータに対して意味解析を実行することと、
を含む。

いくつの実施例では、前記デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行することは、
デジタル信号プロセッサーによって、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を取得すること、を含む。

いくつの実施例では、前記デジタル信号プロセッサーによって、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得ることは、
ファジークラスタリングに基づきファジークラスタリングニューラルネットワークを確立することと、
前記ファジークラスタリングニューラルネットワークを確率密度関数の推定器とし、ウェイクアップワードが前記オーディオデータに含まれる確率を予測することと、
予測結果が確率が設定値以上であることを示す場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成することと、
予測結果が確率が前記設定値よりも小さいことを示す場合、ウェイクアップワードの不存在を示すファジー音声認識結果を生成することと、
を含む。

いくつの実施例では、前記デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行することは、
デジタル信号プロセッサーによって、ファジーマッチングアルゴリズムを使用して前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得ること、を含む。

いくつの実施例では、前記デジタル信号プロセッサーによって、ファジーマッチングアルゴリズムを使用して前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得ることは、
ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを得ることと、
前記オーディオデータ内の各ワードの読み方の特徴マップを解析して、マッチング候補特徴マップを得ることと、
所定のメンバーシップ関数に従って、各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算することと、
前記度合いのグレードがプリセット値以上である場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成することと、
前記度合いのグレードが前記プリセット値よりも小さい場合、ウェイクアップワードの不存在を示すファジー音声認識結果を制御することと、
を含む。

いくつの実施例では、前記デジタル信号プロセッサーによってスリープ状態にある中央処理装置をウェイクアップした後、
前記中央処理装置によって前記オーディオデータに対して意味解析を実行し、解析結果に従って前記解析結果に対応する操作を実行することをさらに含む。

いくつの実施例では、前記中央処理装置によって前記オーディオデータに対して意味解析を実行する前に、
前記デジタル信号プロセッサーから前記オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを得ることと、
前記中央処理装置によって前記ウェイクアップデータに対して音声認識を実行することと、
音声認識結果がウェイクアップワードの存在を示す場合、前記中央処理装置によって前記オーディオデータに対して意味解析を実行するステップを実行することと、
音声認識結果がウェイクアップワードの不存在を示す場合、前記中央処理装置をスリープに設定し、オーディオデータを取得するステップに戻ることと、さらに含む。

いくつの実施例では、前記中央処理装置によって前記ウェイクアップデータに対して音声認識を実行することは、
前記中央処理装置の動作状態をシングルコアでかつ低周波数である第１状態に設定することと、
前記第１状態で、前記ウェイクアップデータに対して音声認識を実行することと、
を含む。

いくつの実施例では、前記中央処理装置によって前記オーディオデータに対して意味解析を実行することは、
前記中央処理装置の動作状態をマルチコアでかつ高周波数である第２状態に設定することと、
前記第２状態で、前記オーディオデータに対して意味解析を実行することと、を含む。

いくつの実施例では、前記中央処理装置によって前記オーディオデータに対して意味解析を実行することは、
前記オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定することと、
セマンティックシーンに従って前記中央処理装置の動作コア数とクロック周波数を決定することと、
前記動作コア数とクロック周波数に従って前記中央処理装置の動作状態を設定して、第３の状態を得ることと、
前記第３の状態で、前記オーディオデータに対して意味解析を実行することと、を含む。

いくつの実施例では、前記デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行する前に、
前記オーディオデータに対してノイズリダクション及び／又はエコーキャンセル処理を実行することをさらに含む。

いくつの実施例では、前記解析結果に従って対応する操作を実行することは、
前記解析結果に従って操作対象と操作内容を決定することと、
前記操作対象に対して前記操作内容を実行することと、を含む。

第２の態様によれば、本発明の実施例は音声認識装置を提供し、
オーディオデータを取得するための取得ユニットと、
ＤＳＰによって前記オーディオデータに対してファジー音声認識を実行するためのファジー認識ユニットと、
ファジー音声認識結果がウェイクアップワードが存在することを示す場合、前記オーディオデータに対して意味解析を実行するためのスリープ状態にある中央処理装置をウェイクアップするためのウェイクアップユニットと、
を含む。

いくつの実施例では、前記ファジー認識ユニットは、具体的に、ＤＳＰによって、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。

例えば、前記ファジー認識ユニットは、具体的に、ファジークラスタリングでファジークラスタリングニューラルネットワークを確立し、前記ファジークラスタリングニューラルネットワークを確率密度関数の推定器とし、前記オーディオデータにウェイクアップワードが含まれる確率を予測し、予測結果が確率が設定値以上であることを示す場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成し、予測結果が確率が設定値よりも小さいことを示す場合、ウェイクアップワードの不存在を示すファジー音声認識結果を生成することができる。

いくつの実施例では、前記ファジー認識ユニットは、具体的に、ＤＳＰによって、ファジーマッチングアルゴリズムを使用して前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。

例えば、前記ファジー認識ユニットは、具体的に、ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを取得し、当該オーディオデータにおける各ワードの読み方の特徴マップを解析して、マッチング候補特徴マップを取得し、予め設定されたメンバーシップ関数に従って各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算し、当該度合いのグレードがプリセット値以上である場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成し、さもなければ、当該度合いのグレードがプリセット値よりも小さい場合、ウェイクアップワードの不存在を示すファジー音声認識結果を生成することができる。

いくつの実施例では、前記音声認識装置は、ＣＰＵによって前記オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行するための処理ユニットを含んでもよい。

いくつの実施例では、前記音声認識装置は次のような精確認識ユニットを含んでもよく、
前記精確認識ユニットは、ＤＳＰから前記オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを取得し、前記ＣＰＵによって前記ウェイクアップデータに対して音声認識を実行し、音声認識結果がウェイクアップワードの存在を示す場合、ＣＰＵによって、前記オーディオデータに対して意味解析を実行する操作を実行するように処理ユニットをトリガーし、音声認識結果がウェイクアップワードの不存在を示す場合、ＣＰＵをスリープに設定し、オーディオデータを取得する操作を実行するよう取得ユニットをトリガーすることができる。

その中、前記精確認識ユニットは、具体的に、前記ＣＰＵの動作状態をシングルコアで低周波数であるかつ第１状態に設定し、前記第１状態で、前記ウェイクアップデータに対して音声認識を実行することができる。

いくつの実施例では、前記処理ユニットは、具体的に、前記ＣＰＵ的動作状態をマルチコアでかつ高周波数である第２状態に設定し、前記第２状態で、前記オーディオデータに対して意味解析を実行することができる。

いくつの実施例では、前記処理ユニットは、具体的に、前記オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定し、セマンティックシーンに従ってＣＰＵの動作コア数とクロック周波数を決定し、前記動作コア数とクロック周波数に従ってＣＰＵ的動作状態を設定して、第３の状態を取得し、前記第３の状態で、前記オーディオデータに対して意味解析を実行することができる。

いくつの実施例では、前記音声認識装置は次のようなフィルタリングユニットを含んでもよく、
前記フィルタリングユニットは、前記オーディオデータに対してノイズリダクション及び／又はエコーキャンセル処理を実行する。

第３の態様によれば、本発明の実施例は、モバイル端末をさらに提供し、前記モバイル端末は記憶媒体とプロセッサーを含み、前記記憶媒体には複数の指令が記憶され、前記プロセッサーは、本発明の実施例によって提供されるいずれかの音声認識方法におけるステップを実行するように前記指令をロード及び実行する。

第４の態様によれば、本発明の実施例は、複数の指令が記憶される記憶媒体をさらに提供し、前記指令は、本発明の実施例によって提供されるいずれかの音声認識方法におけるステップを実行するようにプロセッサーによってロードされる。

本発明の実施例では、オーディオデータを取得した後、ＤＳＰによって当該オーディオデータに対してファジー音声認識を行うことができ、ウェイクアップワードが存在すると確定される場合にのみ、スリープ状態にあるＣＰＵを、当該ＤＳＰによってウェイクアップし、当該ＣＰＵは、当該オーディオデータに対して意味解析を実行することができる。この解決策は、動作消費電力の高いＣＰＵの代わりに、動作消費電力の低いＤＳＰを使用して、オーディオデータを監視するため、ＣＰＵは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされる。従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。

本発明の実施例における技術的解決策をより明確に説明するために、以下、実施例の説明で使用される図面について簡単に説明する。明らかに、以下の説明における図面は本発明のいくつかの実施例にすぎない。当業者にとって、創造的な労力なしにこれらの図面から他の図面を得ることができる。

本発明の実施例によって提供されるモバイル端末のアーキテクチャ図である。本発明の実施例によって提供される音声認識方法のシーン概略図である。本発明の実施例によって提供される音声認識方法のフローチャートである。本発明の実施例によって提供される音声認識方法のブロック図である。本発明の実施例によって提供される音声認識方法の別のフローチャートである。本発明の実施例によって提供される音声認識方法の別のブロック図である。本発明の実施例によって提供される音声認識装置の構成概略図である。本発明の実施例によって提供される音声認識装置の別の構成概略図である。本発明の実施例によって提供される音声認識装置の別の構成概略図である。本発明の実施例によって提供されるモバイル端末の構成概略図である。

以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術的解決策を明確かつ完全に説明する。説明される実施例は本発明の一部の実施例にすぎず、全ての実施例ではないことは明らかである。創造的な努力なしに本発明における実施例に基づいて当業者によって得られた他の全ての実施例は、本発明の保護範囲内に属する。

本発明の実施例は、音声認識方法、装置及び記憶媒体を提供する。

当該音声認識装置は具体的に、携帯電話、ウェアラブルインテリジェント装置、タブレットコンピュータ、及び／又はノートブックコンピューターなどのモバイル端末に集積できる。

例えば、当該音声認識装置がモバイル端末に集積されることを例にとると、図１ａを参照して、モバイル端末にＤＳＰを設定することができ、例えば、当該ＤＳＰをコーデック(Ｃｏｄｅｃ、Ｃｏｄｅｒ-ｄｅｃｏｄｅｒ)(例えばＤＳＰ機能を持っているコーデック)に設定することができ、このようにして、モバイル端末がオーディオデータを取得し、例えば、マイク(ＭＩＣ、Ｍｉｃｒｏｐｈｏｎｅ)を介してユーザーの音声を受信すると、当該ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行することができ、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、ＤＳＰによってスリープ状態にあるＣＰＵをウェイクアップし、当該ＣＰＵは当該オーディオデータに対して意味解析を実行することができ、例えば、図１ｂに示すようである。さもなければ、ファジー音声認識結果がウェイクアップワードが存在しないことを示している場合、ＣＰＵをウェイクアップせず、ＤＳＰによってオーディオデータの監視を続ける。

なお、ＤＳＰは、デジタル信号処理演算に特に適合しているマイクロプロセッサーであり、様々なデジタル信号処理アルゴリズムをリアルタイムで迅速に実現することができる。また、オーバーヘッドの少ない又はゼロのループアンドジャンプハードウェアのサポートの特性により、他のプロセッサーと比較して、その消費電力が低く、さらに、ＤＳＰはノイズリダクションの機能も有する。

以下それぞれ詳細に説明する。なお、以下の実施例のシリアル番号は、実施例の好ましい順序を限定することを意図するものではない。

実施例一、

本実施例では、音声認識装置の観点から説明し、当該音声認識装置は具体的にモバイル端末などの装置に集積でき、当該モバイル端末は携帯電話、ウェアラブルインテリジェント装置、タブレットコンピュータ、及び／又はノートブックコンピューターを含むことができる。

本実施例は、音声認識方法を提供し、オーディオデータを取得することと、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行することと、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、ＤＳＰによってスリープ状態にあるＣＰＵをウェイクアップし、当該ＣＰＵが当該オーディオデータに対して意味解析を実行することとを含む。

図１ｃに示すように、当該音声認識方法の具体的な手順は以下のようになる。

１０１、オーディオデータを取得する。

例えば、具体的に、モバイル端末に内蔵されるＭＩＣモジュールのようなＭＩＣによって当該オーディオデータを採集することができる。

その中、当該オーディオデータは、様々な形態の音声から変換されたデータを含むことができ、当該音声の種類は限定されず、例えば、話す声、動物の音、物体をたたく音、及び／又は音楽などであってもよい。

１０２、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する。

その中、ファジー音声認識方法は複数あり、例えば、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行してもよく、或いは、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行してもよい。即ち、「ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する」ステップは具体的に次のようになる。

(１)ＤＳＰによって、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。

例えば、具体的に、ファジークラスタリング解析に従ってファジークラスタリングニューラルネットワークを確立し、当該ファジークラスタリングニューラルネットワークを確率密度関数の推定器として使用し、当該オーディオデータにウェイクアップワードが含まれる確率を予測し、予測結果が確率が設定値以上であることを示している場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、さもなければ、予測結果が確率が設定値よりも小さいことを示している場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成する。

その中、ファジークラスタリング解析は一般に、研究オブジェクト自体の属性に基づいてファジーマトリックスを構築し、これに基づいて、一定のメンバーシップに従ってクラスタリング関係を確定し、即ち、ファジー数学の方法を使用してサンプル間のファジー関係を定量的に確定することによって、クラスタリングを客観的且つ正確に実行できる。クラスタリングとは、データセットを複数のクラス又はクラスターに分割することによって、各クラス間のデータの差をできるだけ大きくし、クラス内のデータの差をできるだけ小さくすることである。

その中、当該設定値は、実際の応用のニーズに応じて設定することができ、ここで詳しく説明しない。

(２)ＤＳＰによって、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。

例えば、具体的に、ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを取得し、当該オーディオデータにおける各ワードの読み方の特徴マップを解析して、マッチング候補特徴マップを取得し、その後、予め設定されたメンバーシップ関数に従って各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算し、当該度合いのグレードがプリセット値以上である場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、さもなければ、当該度合いのグレードがプリセット値よりも小さい場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成することができる。

その中、当該メンバーシップ関数とプリセット値は、実際の応用のニーズに応じて設定することができ、ここで詳しく説明しない。

任意選択で、音声認識の精度を向上させるために、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、図１ｄに示すように、「ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する」ステップの前に、当該音声認識方法は、
当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセル処理を実行して、処理されたオーディオデータを取得することを含んでもよい。

この場合、「ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する」ステップは具体的に、処理されたオーディオデータに対してＤＳＰによってファジー音声認識を実行することであってもよい。

１０３、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、ＤＳＰによってスリープ状態にあるＣＰＵをウェイクアップし、即ち、ＤＳＰによってＣＰＵの実行プログラムを起動し、例えば、具体的に、ＣＰＵにおける録音とオーディオデータに関連する実行プログラムを起動することができる。

その中、ウェイクアップワードは、１つであってもよいし、複数であってもよく、当該ウェイクアップワードは具体的に、実際の応用のニーズに応じて予め設定することができる。例えば、当該ウェイクアップワードに「電話する」と「情報を送る」が含まれることを例として、ファジー音声認識結果が当該オーディオデータに「電話する」又は「情報を送る」というワードが存在することを示している場合、ＤＳＰによってＣＰＵをウェイクアップし、これによって類推する。

「ＤＳＰによってスリープ状態にあるＣＰＵをウェイクアップする」ステップの後に、当該音声認識方法は、
ＣＰＵによって当該オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行することをさらに含んでもよい。

例えば、具体的に、解析結果に従って操作対象と操作内容を決定し、その後、当該操作対象に対して当該操作内容を実行することができる。

ＤＳＰのリソースが限られ、音声認識の精度が高くないため、さらに認識の精度を向上し、誤ったウェイクアップの状況の発生を回避するために、任意選択で、ＣＰＵによって当該オーディオデータに対して意味解析を実行する前、ＣＰＵによって当該オーディオデータをさらに認識してもよく、即ち、「ＣＰＵによって当該オーディオデータに対して意味解析を実行する」ステップの前に、当該音声認識方法は、
ＤＳＰから当該オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを取得し、当該ＣＰＵによって当該ウェイクアップデータに対して音声認識を実行し、当該音声認識結果がウェイクアップワードが存在することを示している場合、ＣＰＵによって当該オーディオデータに対して意味解析を実行するステップを実行し、さもなければ、音声認識結果がウェイクアップワードが存在しないことを示している場合、ＣＰＵをスリープに設定し、オーディオデータを取得するステップ(即ち、ステップ１０１)に戻ることをさらに含んでもよい。

任意選択で、消費電力を節約するために、ＣＰＵがウェイクアップされる場合、全てのコアを起動せず、シングルコアと低周波数を使用して演算処理を実行することができ、即ち、「当該ＣＰＵによって当該ウェイクアップデータに対して音声認識を実行する」ステップは、
当該ＣＰＵの動作状態をシングルコアで低周波数に設定して、ＣＰＵが当該動作状態で当該ウェイクアップデータに対して音声認識を実行することを含んでもよい。

その中、説明の便宜上、本発明の実施例では、このような「シングルコアで低周波数」である動作状態は第１状態と呼ばれ、即ち、ＣＰＵは当該第１状態で、当該ウェイクアップデータに対して音声認識を実行することができる。

任意選択で、処理効率を向上させるために、ＣＰＵによってウェイクアップワードが存在すると確定される場合、コアの数を増やし、クロック周波数を高めることによって、当該オーディオデータに対して意味解析を実行することができ、即ち、「ＣＰＵによって当該オーディオデータに対して意味解析を実行する」ステップは、
当該ＣＰＵの動作状態をマルチコアで高周波数に設定し、当該動作状態で、ＣＰＵによって当該オーディオデータに対して意味解析を実行することを含んでもよい。

その中、説明の便宜上、本発明の実施例では、当該「マルチコアで高周波数」である動作状態は第２状態と呼ばれ、即ち、当該ＣＰＵの動作状態を第２状態に設定し、当該第２状態で、当該オーディオデータに対して意味解析を実行することができる。

なお、本発明の実施例では、マルチコアとは、プロセッサーに集積された２つ以上の完全なコンピューティングエンジン(カーネル)を意味し、低周波数とは、クロック周波数がプリセット周波数よりも低いことを意味し、高周波数とは、クロック周波数がプリセット周波数以上であることを意味し、その中、当該プリセット周波数が実際の応用のニーズに応じて設定することができ、ここで詳しく説明しない。

任意選択で、消費電力の消耗と処理効率とのバランスをよりよく取得するように処理の柔軟性を向上させるために、具体的な音声シーンに応じてＣＰＵの動作コア数とクロック周波数の大きさを調整してもよく、即ち、「ＣＰＵによって当該オーディオデータに対して意味解析を実行する」ステップは、
当該オーディオデータ対応するウェイクアップワードに従ってセマンティックシーンを決定し、セマンティックシーンに従ってＣＰＵの動作コア数とクロック周波数の大きさを決定し、当該動作コア数とクロック周波数の大きさに従ってＣＰＵの動作状態を設定して、第３の状態を取得し、当該第３の状態で、当該オーディオデータに対して意味解析を実行することを含むことができる。

例えば、「電話する」セマンティックシーンでは、少ない動作コア数とクロック周波数の大きさを使用して、当該オーディオデータに対して意味解析を実行し、「検索」のセマンティックシーンでは、多い動作コア数とクロック周波数の大きさを使用して、当該オーディオデータに対して意味解析を実行することができる。

以上のように、本実施例は、オーディオデータを取得した後、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行することができ、ウェイクアップワードが存在すると確定される場合にのみ、スリープ状態にあるＣＰＵを、当該ＤＳＰによってウェイクアップし、当該ＣＰＵは、当該オーディオデータに対して意味解析を実行することができる。この解決策は、動作消費電力の高いＣＰＵの代わりに、動作消費電力の低いＤＳＰを使用して、オーディオデータを監視するため、ＣＰＵは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされる。従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。

実施例二、

実施例一で説明した方法に従って、以下、例を示してさらに詳細に説明する。

本実施例では、当該音声認識装置が具体的にモバイル端末に集積されることを例として説明する。

図２ａに示すように、音声認識方法は、具体的な手順は次のようになる。

２０１、モバイル端末は、ＭＩＣによって当該オーディオデータを採集する。

その中、当該ＭＩＣは当該モバイル端末から独立してもよいし、当該モバイル端末に内蔵されてもよい。当該オーディオデータには、様々な形式の音声から変換されたデータが含まれ、当該音声の種類は限定されず、例えば、話す音声、動作の音、物体をたたく音、及び／又は音楽などである。

２０２、モバイル端末はＤＳＰによって当該オーディオデータに対してファジー音声認識を実行し、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、ステップ２０３を実行し、さもなければ、ファジー音声認識結果がウェイクアップワードが存在しないことを示している場合、ステップ２０１に戻る。

その中、ウェイクアップワードは１つであってもよいし、複数であってもよく、当該ウェイクアップワードは具体的に、実際の応用のニーズに応じて予め設定することができ、例えば、「電話する」、「情報を送る」、「*は誰」、「誰は*」、「*は何」、及び／又は「何は*」などであってもよく、その中、「*」は、任意の名詞例えば、「張三が誰」、「誰が李四」、又は「Ｊａｖａは何」などであってもよく、これによって類推する。

その中、当該ＤＳＰは、例えば、図１ａに示すように、当該モバイル端末のコーデック(即ち、Ｃｏｄｅｃ)に設定することができる。当該コーデックは、オーディオデータに対して圧縮及び圧縮解除(即ち、エンコード及びデコード)することができ、ＭＩＣがオーディオデータを採集した後、当該オーディオデータをコーデックに送信して、圧縮及び／又は圧縮解除などの処理を実行し、その後、ＤＳＰに送信してファジー音声認識を実行する。その中、ファジー音声認識方法は複数あり、例えば、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行してもよく、或いは、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行してもよく、例えば、具体的に次のようになる。

(１)モバイル端末はＤＳＰによって、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を取得する。

例えば、ＤＳＰは具体的に、ファジークラスタリング解析に従ってファジークラスタリングニューラルネットワークを確立し、その後、当該ファジークラスタリングニューラルネットワークを確率密度関数の推定器として使用し、当該オーディオデータにウェイクアップワードが含まれる確率を予測し、予測結果が確率が設定値以上であることを示している場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、さもなければ、予測結果が確率が設定値よりも小さいことを示している場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成することができる。

その中、当該設定値は実際の適用のニーズに応じて設定することができ、ここで詳しく説明しない。

(２)モバイル端末はＤＳＰによって、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。

例えば、ＤＳＰは具体的に、ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを取得し、当該オーディオデータにおける各ワードの読み方の特徴マップを解析して、マッチング候補特徴マップを取得し、その後、予め設定されたメンバーシップ関数に従って、各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算し、当該度合いのグレードがプリセット値以上である場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、さもなければ、当該度合いのグレードがプリセット値よりも小さい場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成することができる。

その中、当該メンバーシップ関数とプリセット値は実際の応用のニーズに応じて設定することができ、また、マッチング候補特徴マップが標準の特徴マップに属する程度は、メンバーシップの度合によって表すことができ、メンバーシップの度合が１に近いほど、当該マッチング候補特徴マップが標準の特徴マップに属する程度が高くなることを表し、メンバーシップの度合が０に近いほど、当該マッチング候補特徴マップが標準の特徴マップに属する程度が低くなることを表し、ここで詳しく説明しない。

任意選択で、音声認識の精度を向上させるために、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、図２ｂに示すように、「モバイル端末がＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する」ステップの前に、当該音声認識方法は、
モバイル端末が当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセル処理を実行して、処理されたオーディオデータを取得することを含んでもよい。

この場合、「モバイル端末がＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する」ステップは具体的に、モバイル端末が処理されたオーディオデータに対してＤＳＰによってファジー音声認識を実行することであってもよい。

２０３、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、ＤＳＰによってスリープ状態にあるＣＰＵをウェイクアップする。

例えば、具体的に、ＤＳＰによって、ＣＰＵの実行プログラムを起動し、例えば、具体的に、ＣＰＵにおける録音とオーディオデータに関連する実行プログラムなどを起動することができる。

例えば、「電話する」と「情報を送る」を含む当該ウェイクアップワードを例にとると、ファジー音声認識結果が当該オーディオデータに「電話する」又は「情報を送る」というワードが存在することを示している場合、ＤＳＰによってＣＰＵをウェイクアップすることができ、これによって類推する。

２０４、モバイル端末は、ＤＳＰによって当該オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを取得する。

例えば、「電話する」というウェイクアップワードを例にとると、ＤＳＰがあるセグメントのオーディオデータに対して音声認識を実行する場合、Ａセグメントのデータに「電話する」ウェイクアップワードがあると確定すると、モバイル端末は、Ａセグメントのデータを読み取って、Ａセグメントのデータをウェイクアップデータとして使用することができる。

また、例えば、「情報を送る」ウェイクアップワードを例にとると、ＤＳＰがあるセグメントのオーディオデータに対して音声認識を実行する場合、Ｂセグメントのデータに「情報を送る」ウェイクアップワードが存在すると確定すると、モバイル端末はＢセグメントのデータを読み取って、当該Ｂセグメントのデータをウェイクアップデータとして使用することができ、これによって類推する。

２０５、モバイル端末は、当該ＣＰＵによって、当該ウェイクアップデータに対して音声認識を行い、音声認識結果がウェイクアップワードが存在することを示している場合、ステップ２０６を実行し、さもなければ、音声認識結果がウェイクアップワードが存在しないことを示している場合、ＣＰＵをスリープに設定し、オーディオデータを取得するステップ(即ちステップ２０１）に戻る。

例えば、具体的に、図２ｂを参照して、オーディオデータに対して音声認識を実行する操作を実行するようにＤＳＰに通知することができる。

任意選択で、消費電力を節約するために、ＣＰＵはウェイクアップされる場合、全てのコアを起動せず、シングルコアと低周波数を使用して運算処理を実行することができ、即ち、「当該ＣＰＵによって当該ウェイクアップデータに対して音声認識を実行する」ステップは、
当該ＣＰＵの動作状態を第１状態に設定し、即ち、シングルコアで低周波数に設定し、ＣＰＵが当該第１状態で当該ウェイクアップデータに対して音声認識を実行することを含むことができる。

ステップ２０４と２０５は選択可能なステップである。

２０６、モバイル端末は、ＣＰＵによって、当該オーディオデータに対して意味解析を実行する。

例えば、具体的に、当該ＣＰＵの動作状態を第２状態に設定し、即ち、マルチコアで高周波数に設定し、当該第２状態で、ＣＰＵによって当該オーディオデータに対して意味解析を実行することができる。

任意選択で、消費電力の消耗と処理効率とのバランスをよりよく取得するように処理の柔軟性を向上させるために、具体的な音声シーンに応じてＣＰＵの動作コア数とクロック周波数の大きさを調整してもよく、例えば、モバイル端末は、当該オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定し、その後、セマンティックシーンに従ってＣＰＵの動作コア数とクロック周波数の大きさを決定し、当該動作コア数とクロック周波数の大きさに従ってＣＰＵの動作状態を設定し(即ち第３の状態)、当該動作状態で、当該オーディオデータに対して意味解析を実行することができる。

例えば、「電話する」に対応するセマンティックシーンでは、ＣＰＵの動作コア数がシングルコアであり、クロック周波数の大きさがＸｍｈｚである必要があり、「情報を送る」に対応するセマンティックシーンでは、ＣＰＵの動作コア数がシングルコアであり、クロック周波数の大きさがＹｍｈｚである必要があり、「検索」に対応するセマンティックシーンでは、ＣＰＵの動作コア数がデュアルコアであり、クロック周波数の大きさがＺｍｈｚである必要があり、具体的に次のようになる。

ウェイクアップワードが「電話する」の場合、ＣＰＵの動作コア数をシングルコアに設定し、クロック周波数の大きさをＸｍｈｚに設定し、その後、当該動作状態で、ＣＰＵによって当該オーディオデータに対して意味解析を実行することができる。

ウェイクアップワードが「情報を送る」の場合、ＣＰＵの動作コア数をシングルコアに設定し、クロック周波数の大きさをＹｍｈｚに設定し、その後、当該動作状態で、ＣＰＵによって当該オーディオデータに対して意味解析を実行することができる。

ウェイクアップワードが「検索」の場合、ＣＰＵの動作コア数をデュアルコアに設定し、クロック周波数の大きさをＺｍｈｚに設定し、その後、当該動作状態で、ＣＰＵによって当該オーディオデータに対して意味解析を実行することができる。

これによって類推する。

なお、ＣＰＵはウェイクアップされた後、図２ｂに示すように、モバイル端末はＭＩＣによって他のオーディオデータを続けて採集し、ウェイクアップされたＣＰＵによって意味解析を実行し、解析結果に従って対応する操作を実行してもよく、その中、意味解析方法と「解析結果に従って対応する操作を実行する」方法は具体的にステップ２０６と２０７を参照することができ、ここで詳しく説明しない。

２０７、モバイル端末は解析結果に従って対応する操作を実行する。

例えば、解析結果に従って操作対象と操作内容を決定し、その後、ＣＰＵによって当該操作対象に対して当該操作内容を実行するなどする。

例えば、「張三に電話する」を例にとると、モバイル端末は、操作対象が「アドレス帳における張三の電話番号」であり、操作内容が「電話番号にダイヤルする」であると確定することができるため、この場合、ＣＰＵによってアドレス帳における張三の電話番号にダイヤルすることができ、「張三に電話する」タスクを完了する。

また、例えば、「詩を検索する」を例にとると、モバイル端末は、操作対象が「検索エンジンアプリケーション」であり、操作内容が「検索エンジンアプリケーションによってキーワード「詩」を検索する」であると確定することができるため、この場合、当該モバイル端末における検索エンジンアプリケーションを起動し、検索エンジンアプリケーションによってキーワード「詩」を検索することができ、「詩を検索する」タスクを完了し、これによって類推する。

以上のように、本実施例は、オーディオデータを取得した後、ＤＳＰによって、当該オーディオデータに対してファジー音声認識を実行することができ、ウェイクアップワードが存在すると確定される場合にのみスリープ状態にあるＣＰＵを当該ＤＳＰによってウェイクアップし、ＣＰＵによって、シングルコアで低周波数である動作状態を使用して、ウェイクアップワードが存在するかどうかを再度確認し、ウェイクアップワードが存在しないとＣＰＵによって確定される場合、ＣＰＵはスリープ状態に切り替えられ、ＤＳＰによって続けて監視し、ウェイクアップワードが存在するとＣＰＵによって確定される場合にのみ、ＣＰＵによって、当該オーディオデータに対して意味解析を実行し、その後、解析結果に従って対応する操作を実行する。この解決策は、動作消費電力の高いＣＰＵの代わりに、動作消費電力の低いＤＳＰを使用して、オーディオデータを監視するため、ＣＰＵは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされ、従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。

また、当該解決策は、ＤＳＰによってウェイクアップワードを認識することができる他、ＣＰＵによってウェイクアップワードを再度認識してもよいため、認識の精度が高く、そして、ＣＰＵはウェイクアップワードを認識する際に、低消費電力の動作状態(例えばシングルコアと低周波数)を使用して、ウェイクアップワードが存在すると確定される場合にのみ、ＣＰＵは高消費電力の動作状態を使用して意味解析を実行するため、リソースの利用はより合理で有效であり、モバイル端末のパフォーマンスをさらに改善するのに有利である。

実施例三、

上記の方法をよりよく実施するために、本発明の実施例は音声認識装置をさらに提供し、当該音声認識装置は具体的に、例えば携帯電話、ウェアラブルインテリジェント装置、タブレットコンピュータ、及び／又はノートブックコンピューターなどのモバイル端末の装置に内蔵できる。

例えば、図３ａを参照し、当該音声認識装置は、取得ユニット３０１、ファジー認識ユニット３０２、ウェイクアップユニット３０３を含むことができ、次のようになる。

(１)取得ユニット３０１
取得ユニット３０１は、オーディオデータを取得する。

例えば、取得ユニット３０１は、具体的に、モバイル端末に内蔵されるＭＩＣモジュールのようなＭＩＣによって当該オーディオデータを採集する。

(２)ファジー認識ユニット３０２
ファジー認識ユニット３０２は、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する。

その中、ファジー音声認識方法は複数あり、例えば、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行してもよく、或いは、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行してもよい。

第１の方法：
ファジー認識ユニット３０２は、具体的に、ＤＳＰによって、ファジークラスタリング解析を使用して当該オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得る。

例えば、該ファジー認識ユニット３０２は、具体的に、ファジークラスタリング解析に従ってファジークラスタリングニューラルネットワークを確立し、当該ファジークラスタリングニューラルネットワークを確率密度関数の推定器として使用し、当該オーディオデータにウェイクアップワードが含まれる確率を予測し、予測結果が確率が設定値以上であることを示している場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、予測結果が確率が設定値よりも小さいことを示している場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成する。

その中、当該設定値は実際の応用のニーズに従って設定することができ、ここで詳しく説明しない。

第２の方法：

ファジー認識ユニット３０２は、具体的に、ＤＳＰによって、ファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識を実行し、ファジー音声認識結果を得る。

例えば、当該ファジー認識ユニット３０２は、具体的に、ウェイクアップワードの読み方の特徴マップを取得し、標準の特徴マップを取得し、当該オーディオデータのうち各ワードの読み方の特徴マップを解析し、マッチング候補特徴マップを取得し、予め設定されたメンバーシップ関数に従って各マッチング候補特徴マップが標準特徴マップに属する度合いのグレードを計算し、当該度合いのグレードがプリセット値以上である場合、ウェイクアップワードが存在することを示しているファジー音声認識結果を生成し、当該度合いのグレードがプリセット値よりも小さい場合、ウェイクアップワードが存在しないことを示しているファジー音声認識結果を生成する。

その中、当該メンバーシップ関数とプリセット値は実際の応用のニーズに応じて設定することができ、ここで詳しく説明しない。

いくつかの実現形態では、図３ｂに示すように、前記音声認識装置は処理ユニット３０４を含んでもよい。

前記処理ユニット３０４は、ＣＰＵによって当該オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行する。

例えば、処理ユニット３０４は、具体的に、ＣＰＵによって当該オーディオデータに対して意味解析を実行し、解析結果に従って操作対象と操作内容を決定し、その後、当該操作対象に対して当該操作内容を実行するなど。

任意選択で、音声認識の精度を向上させるために、ファジー認識ユニット３０２は当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、図３ｃに示すように、当該音声認識装置は次のようなフィルタリングユニット３０５を含んでもよい。

フィルタリングユニット３０５は、当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセル処理を実行する。

この場合、ファジー認識ユニット３０２は、具体的に、フィルタリングユニット３０５によって処理されたオーディオデータに対してファジー音声認識を実行する。

(３)ウェイクアップユニット３０３
ウェイクアップユニット３０３は、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、スリープ状態にあるＣＰＵをウェイクアップする。

その中、ウェイクアップワードは１つであってもよいし、複数であってもよく、当該ウェイクアップワードは具体的に、実際の応用のニーズに応じて予め設定することができ、ここで詳しく説明しない。任意選択で、認識の精度をさらに向上させ、誤ったウェイクアップの状況の発生を回避するために、処理ユニット３０４は、ＣＰＵによって当該オーディオデータに対して意味解析を実行する前に、当該オーディオデータをさらに認識してもよく、即ち、図３ｃに示すように、当該音声認識装置は、次のような精確認識ユニット３０６を含んでもよい。

当該精確認識ユニット３０６は、ＤＳＰから当該オーディオデータのうちウェイクアップワードを含むデータを読み取って、ウェイクアップデータを取得し、当該ＣＰＵによって当該ウェイクアップデータに対して音声認識を実行し、音声認識結果がウェイクアップワードが存在していることを示す場合、ＣＰＵによって当該オーディオデータに対して意味解析を実行する操作を実行するように処理ユニット３０４をトリガーし、音声認識結果がウェイクアップワードが存在しないことを示している場合、ＣＰＵをスリープに設定し、オーディオデータを取得する操作を実行するように取得ユニットをトリガーする。

任意選択で、消費電力を節約するために、ＣＰＵはウェイクアップされる場合、全てのコアを起動せず、シングルコアと低周波数を使用して演算処理を行うことができる。

当該精確認識ユニット３０６は、具体的に、当該ＣＰＵの動作状態を第１状態に設定し、当該第１状態で、当該ウェイクアップデータに対して音声認識を実行することができ、その中、当該第１状態はシングルコアで低周波数である。

任意選択で、処理効率を向上させるために、ＣＰＵによってウェイクアップワードが存在すると確定される場合、コアの数を増やし、クロック周波数を高めることによって、当該オーディオデータに対して意味解析を実行することができる。

当該処理ユニット３０４は、具体的に、当該ＣＰＵの動作状態を第２状態に設定し、当該第２状態で、当該オーディオデータに対して意味解析を実行することができ、その中、当該第２状態はマルチコアで高周波数である。

任意選択で、消費電力の消耗と処理効率とのバランスをよりよく取得するように処理の柔軟性を向上させるために、具体的な音声シーンに応じてＣＰＵの動作コア数とクロック周波数の大きさを調整してもよい。

当該処理ユニット３０４は、具体的に、当該オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定し、セマンティックシーンに従って、ＣＰＵの動作コア数とクロック周波数の大きさを決定し、当該動作コア数とクロック周波数の大きさに従ってＣＰＵの動作状態を設定して、第３の状態を取得し、当該第３の状態で、当該オーディオデータに対して意味解析を実行することができる。

具体的な実施の際に、以上の各ユニットは別個のエンティティとして実現してもよく、任意に組み合わせて、同じ又は複数のエンティティとして実現してもよく、以上の各ユニットの具体的な実施は前記の方法を参照して実施することができ、ここで詳しく説明しない。

上記のように、本実施例に係る音声認識装置は、取得ユニット３０１によってオーディオデータが取得された後、ファジー認識ユニット３０２によって当該オーディオデータに対してファジー音声認識を実行することができ、ウェイクアップワードが存在すると確定される場合にのみ、スリープ状態にあるＣＰＵをウェイクアップユニット３０３によってウェイクアップし、当該ＣＰＵは、当該オーディオデータに対して意味解析を実行することができる。この解決策は動作消費電力の高いＣＰＵの代わりに、動作消費電力の低いＤＳＰを使用して、オーディオデータを監視するため、ＣＰＵは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされ、従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。

実施例四、

それに対応して、本発明の実施例は、モバイル端末をさらに提供し、図４に示すように、当該モバイル端末は無線周波数(ＲＦ、ＲａｄｉｏＦｒｅｑｕｅｎｃｙ)回路４０１、１つまたは複数のコンピュータ可読記憶媒体が含まれるメモリ４０２、入力ユニット４０３、表示ユニット４０４、センサー４０５、オーディオ回路４０６、ワイヤレスフィデリティ(ＷｉＦｉ、ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ)モジュール４０７、１つまたは複数の処理コアが含まれるプロセッサー４０８、及び電源４０９などの部材を含むことができる。当業者は、図４に示されるモバイル端末の構造がモバイル端末に対する制限を構成せず、図示よりも多い又は少ない部材を含んでもよく、又はいくつかの部材を組み合わせてもよく、又は異なる部材を配置してもよいことを理解することができる。

ＲＦ回路４０１は、情報の送受信又は通話中に、信号の受信及び送信に使用でき、特に、基地局のダウンリンク情報を受信した後、１つまたは複数のプロセッサー４０８に渡して処理させ、また、アップリンクに関するデータを基地局に送信する。通常、ＲＦ回路４０１はアンテナ、少なくとも１つの増幅器、チューナー、１つ又は複数の発振器、加入者認識モジュール(ＳＩＭ、ＳｕｂｓｃｒｉｂｅｒＩｄｅｎｔｉｔｙＭｏｄｕｌｅ)カード、トランシーバー、カプラー、低雑音増幅器(ＬＮＡ、ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ)、デュプレクサなどを含むことができるがこれらに限定されない。また、ＲＦ回路４０１は、無線通信によってネットワーク及び他の装置と通信することができる。前記無線通信は、任意の通信規格又はプロトコルを使用することができ、グローバルモバイルシステムオブシステム(ＧＳＭ、ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ)、汎用パケット無線サービス(ＧＰＲＳ、ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ)、符号分割多元接続(ＣＤＭＡ、ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ)、広帯域符号分割多元接続(ＷＣＤＭＡ、ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ)、ロングタームエボリューション(ＬＴＥ、ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ)、電子メール、ショートメッセージサービス(ＳＭＳ、ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ)などを含むことができるがこれらに限定されない。

メモリ４０２は、ソフトウェアプログラム及びモジュールを記憶するために使用されてもよく、プロセッサー４０８は、メモリ４０２に記憶されるソフトウェアプログラム及びモジュールを実行することによって、様々な機能アプリケーション及びデータ処理を実行することができる。メモリ４０２は主にプログラム記憶領域とデータ記憶領域を含み、その中、プログラム記憶領域はオペレーティングシステム、少なくとも１つ機能に必要なアプリケーションプログラム(例えば、音声再生機能、画像再生機能など)などを含むことができ、データ記憶領域はモバイル端末の使用に応じて作成されたデータ(例えばオーディオデータ、電話帳など)などを記憶することができる。また、メモリ４０２は高速ランダムアクセスメモリを含んでもよいし、例えば少なくとも１つ磁気ディスク記憶装置などの不揮発性メモリ、フラッシュ記憶装置、他の揮発性固体記憶装置を含んでもよい。これに対応して、メモリ４０２は、プロセッサー４０８及び入力ユニット４０３のメモリ４０２へのアクセスを提供するために、メモリコントローラーをさらに含むことができる。

入力ユニット４０３は、入力された数値又は文字情報を受け取り、ユーザー設定及び機能制御に関するキーボード、マウス、ジョイスティック、光学或者トラックボール信号入力を生成するために使用できる。具体的に、一つの具体的な実施例では、入力ユニット４０３は、タッチ感知面及び他の入力装置を含むことができる。タッチ感知面は、タッチディスプレイ又はタッチパッドとも呼ばれ、ユーザーのその上又は付近でのユーザーのタッチ操作(例えば、タッチ感知面又はタッチ感知面の付近での指、スタイラスなどの任意の適切な物体又はアクセサリを使用するユーザーの操作)を収集し、予め設定されたプログラムに従って対応する接続装置を駆動することができる。任意選択で、タッチ感知面はタッチ検出装置とタッチコントローラーとの２つの部分を含むことができる。その中、タッチ検出装置はユーザーのタッチ位置を検出し、タッチ操作による信号を検出し、信号をタッチコントローラーに送信し、タッチコントローラーはタッチ検出装置からタッチ情報を受信して、接触点座標に変換して、プロセッサー４０８に送信し、また、プロセッサー４０８から送信された命令を受信して実行することができる。また、抵抗性、容量性、赤外線、弾性表面波などの様々なタイプを使用してタッチ感知面を実現することができる。タッチ感知面に加えて、入力ユニット４０３は他の入力装置を含んでもよい。具体的に、他の入力装置は、物理キーボード、ファンクションキー(例えば、ボリュームコントロールキー、スイッチキーなど)、トラックボール、マウス、ジョイスティックなどの１つまたは複数を含むことができるが、これらに限定されない。

表示ユニット４０４は、ユーザーによって入力された情報、又は、ユーザーに提供される情報及びモバイル端末の様々なグラフィカルユーザインターフェースを表示することができ、これらのグラフィカルユーザインターフェースは、グラフィック、テキスト、アイコン、ビデオ、及びそれらの任意の組み合わせによって構成できる。表示ユニット４０４は表示パネルを含むことができ、任意選択で、液晶ディスプレイ(ＬＣＤ、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ)、有機発光ダイオード(ＯＬＥＤ、ＯｒｇａｎｉｃＬｉｇｈｔ-ＥｍｉｔｔｉｎｇＤｉｏｄｅ)などの形式を使用して表示パネルを配置することができる。さらに、タッチ感知面は、表示パネルをカバーすることができ、タッチ感知面は、その上又は付近でのタッチ操作を検出した後、それをプロセッサー４０８に送信してタッチイベントのタイプを確定し、その後、プロセッサー４０８はタッチイベントのタイプに従って、表示パネルで対応する視覚的出力を提供する。図４では、タッチ感知面と表示パネルは入力と入力機能を実現するための２つの別個の部材として使用されるが、いくつかの実施例では、タッチ感知面と表示パネルを集積して入出力機能を実現することができる。

モバイル端末は、例えば光センサー、モーションセンサー及び他のセンサーなどの少なくとも１つのセンサー４０５をさらに含むことができる。具体的に、光センサーは、周囲光センサー及び近接センサーを含むことができ、その中、周囲光センサーは周囲光の明さに従って表示パネルの輝度を調整することができ、近接センサーは、モバイル端末が耳の辺りに移動した場合、表示パネル及び／又はバックライトを閉じる。モーションセンサーの１つである重力加速度センサーは、各方向における(通常は３軸)加速度の大きさを検出することができ、静止時に重力の大きさと方向を検出することができ、携帯電話の姿勢を認識するアプリケーション(例えば水平および垂直画面切り替え、関連ゲーム、磁力計の姿勢較正)、振動認識関連機能(例えば歩数計、タップ)などに使用でき、モバイル端末にさらに配置可能なジャイロスコープ、気圧計、湿度計、温度計、赤外線センサーなどの他のセンサーについて、ここで詳しく説明しない。

オーディオ回路４０６、スピーカー、マイクフォンはユーザーとモバイル端末との間のオーディオインタフェースを提供することができる。オーディオ回路４０６は、受信したオーディオデータから変換された電気信号を、スピーカーに伝送し、スピーカーによって音声信号に変換して出力し、一方、マイクフォンは、收集した音声信号を電気信号に変換し、オーディオ回路４０６によって受信された後にオーディオデータに変換し、さらにオーディオデータをプロセッサー４０８に出力して処理した後、ＲＦ回路４０１を介して例えば別のモバイル端末に送信するか、又は、オーディオデータをメモリ４０２に出力して、さらに処理する。オーディオ回路４０６は、周辺ヘッドフォンとモバイル端末との通信を提供するように、イヤホンジャックをさらに含むことができる。

ＷｉＦｉは、短距離無線伝送技術に属し、モバイル端末は、ＷｉＦｉモジュール４０７によって、ユーザーが電子メールを送受信したり、ウェブサイトを閲覧したり、ストリーミングメディアにアクセスしたりすることを可能にし、ユーザーにワイヤレスブロードバンドインターネットアクセスを提供する。図４にＷｉＦｉモジュール４０７を示したが、それはモバイル端末の必須な構成に属しておらず、本発明の本質を変更することなく必要に応じて省略できる。

プロセッサー４０８は、モバイル端末の制御センターであり、様々なインタフェースと回線を使用して携帯電話全体の各部分を接続し、メモリ４０２内に記憶されたソフトウェアプログラム及び／又はモジュールを実行し、メモリ４０２内に記憶されたデータを呼び出して、モバイル端末の様々な機能と処理データを実行することによって、携帯電話の全体監視を実行することができる。任意選択で、プロセッサー４０８は１つまたは複数の処理コアを含むことができ、好ましくは、プロセッサー４０８は、アプリケーションプロセッサーとモデムプロセッサーを集積することができ、その中、アプリケーションプロセッサーは主にオペレーティングシステム、ユーザーインタフェース及びアプリケーションプログラムなどを扱い、モデムプロセッサーは主に無線通信を扱う。上記のモデムプロセッサーがプロセッサー４０８に集積されなくてもよいことは理解できる。

モバイル端末は、各部材に電力を供給する電源４０９(例えばバッテリー)をさらに含み、好ましくは、電源は、電力管理システムを介してプロセッサー４０８に論理的に接続され、それによって、電力管理システムによって、充放電の管理、及び消費電力の管理などの機能を実現することができる。電源４０９は、１つまたは複数の直流又は交流電源、再充電システム、電源故障検出回路、電力変換器又はインバーター、電力状態インジケータなどの任意のコンポーネントを含んでもよい。

図示していないが、モバイル端末は、カメラ、ブルートゥースモジュールなどを含んでもよく、ここで詳しく説明しない。具体的に、本実施例では、モバイル端末におけるプロセッサー４０８は次のような指令に従って、１つまたは複数のアプリケーションプログラムのプロセスに対応する実行可能なファイルをメモリ４０２にロードし、プロセッサー４０８によって、メモリ４０２に記憶されるアプリケーションプログラムを実行することで、様々な機能を実行する。

オーディオデータを取得し、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行し、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、ＤＳＰによって、スリープ状態にあるＣＰＵをウェイクアップし、当該ＣＰＵは当該オーディオデータに対して意味解析を実行する。

ＣＰＵがウェイクアップされた後、ＣＰＵは、当該オーディオデータに対して意味解析を実行し、解析結果に従って対応する操作を実行することができる。

例えば、具体的に、ファジークラスタリング解析又はファジーマッチングアルゴリズムを使用して当該オーディオデータに対して音声認識などを実行することができ、具体的に、前記の実施例を参照することができ、ここで再度説明しない。

任意選択で、音声認識の精度を向上させるために、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、プロセッサー４０８は、メモリ４０２に記憶されたアプリケーションプログラムを実行することによって、以下の機能を実現してもよい。

当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセル処理を実行して、処理されたオーディオデータを取得する。

任意選択で、認識の精度をさらに向上させ、誤ったウェイクアップの状況の発生を回避するために、ＣＰＵによって当該オーディオデータに対して意味解析を実行する前に、ＣＰＵによって当該オーディオデータをさらに認識してもよく、即ち、プロセッサー４０８は、メモリ４０２に記憶されたアプリケーションプログラムを実行することによって、以下の機能を実現してもよい。

ＤＳＰから当該オーディオデータのうちウェイクアップワードを含むデータを読み取って、ウェイクアップデータを取得し、当該ＣＰＵによって当該ウェイクアップデータに対して音声認識を実行し、音声認識結果がウェイクアップワードが存在することを示している場合、ＣＰＵによって当該オーディオデータに対して意味解析を実行する操作を実行し、さもなければ、音声認識結果がウェイクアップワードが存在しないことを示している場合、ＣＰＵをスリープに設定して、オーディオデータを取得する操作に戻る。

以上、各操作の具体的な実施は、前記の実施例を参照することができ、ここで再度説明しない。

以上のように、本実施例のモバイル端末は、オーディオデータを取得した後、ＤＳＰによって、当該オーディオデータに対してファジー音声認識を実行することができ、ウェイクアップワードが存在すると確定される場合にのみ、スリープ状態にあるＣＰＵを当該ＤＳＰによってウェイクアップし、当該ＣＰＵは、当該オーディオデータに対して意味解析を実行することができる。この解決策は、動作消費電力の高いＣＰＵの代わりに、動作消費電力の低いＤＳＰを使用して、オーディオデータを監視するため、ＣＰＵは、常にウェイクアップ状態である必要はなく、スリープ状態にすることができ、必要な場合にのみウェイクアップされ、従って、外部電源又は物理ボタンによってウェイクアップされる既存の解決策と比べると、当該解決策は、モビリティと音声ウェイクアップ機能を維持しながら、システムの消費電力を大幅に削減することができ、これにより、モバイル端末の待機時間を延長し、モバイル端末のパフォーマンスを改善する。

実施例五、

当業者は、上記の実施例の様々な方法におけるステップの全部又は一部は、指令によって完成できるか、又は、指令によって関連するハードウェアを制御して完成できると理解することができ、当該指令は、コンピュータ可読記憶媒体に記憶され、プロセッサーによってロード及び実行できる。

そのため、本発明の実施例は、複数の指令が記憶される記憶媒体を提供し、当該指令は、本発明の実施例によって提供されるいずれかの音声認識方法におけるステップを実行するようにプロセッサーによってロードされる。例えば、当該指令は次のようなステップを実行することができる。

オーディオデータを取得し、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行し、ファジー音声認識結果がウェイクアップワードが存在することを示している場合、ＤＳＰによってスリープ状態にあるＣＰＵをウェイクアップし、当該ＣＰＵは当該オーディオデータに対して意味解析を実行する。

任意選択で、音声認識の精度を向上させるために、ＤＳＰによって当該オーディオデータに対してファジー音声認識を実行する前に、当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセルなどのフィルタリング処理を実行してもよく、即ち、当該指令は次のようなステップを実行してもよい。

当該オーディオデータに対してノイズリダクション及び／又はエコーキャンセル処理を実行して、処理されたオーディオデータを得る。

任意選択で、認識の精度をさらに向上させ、誤ったウェイクアップの状況の発生を回避するために、ＣＰＵによって当該オーディオデータに対して意味解析を実行する前に、ＣＰＵによって当該オーディオデータをさらに認識してもよく、即ち、当該指令は、次のようなステップを実行してもよい。

ＤＳＰから、当該オーディオデータのうちウェイクアップワードを含むデータを読み取って、ウェイクアップデータを取得し、当該ＣＰＵによって、当該ウェイクアップデータに対して音声認識を実行し、音声認識結果がウェイクアップワードが存在することを示している場合、ＣＰＵによって当該オーディオデータに対して意味解析を実行する操作を実行し、さもなければ、音声認識結果がウェイクアップワードが存在しないことを示している場合、ＣＰＵをスリープに設定して、オーディオデータを取得する操作に戻る。

その中、当該記憶媒体は、読み出し専用メモリ(ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ)、ランダムアクセスメモリ(ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ)、磁気ディスク、光ディスクなどを含むことができる。

当該記憶媒体に記憶された指令によって、本発明の実施例によって提供されたいずれかの音声認識方法におけるステップを実行することができ、そのため、本発明の実施例によって提供されたいずれかの音声認識方法によって達成できる有益效果を実現することができ、詳細は前記の実施例を参照し、ここで再度説明しない。

以上、本発明の実施例によって提供された音声認識方法及び装置、並びに記憶媒体について詳細に説明した。本明細書で、具体的な例を使用して本発明の原理及び実施形態について説明し、以上の実施例の説明は本発明の方法及びその核心思想の理解を助けるためのものであり、同時に、当業者にとって、本発明の思想に従って、具体的な実施形態及び適用範囲を変更でき、上記のように、本明細書の内容は本発明に対する制限ではない。

Claims

音声認識方法であって、
オーディオデータを取得するステップと、
デジタル信号プロセッサーが前記オーディオデータに対してファジー音声認識を実行するステップと、
ファジー音声認識結果がウェイクアップワードが存在することを示す場合、前記デジタル信号プロセッサーがスリープ状態にある中央処理装置をウェイクアップするステップと、
前記デジタル信号プロセッサーから、前記オーディオデータにおけるウェイクアップワードの含まれるデータを読み取ることにより、ウェイクアップデータを得るステップと、
前記中央処理装置の動作状態をシングルコアでかつ低周波数である第１状態に設定し、前記第１状態で、前記ウェイクアップデータに対して音声認識を実行するステップと、
音声認識結果がウェイクアップワードの存在を示す場合、前記中央処理装置が前記オーディオデータに対して意味解析を実行するステップと、
を含む方法。
前記デジタル信号プロセッサーが前記オーディオデータに対してファジー音声認識を実行するステップは、
前記デジタル信号プロセッサーが、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得るステップ、
を含む請求項１に記載の方法。
前記デジタル信号プロセッサーが、ファジークラスタリングで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得るステップは、
ファジークラスタリングに基づきファジークラスタリングニューラルネットワークを確立するステップと、
前記ファジークラスタリングニューラルネットワークを確率密度関数の推定器とし、ウェイクアップワードが前記オーディオデータに含まれる確率を予測するステップと、
予測結果が確率が設定値以上であることを示す場合、ウェイクアップワードの存在を示すファジー音声認識結果を生成するステップと、
予測結果が確率が前記設定値よりも小さいことを示す場合、ウェイクアップワードの不存在を示すファジー音声認識結果を生成するステップと、
を含む請求項２に記載の方法。
前記デジタル信号プロセッサーが前記オーディオデータに対してファジー音声認識を実行するステップは、
前記デジタル信号プロセッサーが、ファジーマッチングアルゴリズムで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得るステップ、
を含む請求項１に記載の方法。
前記デジタル信号プロセッサーが、ファジーマッチングアルゴリズムで前記オーディオデータに対して音声認識を実行して、ファジー音声認識結果を得るステップは、
ウェイクアップワードの読み方の特徴マップを取得して、標準の特徴マップを得るステップと、
前記オーディオデータにおける各単語の読み方の特徴マップを解析し、マッチング候補特徴マップを得るステップと、
所定のメンバーシップ関数に基づき、各マッチング候補特徴マップが標準の特徴マップに属する度合いのグレードを計算するステップと、
前記度合いのグレードがプリセット値以上である場合、ウェイクアップワードが存在することを示すファジー音声認識結果を生成するステップと、
前記度合いのグレードが前記プリセット値よりも小さい場合、ウェイクアップワードが存在しないことを示すファジー音声認識結果を生成するステップと、
を含む請求項４に記載の方法。
前記中央処理装置が前記オーディオデータに対して意味解析を実行する前に、
音声認識結果がウェイクアップワードの不存在を示す場合、前記中央処理装置をスリープに設定し、オーディオデータを取得するステップに戻るステップと、
をさらに含む請求項１から５のいずれか１項に記載の方法。
前記中央処理装置が前記オーディオデータに対して意味解析を実行するステップは、
前記中央処理装置の動作状態をマルチコアでかつ高周波数である第２状態に設定し、前記第２状態で、前記オーディオデータに対して意味解析を実行するステップを含む、請求項１から６のいずれか１項に記載の方法。
前記中央処理装置が前記オーディオデータに対して意味解析を実行するステップは、
前記オーディオデータに対応するウェイクアップワードに基づきセマンティックシーンを決定するステップと、
前記セマンティックシーンに基づき前記中央処理装置の動作コア数とクロック周波数を決定するステップと、
前記動作コア数とクロック周波数に従って、前記中央処理装置の動作状態を設定して、第３状態を得るステップと、
前記第３状態で、前記オーディオデータに対して意味解析を実行するステップと、
を含む請求項１から７のいずれか１項に記載の方法。
前記デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行する前に、
前記オーディオデータに対してノイズリダクション及び／又はエコーキャンセル処理を実行するステップ、
をさらに含む請求項１から８のいずれか１項に記載の方法。
前記中央処理装置が前記オーディオデータに対して意味解析を実行した後、解析結果に基づき前記解析結果に対応する操作を実行するステップ、
をさらに含む請求項１から９のいずれか１項に記載の方法。
前記解析結果に基づき対応する操作を実行するステップは、
前記解析結果に基づき操作対象と操作内容を決定するステップと、
前記操作対象に対して前記操作内容を実行するステップと、
を含む請求項１０に記載の方法。
音声認識装置であって、
オーディオデータを取得するための取得ユニットと、
デジタル信号プロセッサーによって前記オーディオデータに対してファジー音声認識を実行するためのファジー認識ユニットと、
ファジー音声認識結果がウェイクアップワードが存在することを示す場合、前記オーディオデータに対して意味解析を実行するためのスリープ状態にある中央処理装置をウェイクアップするためのウェイクアップユニットと、
前記デジタル信号プロセッサーから前記オーディオデータのうちウェイクアップワードが含まれるデータを読み取って、ウェイクアップデータを取得するための精確認識ユニットと、
前記オーディオデータに対して意味解析を実行するための中央処理装置と、
を含む
前記精確認識ユニットは、
前記中央処理装置の動作状態をシングルコアでかつ低周波数である第１状態に設定し、前記第１状態で、前記ウェイクアップデータに対して音声認識を実行させ、
音声認識結果がウェイクアップワードの存在を示す場合、前記中央処理装置に前記オーディオデータに対して意味解析を実行させる、装置。
前記中央処理装置による意味解析の解析結果に従って対応する操作を実行するための処理ユニット、
をさらに含む請求項１２に記載の装置。
前記精確認識ユニットは、
前記音声認識結果がウェイクアップワードの不存在を示す場合、前記中央処理装置をスリープに設定し、オーディオデータを取得する操作を実行するように前記取得ユニットをトリガーする、
請求項１２に記載の装置。
前記処理ユニットは、具体的に、
前記オーディオデータに対応するウェイクアップワードに従ってセマンティックシーンを決定し、
前記セマンティックシーンに従って、前記中央処理装置の動作コア数とクロック周波数を決定し、
前記動作コア数とクロック周波数に従って、前記中央処理装置の動作状態を設定し、第３の状態を得て、
前記第３の状態で、前記オーディオデータに対して意味解析を実行する、
請求項１３に記載の装置。
請求項１から１１のいずれか１項に記載の音声認識方法を実行するためのコンピュータプログラム。