JP7258007B2

JP7258007B2 - 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末

Info

Publication number: JP7258007B2
Application number: JP2020215271A
Authority: JP
Inventors: 均▲揚▼ 周
Original assignee: オナーデバイスカンパニーリミテッド
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-04-14
Anticipated expiration: 2035-04-10
Also published as: JP2021067951A

Description

本発明はモバイル通信技術の分野に関し、詳細には、音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末に関する。

現在、モバイルハンドヘルド端末の人気が高まっており、特に携帯電話、タッチスクリーン技術もますます成熟してきている。タッチスクリーン技術は、ユーザの動作を容易にするが、呼び出し対話を完了するために複数のタッチステップが行われる必要があり、ユーザが運転している、またはタッチを行うのに都合が悪いとき、呼び出しをし損なうことがある。

従って音声認識技術に基づいて呼び出しをすること、またはＳＭＳメッセージを送ることなどの機能が出現している。さらに現在、新しく重要なユーザ対話技術として音声認識は、モバイル端末にますます広く適用されている。

しかし、音声認識技術に基づいて呼び出しをすること、またはＳＭＳメッセージを送ることなどの現在のサービスは、タッチスクリーン技術が協調的に用いられるときにのみ実施されることができる。

本発明の実施形態は、音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末を提供する。ユーザは１つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。ユーザはタッチスクリーンの助けを必要とせず、複数の命令を入力することも必要としない。

第１の態様によれば本発明の実施形態は、音声認識方法を提供し、方法は、
音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置によって、聴取することによって取得される第１のプリセットされた持続時間の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップであって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、ステップとを含む。

第１の態様に関連して、第１の態様の第１の可能な実装形態において、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップは、
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。

第１の態様に関連して、第１の態様の第２の可能な実装形態において、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップは、
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。

第２の態様に関連して、本発明の実施形態は、音声認識方法を提供し、方法は、
音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップであって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第１の音声情報を認識するように指示するために用いられる、ステップと、
トリガ信号を受信した後、音声認識装置によって、それ自体をイネーブル化し、第２のプリセットされた持続時間の第２の音声情報を聴取するステップと、
音声ウェイクアップ装置によってバッファされた第１の音声情報、および聴取することによって取得された第２の音声情報を認識して、認識結果を取得するステップとを含む。

第２の態様に関連して、第２の態様の第１の可能な実装形態において、音声認識装置が認識結果を取得した後、方法は、
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
一致した音声命令情報に対応する動作を、音声認識装置によって行うステップとをさらに含む。

第２の態様、または第２の態様の第１の可能な実装形態に関連して、第２の態様の第２の可能な実装形態において方法は、
トリガ信号が受信された後、第３のプリセットされた持続時間内でトリガ信号が再び受信されなかったと決定したとき、音声認識装置によってそれ自体を自動的にディセーブルするステップをさらに含む。

第３の態様によれば、本発明の実施形態は、音声認識方法を提供し、方法は、
音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置によって、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップとを含む。

第３の態様に関連して、第３の態様の第１の可能な実装形態において、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップは、
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。

第３の態様に関連して、第３の態様の第２の可能な実装形態において、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップは、
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するステップを含む。

第４の態様によれば本発明の実施形態は、音声認識方法を提供し、方法は、
音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップと、
音声認識装置によって、トリガ信号を受信した後、それ自体をイネーブル化し、ユーザに音声プロンプト命令を送るステップと、
音声認識装置によって、音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号に対する認識を行って認識結果を取得するステップとを含む。

第５の態様によれば本発明の実施形態はさらに、音声ウェイクアップ装置を提供し、装置は、
周囲環境における音声情報を聴取するように構成された聴取モジュールと、
聴取モジュールによって聴取することによって取得された音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
決定モジュールが、聴取モジュールによって聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、聴取モジュールによって聴取することによって取得される第１のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュールと、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールであって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、送出モジュールとを含む。

第５の態様に関連して、第５の態様の第１の可能な実装形態において、決定モジュールは、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。

第５の態様に関連して、第５の態様の第２の可能な実装形態において、装置は、
決定モジュールが、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュールは、抽出モジュールによって抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するようにさらに構成される。

第６の態様によれば本発明の実施形態は、音声認識装置を提供し、装置は、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールであって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第１の音声情報を認識するように指示するために用いられる、受信モジュールと、
受信モジュールがトリガ信号を受信した後、それ自体をイネーブルし、第２のプリセットされた持続時間の第２の音声情報を聴取するように構成された聴取モジュールと、
音声ウェイクアップ装置によってバッファされた第１の音声情報、および聴取モジュールによって聴取することによって取得された第２の音声情報を認識して、認識結果を取得するように構成された認識モジュールとを含む。

第６の態様に関連して、第６の態様の第１の可能な実装形態において、この装置は、
認識モジュールが認識を行った後に取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに含む。

第６の態様、または第６の態様の第１の可能な実装形態に関連して、第６の態様の第２の可能な実装形態において、装置は、
トリガ信号が受信された後、第３のプリセットされた持続時間内でトリガ信号が再び受信されなかったとき、音声認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに含む。

第７の態様によれば、本発明の実施形態は、音声ウェイクアップ装置を提供し、装置は、
周囲環境における音声情報を聴取するように構成された聴取モジュールと、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
決定モジュールが、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールとを含む。

第７の態様に関連して、第７の態様の第１の可能な実装形態において、決定モジュールは、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。

第７の態様に関連して、第７の態様の第２の可能な実装形態において、装置は、
決定モジュールが、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュールは、抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。

第８の態様によれば本発明の実施形態は、音声認識装置を提供し、装置は、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールと、
受信モジュールがトリガ信号を受信した後、それ自体をイネーブルし、ユーザに音声プロンプト命令を送るように構成された送出モジュールと、
音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号を認識して認識結果を取得するように構成された処理モジュールとを含む。

第９の態様によれば、本発明の実施形態は、端末を提供し、端末は、
音声ウェイクアップ装置と、音声認識装置とを含み、
音声ウェイクアップ装置は、周囲環境における音声情報を聴取し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、第１のプリセットされた持続時間内で聴取することによって取得される第１の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成され、
音声認識装置は、音声ウェイクアップ装置によって送られたトリガ信号を受信した後、それ自体をイネーブルし、第２のプリセットされた持続時間内で第２の音声情報を聴取し、音声ウェイクアップ装置によってバッファされた第１の音声情報、および聴取することによって取得された第２の音声情報を認識して認識結果を取得するように構成される。

第９の態様に関連して、第９の態様の第１の可能な実装形態において、音声ウェイクアップ装置は、デジタル信号プロセッサＤＳＰである。

第９の態様、または第９の態様の第１の可能な実装形態に関連して、第９の態様の第２の可能な実装形態において、音声認識装置は、アプリケーションプロセッサＡＰである。

本発明の実施形態において提供される解決策を用いることによって、ユーザは１つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、音声ウェイクアップ装置は、聴取することによって取得された音声情報をバッファし、音声認識装置は、イネーブルされた後に第２の音声情報を聴取し、バッファされた第１の音声情報および第２の音声情報を認識し、それにより音声認識装置がウェイクアップされた後に音声情報の取得を開始したとき、音声認識装置がイネーブルされる前にユーザによって送られた部分的音声情報の喪失が回避されることができる。

本発明の実施形態による端末の概略構成図である。本発明の実施形態による音声認識方法のフローチャートである。本発明の実施形態による音声認識方法の別のフローチャートである。本発明の実施形態による音声認識方法のさらに別のフローチャートである。本発明の実施形態による音声認識方法のまたさらに別のフローチャートである。本発明の実施形態による音声ウェイクアップ装置の概略図である。本発明の実施形態による音声認識装置の概略図である。本発明の実施形態による音声ウェイクアップ装置の別の概略図である。本発明の実施形態による音声認識装置の別の概略図である。本発明の実施形態による音声認識方法の概略図である。

本発明の目的、技術的解決策、および利点をより明らかにするために、以下ではさらに本発明を添付の図面を参照して詳しくさらに述べる。明らかに、説明する実施形態は本発明の実施形態のすべてではなく単に一部である。本発明の実施形態に基づいて当業者によって創造的な努力なしに得られる他のすべての実施形態は、本発明の保護範囲に入るものである。

本発明の実施形態は、音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末を提供する。ユーザは１つの命令だけを送る必要があり、ユーザの要求は満たされることができる。ユーザはタッチスクリーンの助けを必要とせず、複数の命令を入力することも必要としない。方法および装置は、同じ発明の概念に基づく。方法および装置によって問題を解決するための原理は同様であるので、端末、装置、および方法の実装形態は互いに参照してよく、繰り返しの説明は提供されない。

本発明の実施形態は、端末を提供する。図１に示されるように、端末は、音声ウェイクアップ装置１０１、および音声認識装置１０２を含む。

音声ウェイクアップ装置１０１は、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、略してＤＳＰ）を用いることによって実施され得る。音声認識装置１０２は、アプリケーションプロセッサ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｃｅｓｓｏｒ、略してＡＰ）を用いることによって実施され得る。音声認識装置１０２はさらに、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓＵｎｉｔ、略してＣＰＵ）を用いることによって実施され得る。

音声ウェイクアップ装置１０１は、周囲環境における音声情報を聴取し、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、第１のプリセットされた持続時間内で聴取することによって取得される第１の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成される。

音声認識装置１０２は、音声ウェイクアップ装置によって送られたトリガ信号を受信した後、それ自体をイネーブルし、第２のプリセットされた持続時間内で第２の音声情報を聴取し、音声ウェイクアップ装置によってバッファされた第１の音声情報、および聴取することによって取得された第２の音声情報を認識して、認識結果を取得するように構成される。

任意選択で、トリガ信号が受信された後、第３のプリセットされた持続時間内でトリガ信号が再び受信されなかったと決定したとき、音声認識装置１０２はそれ自体を自動的にディセーブルする。

本発明のこの実施形態において提供される解決策を用いることによって、ユーザは１つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに音声ウェイクアップ装置は、聴取することによって取得された音声情報をバッファし、音声認識装置は、イネーブルされた後に第２の音声情報を聴取し、バッファされた第１の音声情報および第２の音声情報を認識し、それにより音声認識装置がウェイクアップされた後に音声情報の取得を開始したとき、音声認識装置がイネーブルされる前にユーザによって送られた部分的音声情報の喪失を回避することができる。

具体的には、一般にＤＳＰがトリガ信号をイニシエートした後、イネーブルされた後、ＡＰは記録を行うために記録チャネルをイネーブルする。一般に、記録は、ＡＰがイネーブルされた後に開始される。しかし、この解決策において、ＡＰがイネーブルされる前に、ＤＳＰはウェイクアップ情報を受信したとき、記録およびバッファリングを行うことを開始する。イネーブルされた後に、ＡＰは、音声情報を取得するために記録を行い続け、次いでＤＳＰバッファから読み出された音声情報、およびＡＰがイネーブルされた後に取得された音声情報を認識する。ワンショットシナリオでは、ＤＳＰをウェイクアップしてから、ＤＳＰによる命令を送出するまでには、時間差がある。ＡＰがイネーブルされた後に記録が行われる場合、ＡＰがイネーブルされた後の音声情報のみが記録されることができ、上記の時間差内の音声情報は失われる。しかし、ＤＳＰがウェイクアップされたときに記録が開始され、バッファされる場合、上記の時間差内の音声情報は取得されることができる。

例えばウェイクアップワードを話し始める時点はｔ０、ウェイクアップワードを話し終わる時点はｔ１、コマンドワードを話し始める時点はｔ２、ＡＰをイネーブルする時点はｔ３である。バッファは、ｔ０からｔ３までの音声情報を含む。しかし、ＡＰがイネーブルされたときにのみ記録が行われる場合、ｔ３後の音声情報のみが記録されることができ、ｔ０からｔ３までの音声情報は記録されることができない。従って本発明のこの実施形態において提供される解決策では、ウェイクアップのために用いられる音声情報の後の音声情報は取得されることができ、音声情報の喪失は回避され、それによって音声認識を改善する。

任意選択で、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するために、下記の方法が特に用いられることがある。

第１の実装形態：
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声情報は、音声ウェイクアップモデルと一致する。

ユーザは、前もってプロンプト、例えば「やあ、リトルＥ」に従って、音声ウェイクアップ装置にウェイクアップ音声情報を設定することができる。代替的に、ウェイクアップ音声情報は、工場渡しの時点で端末にプリセットされる。周囲環境における音声情報を検出するとき、音声ウェイクアップ装置は音声情報を、記憶されたウェイクアップ音声情報と比較する。２つが同じ場合、音声情報は音声ウェイクアップモデルと一致し、トリガ命令が音声認識装置１０２に送られ、または、２つが異なる場合、音声ウェイクアップ装置１０１は、現在の検出された音声情報を捨てて、検出および決定作業を行い続け得る。

第２の実装形態：
聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴が抽出され、抽出された声紋特徴は所定の声紋特徴と一致し、聴取することによって取得された音声情報は音声ウェイクアップモデルと一致する。

声紋特徴は、下記の特徴の１つまたは複数を含む。
ピッチ曲線、線形予測係数、スペクトル包絡線パラメータ、高調波エネルギー比率、共鳴ピーク周波数およびその帯域幅、ケプストラム（パワーケプストラムとも呼ばれる）、またはメル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ、略してＭＦＣＣ）などの声紋特徴を反映する音響パラメータ。この実施形態は、上記で述べられた声紋特徴パラメータに限定されない。

本発明のこの実施形態において、設定装置がさらに含まれ得る。ユーザの声紋特徴は予め抽出され、音声ウェイクアップ装置に記憶される。例えばユーザは、プロンプトに従って、音声情報を設定モジュールの内部に記録し、次いで声紋特徴を抽出し、抽出された声紋特徴を音声ウェイクアップ装置に記憶し得る。

本発明のこの実施形態において提供される解決策を用いることによって、声紋特徴がウェイクアップモデルに追加され、周囲環境におけるノイズ、および他のユーザの音声入力はフィルタ除去されることができるようにし、音声ウェイクアップ装置は、ユーザに対して信頼性のあるセキュリティをもたらすことができるようにする。

任意選択で、音声認識装置が認識結果を取得した後、音声認識装置は、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行い、音声認識装置は、一致した音声命令情報に対応する動作の実行を制御する。

音声命令情報は、音声認識装置に予め記憶される。音声認識装置は、複数の音声命令情報を含む。

本発明のこの実施形態において、音声命令情報に対応する動作を行う実行モジュールがさらに含まれ得る。音声認識装置は、音声命令情報に対応する動作を行う実行モジュールに、実行命令を送り得る。例えばスピーカ、発光装置などが含まれる。

例えば周囲環境における音声情報がウェイクアップモデルを満足することを検出したとき、音声ウェイクアップモジュールは、２秒などの第１のプリセットされた持続時間の第１の音声情報をバッファし、音声認識モジュールをトリガしてそれ自体をイネーブルして第２の音声情報を聴取し、次いでバッファされた第１の音声情報および第２の音声情報を認識し、認識結果を音声命令情報とをファジー的に比較して、音声情報が音声命令情報の１つと一致するかどうかを決定する。例えば音声命令情報は、「着信音を再生」または「ＭＰ３を再生」など、着信音またはＭＰ３を再生するよう指示する音声命令情報を含み、または「あなたはどこ？」など、答えるように指示する音声命令情報、または「カメラフラッシュをオンする」など、カメラフラッシュを点灯させるように指示する音声命令情報を含む。

携帯電話などの端末デバイスは、本発明のこの実施形態において提供される解決策を用いることによってサーチされることがある。自宅では一般に、携帯電話はランダムに置かれ、使用に必要な場合に携帯電話を見つけるのに多少の時間がかかる。本発明のこの実施形態において提供される解決策を用いることによって、「こんにちは、リトルＥ、あなたはどこ？」が発声されることができる。従って、携帯電話の音声ウェイクアップモジュールは音声情報を検出し、音声情報と、音声ウェイクアップモデル（例えば、ウェイクアップ音声情報は「こんにちは、リトルＥ」である）との間の突き合わせを行う。音声情報が音声ウェイクアップモデルと一致したとき、音声情報はバッファ内にバッファされ、トリガ信号が音声認識モジュールに送られる。音声認識モジュールはそれ自体をイネーブルし、音声情報を聴取し始め、次いでバッファされた音声情報、および聴取することによって取得された音声情報を認識して、認識結果（テキスト結果は、「こんにちは、リトルＥ、あなたはどこ」である）を取得し、テキスト結果と音声命令情報との間の突き合わせを行う。例えば「こんにちは、リトルＥ、あなたはどこ」と一致する音声命令情報がＭＰ３再生である場合、ユーザに促すようにＭＰ３音楽が再生される。

本発明のこの実施形態において提供される解決策を用いることによって、呼び出しがなされることがある。携帯電話が待機状態にあるか画面ロック状態にあるかに関わらず、携帯電話の音声ウェイクアップモジュールは常にイネーブルされた状態にあり、ユーザによって送られる音声情報は、例えば「こんにちは、リトルＥ、リトルＡを呼び出す」を聴取することによって取得されることができるようにする。次いで呼び出しが直接なされることができ、いかなる他の動作も必要ない。

本発明の実施形態はさらに、音声認識方法を提供する。図２に示されるように方法は下記を含む。

ステップ２０１：音声ウェイクアップ装置は、周囲環境における音声情報を聴取する。

ステップ２０２：聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置は、聴取することによって取得される第１のプリセットされた持続時間の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送り、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる。

本発明のこの実施形態において提供される解決策を用いることによって、ユーザは１つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、聴取することによって取得された音声情報はバッファされ、音声認識装置はイネーブルされ、音声認識装置は音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるときに部分的音声情報の喪失を回避されることができるようにし、音声認識が改善される。

本発明の実施形態はさらに、音声認識方法を提供する。図３に示されるように、方法は下記を含む。

ステップ３０１：音声認識装置は音声ウェイクアップ装置によって送られたトリガ信号を受信し、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第１の音声情報を認識するように指示するために用いられる。

ステップ３０２：トリガ信号を受信した後、音声認識装置はイネーブルされ、音声認識装置は第２のプリセットされた持続時間の第２の音声情報を聴取する。

ステップ３０３：音声ウェイクアップ装置によってバッファされた第１の音声情報、および聴取することによって取得された第２の音声情報を認識して、認識結果を取得する。

本発明のこの実施形態において提供される解決策を用いることによって、ユーザは１つの命令を送ることだけが必要であり、ユーザの要求は満たされることができる。さらに解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに聴取することによって取得された音声情報はバッファされ、音声認識装置はイネーブルされ、音声認識装置は音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるときに部分的音声情報の喪失を回避されることができるようにし、音声認識が改善される。

任意選択で、音声認識装置が認識結果を取得した後、方法は、
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
音声認識装置によって、一致した音声命令情報に対応する動作の実行を制御するステップとをさらに含む。

任意選択で、トリガ信号が受信された後、第３のプリセットされた持続時間内でトリガ信号が再び受信されなかったと決定したとき、音声認識装置はそれ自体を自動的にディセーブルする。

本発明の実施形態はさらに、音声認識方法を提供する。図４に示されるように方法は下記を含む。

ステップ４０１：音声ウェイクアップ装置は、周囲環境における音声情報を聴取する。

ステップ４０２：聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声ウェイクアップ装置は、音声認識装置のイネーブル化をトリガするためのトリガ信号を送る。

本発明のこの実施形態において提供される解決策を用いることによって、ユーザは１つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、聴取することによって取得された音声情報はバッファされ、音声認識装置はそれ自体をイネーブルし、音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるときに部分的音声情報の喪失を回避されることができるようにし、音声認識が改善される。

本発明の実施形態はさらに、音声認識方法を提供する。図５に示されるように、方法は下記を含む。

ステップ５０１：音声認識装置は、音声ウェイクアップ装置によって送られたトリガ信号を受信する。

ステップ５０２：トリガ信号を受信した後、音声認識装置はそれ自体をイネーブルし、ユーザに音声プロンプト命令を送る。

ステップ５０３：音声認識装置は、音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号を認識して認識結果を取得する。

本発明のこの実施形態において提供される解決策を用いることによって、ユーザは１つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。

任意選択で、音声認識装置が、音声信号を認識して認識結果を取得した後、方法は、
音声認識装置によって、取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
音声認識装置によって、一致した音声命令情報に対応する動作の実行を制御するステップとをさらに含む。

本発明の実施形態はさらに、音声ウェイクアップ装置を提供する。図６に示されるように、装置は、
周囲環境における音声情報を聴取するように構成された聴取モジュール６０１と、
聴取モジュール６０１によって聴取することによって取得された音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュール６０２と、
決定モジュール６０２が、聴取モジュール６０１によって聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、聴取モジュール６０１によって聴取することによって取得される第１のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュール６０３と、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュール６０４であって、トリガ信号は、音声認識装置に対して、音声認識装置がイネーブルされた後、音声ウェイクアップ装置によってバッファされた音声情報を読み出し、認識するように指示するために用いられる、送出モジュール６０４とを含む。

本発明のこの実施形態において提供される解決策を用いることによって、ユーザは１つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。さらに、聴取することによって取得された音声情報はバッファされ、音声認識装置はそれ自体をイネーブルし、音声情報を聴取し、次いでバッファされた音声情報および聴取することによって取得された音声情報を認識し、音声認識装置がウェイクアップされた後に音声情報を取得し始めるとき、部分的音声情報の喪失を回避されることができ、音声認識が改善される。

任意選択で、決定モジュール６０２は、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。

任意選択で、装置は、
決定モジュール６０２が、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュール６０２は、抽出モジュールによって抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するようにさらに構成される。

本発明の実施形態はさらに、音声認識装置を提供する。図７に示されるように、装置は、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュール７０１であって、トリガ信号は、音声認識装置に対して、それ自体をイネーブルし、音声ウェイクアップ装置によってバッファされた第１の音声情報を認識するように指示するために用いられる、受信モジュール７０１と、
受信モジュール７０１がトリガ信号を受信した後、それ自体をイネーブルし、第２のプリセットされた持続時間の第２の音声情報を聴取するように構成された聴取モジュール７０２と、
音声ウェイクアップ装置によってバッファされた第１の音声情報、および聴取モジュールによって聴取することによって取得された第２の音声情報を認識して、認識結果を取得するように構成された認識モジュール７０３とを含む。

本発明のこの実施形態において提供される解決策を用いることによって、ユーザは１つの命令だけを送ることが必要であり、ユーザの要求は満たされることができる。さらに、解決策は、端末が待機状態にあるか非待機状態にあるかに関わらず適用可能である。

任意選択で、装置は、
認識モジュール７０３が認識を行った後に取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに含む。

任意選択で、装置は、
受信モジュールがトリガ信号を受信した後、第３のプリセットされた持続時間内でトリガ信号が再び受信されなかったとき、音声認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに含む。

本発明の実施形態はさらに、音声ウェイクアップ装置を提供する。図８に示されるように、装置は、
周囲環境における音声情報を聴取するように構成された聴取モジュール８０１と、
聴取することによって取得された音声情報が音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュール８０２と、
決定モジュール８０２が、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定したとき、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュール８０３とを含む。

任意選択で決定モジュール８０２は、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。

任意選択で、装置は、
決定モジュール８０２が、聴取することによって取得された音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに含み、
決定モジュール８０２は、抽出された声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された音声情報が音声ウェイクアップモデルと一致すると決定するように特に構成される。

本発明の実施形態は、音声認識装置を提供する。図９に示されるように、装置は、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュール９０１と、
受信モジュール９０１がトリガ信号を受信した後、それ自体をイネーブルし、ユーザに音声プロンプト命令を送るように構成された送出モジュール９０２と、
音声プロンプト命令に従ってユーザによって入力された音声信号を記録し、音声信号を認識して認識結果を取得するように構成された処理モジュール９０３とを含む。

以下では、図１０に示されるように、ソフトウェア実装処理を参照して本発明の実施形態について具体的に説明する。

ソフトウェアの観点から、音声認識モジュールは、ドライブレイヤ、オーディオハードウェア抽象化レイヤ（ＡｕｄｉｏＨＡＬ）、フレームワーク（Ｆｒａｍｅｗｏｒｋ）レイヤ、音声認識エンジン（ＶＡＳｅｒｖｉｃｅ）、およびアプリケーション設定（Ｓｅｔｔｉｎｇ）に分割されることができる。

Ｐ１．イベントを報告する。具体的には、ドライブレイヤは、ＤＳＰからトリガ信号を受信した後、トリガイベントをＦｒａｍｅｗｏｒｋに報告する。

Ｐ２．イベントを報告する。具体的には、ＡｕｄｉｏＨＡＬは、上記のトリガイベントをＶＡＳｅｒｖｉｃｅに報告する。

Ｐ３．パラメータを設定する。具体的には、それはバッファからデータを読み出すように設定される。

Ｐ４．ＶＡＳｅｒｖｉｃｅをイネーブルする。

Ｐ５．ＶＡＳｅｒｖｉｃｅは、Ｆｒａｍｅｗｏｒｋに記録イネーブル命令を送る。

Ｐ６．Ｆｒａｍｅｗｏｒｋは、記録イネーブル命令を受信した後、オーディオデータ読み出し命令をＡｕｄｉｏＨＡＬに送る。

Ｐ７．ＡｕｄｉｏＨＡＬは、Ｆｒａｍｅｗｏｒｋによって送られたオーディオデータ読み出し命令を受信した後、Ｂｕｆｆｅｒデータに対する読み出しをイネーブルする。

Ｐ８．ＡｕｄｉｏＨＡＬは、Ｂｕｆｆｅｒデータ取得命令をドライブに送り、それによりドライブはＢｕｆｆｅｒデータ取得命令をＤＳＰに送り、次いでＤＳＰはＢｕｆｆｅｒデータをドライブに送る。

Ｐ９．ドライブは、受信されたＢｕｆｆｅｒデータをＶＡＳｅｒｖｉｃｅに報告する。

Ｐ１０．ＶＡＳｅｒｖｉｃｅは、Ｂｕｆｆｅｒデータおよび記録データに対して、認識処理を行う。

Ｐ１１．ＶＡＳｅｒｖｉｃｅは、記録停止命令をＦｒａｍｅｗｏｒｋに送る。

Ｐ１２．Ｆｒａｍｅｗｏｒｋは、記録停止命令を受信した後、オーディオデータ読み出し停止命令をＡｕｄｉｏＨＡＬに送る。

Ｐ１３．ＡｕｄｉｏＨＡＬは、Ｆｒａｍｅｗｏｒｋによって送られたオーディオデータ読み出し停止命令を受信した後、Ｂｕｆｆｅｒデータに対する読み出しをディセーブルする。

Ｐ１４．ＡｕｄｉｏＨＡＬは、Ｂｕｆｆｅｒデータ取得停止命令をドライブに送る。

当業者は、本発明の実施形態が、方法、システム、またはコンピュータプログラム製品として提供されることがあることを理解するべきである。従って、本発明は、ハードウェアのみの実施形態、ソフトウェアのみの実施形態、またはソフトウェアおよびハードウェアの組み合わせによる実施形態の形式を用いることがある。さらに、本発明は、コンピュータ使用可能プログラムコードを含む１つまたは複数のコンピュータ使用可能記憶媒体（限定的ではないが、ディスクメモリ、ＣＤ－ＲＯＭ、光メモリなどを含む）上において実施されるコンピュータプログラム製品の形式を用いることがある。

本発明については、本発明の実施形態による方法、デバイス（システム）、およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照して説明する。コンピュータプログラム命令は、フローチャートおよび／またはブロック図における各処理および／または各ブロック、ならびにフローチャートおよび／またはブロック図における処理および／またはブロックの組み合わせを実施するために用いられることがあることを理解されるべきである。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、埋め込みプロセッサ、またはマシンを生成する他の任意のプログラマブルデータ処理デバイスに対して提供されてよく、それによりコンピュータまたは他の任意のプログラマブルデータ処理デバイスのコンピュータまたはプロセッサによって実行される命令は、フローチャートにおける１つまたは複数の処理、および／またはブロック図における１つまたは複数のブロックにおいて、特定の機能を実施するための装置を生成する。

これらのコンピュータプログラム命令は、コンピュータまたは他の任意のプログラマブルデータ処理デバイスに特定の方法で動くように指示することができるコンピュータ可読メモリに記憶されてよく、したがってコンピュータ可読メモリに記憶された命令は、指示装置を含む人工物を生成する。指示装置は、フローチャートの１つまたは複数の処理、および／またはブロック図の１つまたは複数のブロックにおける特定の機能を実施する。

これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理デバイス上にロードされてよく、したがって一連の動作およびステップがコンピュータまたは他のプログラマブルデバイス上で行われ、それによってコンピュータによって実施される処理を生成する。従って、コンピュータまたは他のプログラマブルデバイス上で実行される命令は、フローチャートの１つまたは複数の処理、および／またはブロック図の１つまたは複数のブロックにおける特定の機能を実施するためのステップを提供する。

本発明のいくつかの実施形態が述べられたが、当業者は、基本的な発明概念を習得した後、これらの実施形態に変更および修正を行うことができる。従って、下記の特許請求の範囲は、実施形態、および本発明の範囲内に入るすべての変更および修正を包含すると解釈されるものである。

明らかに、当業者は本発明の実施形態の趣旨および範囲から逸脱せずに、本発明の実施形態に様々な修正および変形を行うことができる。本発明はこれらの修正および変形を、それらが以下の特許請求の範囲およびそれらの等価な技術によって定義される保護の範囲内に入ることを条件として包含するものである。

Claims

音声ウェイクアップ装置によって、周囲環境における音声情報を聴取するステップと、
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定したとき、前記音声ウェイクアップ装置によって、聴取することによって取得される、第１のプリセットされた持続時間の音声情報をバッファし、音声認識装置のイネーブル化をトリガするためのトリガ信号を送るステップであって、前記トリガ信号は、前記音声認識装置に対して、前記音声認識装置がイネーブルされた後、前記音声ウェイクアップ装置によってバッファされた前記音声情報を読み出し、認識するように指示するために用いられる、ステップと
を含む音声認識方法。
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む
請求項１に記載の方法。
聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定する前記ステップは、
聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致するとき、聴取することによって取得された音声信号の声紋特徴を抽出し、前記抽出された声紋特徴が所定の声紋特徴と一致すると決定し、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するステップを含む
請求項１に記載の方法。
前記声紋特徴は、ピッチ曲線、線形予測係数、スペクトル包絡線パラメータ、高調波エネルギー比率、共鳴ピーク周波数およびその帯域幅、ケプストラム、またはメル周波数ケプストラム係数などの前記声紋特徴を反映する音響パラメータを含む、
請求項３に記載の方法。
前記方法は、前のトリガ信号が受信された後の所定期間内に再び、さらなるトリガ信号が受信されなかったと決定するとき、前記音声認識装置を自動的にディセーブルすることをさらに含む、
請求項１～４のいずれか１項に記載の方法。
音声認識装置によって、音声ウェイクアップ装置によって送られたトリガ信号を受信するステップであって、前記トリガ信号は、前記音声認識装置に対して、それ自体をイネーブルし、前記音声ウェイクアップ装置によってバッファされた第１の音声情報を認識するように指示するために用いられる、ステップと、
前記トリガ信号を受信した後、前記音声認識装置によって、それ自体をイネーブル化し、第２のプリセットされた持続時間の第２の音声情報を聴取するステップと、
前記音声ウェイクアップ装置によってバッファされた前記第１の音声情報、および聴取することによって取得された前記第２の音声情報を認識して、認識結果を取得するステップと
を含む音声認識方法。
前記音声認識装置が前記認識結果を取得した後、前記方法は、
前記音声認識装置によって、前記取得された認識結果と、予め記憶された音声命令情報との間の突き合わせを行うステップと、
前記音声認識装置によって、一致した音声命令情報に対応する動作を行うステップとをさらに含む
請求項６に記載の方法。
前記トリガ信号が受信された後、第３のプリセットされた持続時間内で前記トリガ信号が再び受信されなかったと決定したとき、前記音声認識装置によってそれ自体を自動的にディセーブルするステップをさらに含む
請求項６または７に記載の方法。
音声ウェイクアップ装置であって、
周囲環境における音声情報を聴取するように構成された聴取モジュールと、
前記聴取モジュールによって聴取することによって取得された前記音声情報が、音声ウェイクアップモデルと一致するかどうかを決定するように構成された決定モジュールと、
前記決定モジュールが、前記聴取モジュールによって聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定したとき、前記聴取モジュールによって聴取することによって取得される第１のプリセットされた持続時間の音声情報をバッファするように構成されたバッファモジュールと、
音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成された送出モジュールであって、前記トリガ信号は、前記音声認識装置に対して、前記音声認識装置がイネーブルされた後、前記音声ウェイクアップ装置によってバッファされた前記音声情報を読み出し、認識するように指示するために用いられる、送出モジュールと
を含む音声ウェイクアップ装置。
前記決定モジュールは、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するように構成される
請求項９に記載の装置。
前記決定モジュールが、聴取することによって取得された前記音声情報が所定のウェイクアップ音声情報と一致すると決定したとき、聴取することによって取得された音声信号の声紋特徴を抽出するように構成された抽出モジュールをさらに備え、
前記決定モジュールは、前記抽出モジュールによって抽出された前記声紋特徴が所定の声紋特徴と一致すると決定したとき、聴取することによって取得された前記音声情報が前記音声ウェイクアップモデルと一致すると決定するようにさらに構成される
請求項９に記載の装置。
前記声紋特徴は、ピッチ曲線、線形予測係数、スペクトル包絡線パラメータ、高調波エネルギー比率、共鳴ピーク周波数およびその帯域幅、ケプストラム、またはメル周波数ケプストラム係数などの前記声紋特徴を反映する音響パラメータを含む、
請求項１１に記載の装置。
前記音声認識装置は、前のトリガ信号が受信された後の所定期間内に再び、さらなるトリガ信号が受信されなかったと決定するとき、前記音声認識装置を自動的にディセーブルするように構成されたディセーブル化モジュールをさらに含む、
請求項９～１２のいずれか１項に記載の装置。
音声認識装置であって、
音声ウェイクアップ装置によって送られたトリガ信号を受信するように構成された受信モジュールであって、前記トリガ信号は、前記音声認識装置に対して、それ自体をイネーブルし、前記音声ウェイクアップ装置によってバッファされた第１の音声情報を認識するように指示するために用いられる、受信モジュールと、
前記受信モジュールが前記トリガ信号を受信した後、それ自体をイネーブルし、第２のプリセットされた持続時間の第２の音声情報を聴取するように構成された聴取モジュールと、
前記音声ウェイクアップ装置によってバッファされた前記第１の音声情報、および前記聴取モジュールによって聴取することによって取得された前記第２の音声情報を認識して、認識結果を取得するように構成された認識モジュールと
を備える音声認識装置。
前記認識モジュールが認識を行った後に取得された前記認識結果と、予め記憶された音声命令情報との間の突き合わせを行うように構成された突き合わせモジュールと、
一致した音声命令情報に対応する動作を行うように構成された実行モジュールとをさらに備える
請求項１４に記載の装置。
前記トリガ信号が受信された後、第３のプリセットされた持続時間内で前記トリガ信号が再び受信されなかったとき、前記認識モジュールをディセーブルするように構成されたディセーブル化モジュールをさらに備える
請求項１４または１５に記載の装置。
音声ウェイクアップ装置と、音声認識装置とを備え、
前記音声ウェイクアップ装置は、周囲環境における音声情報を聴取し、聴取することによって取得された前記音声情報が音声ウェイクアップモデルと一致すると決定したとき、第１のプリセットされた持続時間内で聴取することによって取得される第１の音声情報をバッファし、前記音声認識装置のイネーブル化をトリガするためのトリガ信号を送るように構成され、
前記音声認識装置は、前記音声ウェイクアップ装置によって送られた前記トリガ信号を受信した後、それ自体をイネーブルし、第２のプリセットされた持続時間内で第２の音声情報を聴取し、前記音声ウェイクアップ装置によってバッファされた前記第１の音声情報、および聴取することによって取得された前記第２の音声情報を認識して認識結果を取得するように構成される端末。
前記音声ウェイクアップ装置は、デジタル信号プロセッサＤＳＰである
請求項１７に記載の端末。
前記音声認識装置は、アプリケーションプロセッサＡＰである
請求項１７または１８に記載の端末。
前記周囲環境における音声情報を聴取することは、前記端末が待機状態にあるかまたは画面ロック状態にあるときに周囲環境における音声情報を聴取することを含む、
請求項１７～１９のいずれか１項に記載の端末。
前記音声情報が音声ウェイクアップモデルに一致することは、
前記音声情報が、事前設定されたウェイクアップ音声情報に一致し、前記ウェイクアップ音声情報から抽出される声紋特徴が事前設定された声紋特徴に一致することを含み、前記声紋特徴は、ピッチ曲線、線形予測係数、スペクトル包絡線パラメータ、高調波エネルギー比率、共鳴ピーク周波数およびその帯域幅、ケプストラム、またはメル周波数ケプストラム係数などの前記声紋特徴を反映する音響パラメータを含む、
請求項１７～２０のいずれか１項に記載の端末。
前記端末は、前のトリガ信号が受信された後の所定期間内に再び、さらなるトリガ信号が受信されなかったと決定するとき、前記音声認識装置を自動的にディセーブルするようにさらに構成される、
請求項１７～２１のいずれか１項に記載の端末。