JP2022024110A

JP2022024110A - 音声認識方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022024110A
Application number: JP2021188138A
Authority: JP
Inventors: ヂェンウー，; Zhen Wu; ヂョウ，マオレン; Maoren Zhou; ワン，ジージェン; Zhijian Wang; ヤーフォンツイ，; Yafeng Cui; ユーファンウー，; Yufang Wu; チンジュ，; Qin Qu; ビンリウ，; Bing Liu; ジャシャンゲ，; Jiaxiang Ge
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2021-11-18
Publication date: 2022-02-08
Anticipated expiration: 2041-11-18
Also published as: US20220068267A1; CN112382279A; CN112382279B; JP7309818B2

Abstract

【課題】音声認識の精度を向上させる音声認識方法、装置、電子機器及び記憶媒体を提供する。【解決手段】音声認識方法は、取得されたターゲット音声情報に応答してターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するステップと、状態情報及びコンテキスト情報に基づいてターゲット音声情報の意味完全性を計算するステップと、意味完全性に対応するモニタリング期間を決定しモニタリング期間内に音声情報をモニタリングするステップと、モニタリング期間内に音声情報がモニタリングされなかった場合ターゲット音声情報に基づいて音声認識を行うステップと、を含む。【選択図】図１

Description

本願は、人工知能技術の分野における深層学習技術の分野及び音声技術の分野に関し、特に音声認識方法、装置、電子機器及び記憶媒体に関する。

人工知能技術の発展に伴い、スマートスピーカーやスマートロボットなどのスマートホーム製品も発展し、ユーザは音声情報の入力に基づいて関連製品の動作を制御でき、例えば、ユーザはスマートスピーカーに「音楽を開く」という音声を入力すると、スマートスピーカーは音楽アプリケーションをオープンするという操作を実行する。

関連技術では、完全な音声情報を取得するために、音声情報に対してエンドポイント検出を行い、すなわち取得された音声情報の一時停止期間（ミュート期間とも理解できる）を検出し、一時停止期間が一定値に達した後、完全な音声情報が取得されたと見なされるが、このように音声情報が完全であるか否かを決定する方式は、明らかに制限が厳しく、音声情報の取得が不完全になり、音声認識の精度が低い可能性がある。

本願は、多次元パラメータに基づいて、取得された音声情報の意味完全性を決定し、意味完全性に基づいて音声情報の検出期間を柔軟に調整し、音声情報の切断を回避し、音声認識の精度を向上させるための音声認識方法、装置、電子機器及び記憶媒体を提供する。

第１の態様によれば、音声認識方法を提供し、取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するステップと、前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するステップと、前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするステップと、前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うステップと、を含む。

第２の態様によれば、音声認識装置を提供し、取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するための取得モジュールと、前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するための計算モジュールと、前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするためのモニタリングモジュールと、前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うための音声認識モジュールと、を備える。

第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが上記の第１の態様に記載の音声認識方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の第１の態様に記載の音声認識方法を実行させる。

第５の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の第１の態様に記載の音声認識方法を実現する。
第６の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の第１の態様に記載の音声認識方法を実現する。

本願により提供される実施例は、少なくとも以下の有益な技術的効果を有する。
取得されたターゲット音声情報に応答して、ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得し、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算し、さらに、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングし、最後、モニタリング期間内に音声情報がモニタリングされなかった場合、ターゲット音声情報に基づいて音声認識を行う。これにより、多次元パラメータに基づいて、取得された音声情報の意味完全性を決定し、意味完全性に基づいて音声情報の検出期間を柔軟に調整し、音声情報の切断を回避し、音声認識の精度を向上させる。

なお、この部分に記載されている内容は、本開示の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明を通じて容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本願の第１の実施例に係る音声認識方法の概略フローチャートである。本願の第２の実施例に係る音声認識シーンの概略図である。本願の第３の実施例に係る音声認識シーンの概略図であり、「我想听」とは、日本語で「聞きたい」という意味である。本願の第４の実施例に係る音声認識シーンの概略図であり、「我想听」とは、日本語で「聞きたい」という意味であり、「稻香」とは、曲名で、日本語で「ダオシャン」という意味である。本願の第５の実施例に係る音声認識シーンの概略図であり、「播放」とは、日本語で「再生する」という意味であり、「稻香」とは、曲名で、日本語で「ダオシャン」という意味である。本願の第６の実施例に係る音声認識方法の概略フローチャートである。本願の第７の実施例に係る音声認識方法の概略フローチャートである。本願の第８の実施例に係る音声認識シーンの概略図である。本願の第９の実施例に係る音声認識方法の概略フローチャートである。本願の第１０の実施例に係る音声認識装置の構造ブロック図である。本願の第１１の実施例に係る音声認識装置の構造ブロック図である。本願の第１２の実施例に係る音声認識装置の構造ブロック図である。本願の実施例に係る音声認識方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本願の例示的な実施例を説明し、理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

既存の音声認識シーンでは、ミュート期間が一定値を超えているか否かに基づいて音声情報のエンドポイントを検出することで、音声情報の取得が不完全になるという背景技術に記載の技術的問題に対して、本願は、音声情報の完全性に基づいてミュート期間を柔軟に決定するという技術案を提供する。

以下は具体的な実施例と組み合わせて本願の実施例に係る音声認識方法、装置、電子機器及び記憶媒体を説明し、ここで、本願の実施例に係る音声認識方法の応用主体は、スマートスピーカー、スマートフォン、スマートロボットなど、音声認識機能を備える任意の電子機器であってもよい。

図１は、本願の一実施例に係る音声認識方法のフローチャートであり、図１に示すように、当該方法はステップ１０１～１０４を含む。

ステップ１０１において、取得されたターゲット音声情報に応答して、ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得する。

本実施例では、ターゲット音声情報が検出された後、当該ターゲット音声情報を判断するために、ターゲット音声に対応するアプリケーションの状態情報及びコンテキスト情報を取得する。

本実施例では、アプリケーションの状態情報は、現在実行されているアプリケーションの状態情報を含むが、これに限定されず、例えば、スマートスピーカーについて、アプリケーションの状態情報は音楽再生アプリケーションの現在の状態情報（一時停止、再生など）を含み、コンテキスト情報は前回又は複数回前に関連するスマート機器に送信された音声情報、前回又は複数回前に音声情報に対するスマート機器の応答情報、及び時間に基づいて決定された音声情報と応答情報との対応関係等を含むが、これらに限定されず、例えば、スマートスピーカーについて、コンテキスト情報は、前の音声情報である「再生してください」及び前回の音声情報に対する応答情報である「この歌を再生するか」などである。

実際に実行するプロセスにおいて、音声情報が検出された後、当該音声情報のミュート期間が一定値に達したと検出された場合、ターゲット音声情報が取得されたと見なされ、取得されたターゲット音声情報はユーザが音声情報の入力を一時停止する位置に対応することを確保するために、当該一定値は時間の短い経験値であってもよい。

ステップ１０２において、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算する。

理解しやすいことは、状態情報もコンテキスト情報も、音声が完全であるか否かを決定し、例えば、ターゲット音声情報が「再生する」である場合、状態情報が音楽の一時停止の状態である場合、当該ターゲット音声情報が完全な意味表現であるということは明らかであり、また例えば、コンテキスト情報が「この曲は醜すぎるため変えたい」である場合、ターゲット音声情報である「再生する」は、不完全な意味表現であると示される。

そのため、本実施例では、状態情報及びコンテキスト情報のような多次元情報と組み合わせて、ターゲット音声情報の意味完全性を計算する。

ステップ１０３において、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングする。

ここで、モニタリング期間は、音声情報のモニタリングを継続するための待機期間として理解されてもよく、ユーザが後続の音声情報を入力するのを待っているミュート期間として理解されてもよい。図２を参照し、ターゲット音声情報「シャットダウン」を取得すると、取得されたターゲット音声情報が不完全であることを回避するために、３００ｍｓ待ち続け、ここでの３００ｍｓはモニタリング期間として理解されてもよい。

本実施例では、意味完全性が高いほど、ターゲット音声情報の表現がほぼ完成していることを示し、このとき、応答速度を向上させるために、モニタリング期間を短くするか、さらにゼロにする必要があることは明らかであり、逆に、意味完全性が低いほど、ターゲット音声情報の表現が完成しないことを示し、このとき、取得された音声情報の完全性を確保するために、モニタリング期間を長くする必要があることは明らかであり、そのため、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングする。

なお、異なる応用シーンにおいて、前記意味完全性に対応するモニタリング期間を決定する方式が異なり、以下、例示的に説明する。

例１：
本例では、意味完全性とモニタリング期間との対応関係を予め設定することにより、予め設定された対応関係をクエリして、意味完全性に対応するモニタリング期間を取得する。

例２：
本例では、モニタリング期間の基準値に対応する基準意味完全性を予め設定し、当該モニタリング期間の基準値を予め設定されたデフォルトのモニタリング期間として理解することができ、現在のターゲット音声情報の意味完全性と基準意味完全性との差分値を計算し、当該差分値に基づいてモニタリング期間の調整値を決定し、ここで、意味差分値はモニタリング期間の調整値に反比例し、モニタリング期間の調整値とモニタリング期間の基準値との合計をモニタリング期間として計算する。

ステップ１０４において、モニタリング期間内に音声情報がモニタリングされなかった場合、ターゲット音声情報に基づいて音声認識を行う。

本実施例では、モニタリング期間内に音声情報がモニタリングされなかった場合、ユーザが入力を完了したことを示し、これにより、ターゲット音声情報に基づいて音声認識を行う。例えば、ターゲット音声情報をテキスト情報に変換し、テキスト情報のキーワードを抽出し、キーワードを予め設定された制御命令とマッチングし、マッチングに成功した制御命令に基づいて制御処理を行う。

本願の一実施例では、モニタリング期間内に音声情報がモニタリングされた場合、検出された音声情報及びターゲット音声情報を新たなターゲット音声情報とし、新たなターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得することにより、新たな音声情報の意味完全性等を継続的に判断し、ストリーミング判断を実現する。

これにより、本願の実施例では、ターゲット音声情報の意味完全性に適合し、対応するモニタリング期間を決定し、音声認識効率とターゲット音声情報の取得の完全性を両立させる。例を挙げて言うと、図３に示すように、中国語のターゲット音声情報が「我想听（聞きたい）」である場合、システムのデフォルトの３００ｍｓ後に取得が完了したと見なされる場合、「我想听」に基づいて対応する制御命令を認識できない可能性があり、本願の実施例に係る音声認識方法によれば、図４に示すように、ターゲット音声情報の完全性に基づいて、３００ｍｓ後に１．６Ｓを継続的にミュートしてから、中国語の音声情報「稻香（ダオシャン）」をモニタリングすると、完全な音声情報を取得することは明らかであり、ユーザに「稻香」という音楽を再生する操作を実行する。

当然のことながら、中国語のターゲット音声情報である「播放（再生する）」が取得された後のモニタリング期間内に、「稻香」がモニタリングされた後、状態情報及びコンテキストに基づいてその「播放稻香（ダオシャンを再生する）」の意味完全性を判断し続け、完全性が高くない場合、図５に示すように、「稻香」の後のモニタリング期間を決定し続け、ストリーミング判断を実現する。

要約すると、本願の実施例に係る音声認識方法は、取得されたターゲット音声情報に応答して、ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得し、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算し、さらに、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングし、最後、モニタリング期間内に音声情報がモニタリングされなかった場合、ターゲット音声情報に基づいて音声認識を行う。これにより、多次元パラメータに基づいて、取得された音声情報の意味完全性を決定し、意味完全性に基づいて音声情報の検出期間を柔軟に調整し、音声情報の切断を回避し、音声認識の精度を向上させる。

上記の実施例に基づいて、異なる応用シーンにおいて、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算する方式は異なり、以下、例示的に説明する。

例１：
本例では、図６に示すように、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算するステップは、ステップ６０１～６０４を含む。

ステップ６０１において、状態情報に対応する少なくとも１つの候補状態情報を決定し、ここで、各候補状態情報は状態情報の次の候補動作の状態情報である。

理解しやすいように、各状態情報はアプリケーションの実行ロジックに基づいて、それに対応する次の候補動作の状態情報も決定でき、例えば、アプリケーションの状態情報がオフである場合、次の実行可能な候補動作の状態情報は必ずオンであり、また例えば、アプリケーションの状態が「音楽を再生する」である場合、次の実行可能な候補動作の状態情報は「一時停止する」、「もう一度再生する」、「サウンドアップする」、「早送りする」などである。

そのため、本実施例では、状態情報に対応するアプリケーションの実行ロジックに基づいて、状態情報に対応する少なくとも１つの候補状態情報を決定し、ここで、各候補状態情報は状態情報の次の候補動作の状態情報である。ここで、実行ロジックは予め標定されてもよく、当該実行ロジックは、動作と動作との間の状態情報に対応するノード順序等を含むことができる。

ステップ６０２において、各候補状態情報が実行可能な少なくとも１つの第１の制御命令情報を取得し、ターゲット音声情報と各第１の制御命令情報との第１の意味類似度を計算する。

本実施例では、各候補状態情報が実行可能な少なくとも１つの第１の制御命令を取得し、当該第１の制御命令は予め設定された対応関係をクエリすることによって取得することができ、当該予め設定された対応関係には候補状態情報と第１の制御命令との対応関係が含まれる。例を挙げて言うと、候補状態情報が「音楽を再生する」である場合、対応する第１の制御命令は「音楽を再生する」を含むことができ、状態情報が「一時停止する」である場合、対応する第１の制御命令は「一時停止する」、「停止する」、「しばらく静かにする」などを含むことができる。

さらに、ターゲット音声情報が第１の制御命令の１つに属しているか否かを決定するように、ターゲット音声情報と各第１の制御命令との第１の意味類似度を計算する。

ステップ６０３において、コンテキスト情報に対応する少なくとも１つの第２の制御命令情報を決定し、ターゲット音声情報と各第２の制御命令情報との第２の意味類似度を計算する。

ここで、上記の第２の制御命令情報はコンテキスト情報に対応し、コンテキスト情報にはスマートスピーカーからフィードバックされた「音楽を再生するか」という応答メッセージを含む場合、対応する第２の制御命令は「再生する」、「いいえ」などである。

いくつかの可能な例では、大量のサンプルデータに基づいてトレーニングして学習して深層学習モデルを予め取得でき、当該深層学習モデルの入力はコンテキスト情報であり、出力は第２の制御命令であり、それにより、当該深層学習モデルに基づいて対応する第２の制御命令情報を取得することができる。

当然のことながら、第１の意味類似度のみに基づいてターゲット音声情報の意味完全性を決定することは明らかに信頼できず、したがって、本実施例では、さらにコンテキスト情報に対応する少なくとも１つの第２の制御命令情報を決定し、ターゲット音声情報と各第２の制御命令情報との第２の意味類似度を計算する。

ステップ６０４において、第１の意味類似度及び第２の意味類似度に基づいて、ターゲット音声情報の意味完全性を計算する。

本実施例では、第１の意味類似度及び第２の意味類似度に基づいて、ターゲット音声情報の意味完全性を計算する。

いくつかの可能な例では、第１の意味類似度が第１の閾値より大きいターゲット第１の制御命令情報を取得し、第２の意味類似度が第２の閾値より大きいターゲット第２の制御命令情報を取得し、ターゲット第１の制御命令情報とターゲット第２の制御命令情報との意味類似度を計算して、意味完全性を取得し、すなわち、ターゲット第１の制御命令情報とターゲット第２の制御命令情報との意味類似度を、直接ターゲット音声情報の意味完全性とする。

本例では、第１の制御命令情報が取得されず、第２の制御情報が取得された場合、第１の閾値と第１の意味類似度との第１の差分値を計算し、第１の差分値と第１の閾値との第１の比率を計算し、第２の意味類似度と第１の比率との第１の積値を取得して、意味完全性を取得し、すなわち、本例では、第１の意味類似度と第１の閾値との差により、第２の意味類似度を弱めることで、候補状態情報の第１の制御命令に属しているが、コンテキスト情報に適合しないという誤判断を回避する。

本例では、第２の制御命令情報が取得されず、第１の制御情報が取得された場合、第２の閾値と第２の意味類似度との第２の差分値を計算し、第２の差分値と第２の閾値との第２の比率を計算し、第１の意味類似度と第２の比率との第２の積値を取得して、意味完全性を取得する。すなわち、本例では、第２の意味類似度と第２の閾値との差により、第１の意味類似度を弱めることで、コンテキスト情報に適合するが、候補状態情報の第１の制御命令に属していないという誤判断を回避する。

本例では、第２の制御命令情報が取得されず、第１の制御情報も取得されなかった場合、第１の意味類似度と第２の意味類似度との第３の差分値を計算し、第３の差分値の絶対値を計算して、意味完全性を取得する。このとき、第３の差分値は通常、低い値であり、このときのターゲット音声情報の意味が完全ではないことを示す。

本例では、第１の意味類似度及び第２の意味類似度はいずれも比較的高いことは、ターゲット意味情報が完全な意味表現である可能性が高いことを示す。第１の意味類似度が高いが、第２の意味類似度が高くなく、或いは、第２の意味類似度が高いが、第１の意味類似度が高くない場合、意味表現が完全ではない可能性があることを示す。そのため、第１の意味類似度と第２の意味類似度を組み合わせて意味完全性を共に決定することにより、決定の信頼性を確保する。

例２：
本例では、図７に示すように、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算するステップは、ステップ７０１～７０４を含む。

ステップ７０１において、状態情報の第１の特性値を取得する。

ステップ７０２において、コンテキスト情報の第２の特性値を取得する。

ステップ７０３において、ターゲット音声情報の第３の特性値を取得する。

ステップ７０４において、第１の特性値、第２の特性値及び第３の特性値を予め設定された深層学習モデルに入力して、意味完全性を取得する。

ここで、予め設定された深層学習モデルは、第１の特性値、第２の特性値及び第３の特性値と、意味完全性との対応関係を予め学習する。

当該予め設定された深層学習モデルは、ＤＮＮモデル、ＬＳＴＭモデルなどを含むが、これらに限定されず、いくつかの例では、第１の特性値、第２の特性値及び第３の特性値を予め設定された深層学習モデルに入力する前に、第１の特性値、第２の特性値及び第３の特性値を予め設定された深層学習モデルに入力して正規化処理を行い、正規化された値を予め設定された深層学習モデルに入力することができる。

当然のことながら、いくつかの可能な例では、さらにターゲット音声情報の自体の意味完全性を抽出することができ、自体の意味完全性は品詞分析などに基づいて取得することができ、図８に示すように、自体の意味完全性を第１の特性値、第２の特性値及び第３の特性値と共に対応する深層学習モデルに入力する。

本願の一実施例では、ユーザは発話速度が比較的遅い子供、又はそれ自体が言語の壁がある人、又はスマート機器に慣れていない新たなユーザの場合、情報の表現が遅くなる可能性があることを考慮する。ユーザが新規登録ユーザで子供である場合、履歴行動に基づいてユーザが機器の使用に熟練しないことを分析し、且つ履歴行動には多くの躊躇の表現があり、機器が再生するか一時停止するかを問われる状態ではなく、この時、ユーザの中間結果が「再生する」と表示されていることが検出され、表現が不完全である可能性が非常に高いであり、このとき、ミュート期間を延長し、話し終わるまでユーザを待ち続ける必要がある。

そのため、本実施例では、さらにユーザ画像情報と組み合わせて意味完全性を決定してもよく、ここで、ユーザ画像情報はユーザの年齢、ユーザの身元、ユーザの登録期間などを含む。

本例では、図９に示すように、意味完全性に対応するモニタリング期間を決定するステップの前に、ステップ９０１～９０５をさらに含む。

ステップ９０１において、ターゲット音声情報の声紋特性情報を抽出する。

ここで、声紋特性情報を抽出する操作は従来技術に基づいて実現することができ、ここでは説明を省略する。ここで、声紋特性情報は音色、オーディオなどを含むことができる。

ステップ９０２において、声紋特性情報に基づいてユーザ画像情報を決定する。

本実施例では、ユーザ画像情報と声紋特性情報との対応関係を予め記憶しておき、当該対応関係に基づいて声紋特性情報に対応するユーザ画像情報を決定する。

ステップ９０３において、ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断する。

本実施例では、ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断し、ここで、予め設定されたユーザ画像情報は、意味表現で躊躇したりゆっくり話したりする可能性のあるユーザなどである。

ステップ９０４において、予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定する。

本実施例では、予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定する。

ここで、深層学習モデル予めトレーニングするか、又は対応関係の方式により、ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定することができる。

ステップ９０５において、検出期間と調整期間との合計を計算し、合計に基づいてモニタリング期間を更新する。

本実施例では、検出期間と調整期間との合計を計算し、合計に基づいてモニタリング期間を更新し、ここで、検出期間は正値であっても負値であってもよい。

本願の一実施例では、ターゲット音声情報自体の意味に基づいてそれが完全な意味表現であることを検出すると、状態情報及びコンテキスト情報に基づいてターゲット音声情報の意味完全性を計算せずに、モニタリングプロセスを直接傍受する可能性がある。

したがって、本願の一実施例では、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算するステップの前に、ターゲット音声情報が状態情報及びコンテキスト情報に対応する予め設定された完全な意味情報に属しているか否かを判断し、属している場合、ターゲット音声情報を直接認識対象の音声情報とするステップをさらに含む。

要約すると、本願の実施例に係る音声認識方法は、シーンの違いに応じて、異なる方式を柔軟に採用して状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算することにより、音声認識の精度を向上させることに役立つ。

本願の実施例によれば、本願は、音声認識装置をさらに提供する。図１０は、本願の一実施例に係る音声認識装置の概略構成図であり、図１０に示すように、当該音声認識装置は、取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するための取得モジュール１０１０と、前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するための計算モジュール１０２０と、前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするためのモニタリングモジュール１０３０と、前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うための音声認識モジュール１０４０と、を備える。

本願の一実施例では、モニタリングモジュール１０３０は、具体的には、予め設定された対応関係をクエリし、前記意味完全性に対応するモニタリング期間を取得する。

なお、音声認識方法に対する上記の説明は、本願の実施例に係る音声認識装置にも適用し、その実現原理は類似し、ここでは説明を省略する。

要約すると、本願の実施例に係る音声認識装置は、取得されたターゲット音声情報に応答して、ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得し、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算し、さらに、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングし、最後、モニタリング期間内に音声情報がモニタリングされなかった場合、ターゲット音声情報に基づいて音声認識を行う。これにより、多次元パラメータに基づいて、取得された音声情報の意味完全性を決定し、意味完全性に基づいて音声情報の検出期間を柔軟に調整し、音声情報の切断を回避し、音声認識の精度を向上させる。

本願の一実施例では、図１１に示すように、音声認識装置は、取得モジュール１１１０、計算モジュール１１２０、モニタリングモジュール１１３０及び音声認識モジュール１１４０を備え、ここで、取得モジュール１１１０、計算モジュール１１２０、モニタリングモジュール１１３０及び音声認識モジュール１１４０は図１０における取得モジュール１０１０、計算モジュール１０２０、モニタリングモジュール１０３０及び音声認識モジュール１０４０と同様であり、ここでは説明を省略し、計算モジュール１１２０は、状態情報に対応する少なくとも１つの候補状態情報を決定するための決定ユニット１１２１であって、ここで、各候補状態情報は状態情報の次の候補動作の状態情報である決定ユニット１１２１と、各候補状態情報が実行可能な少なくとも１つの第１の制御命令情報を取得し、ターゲット音声情報と各第１の制御命令情報との第１の意味類似度を計算するための第１の計算ユニット１１２２と、コンテキスト情報に対応する少なくとも１つの第２の制御命令情報を決定し、ターゲット音声情報と各第２の制御命令情報との第２の意味類似度を計算するための第２の計算ユニット１１２３と、第１の意味類似度及び第２の意味類似度に基づいて、ターゲット音声情報の意味完全性を計算するための第３の計算ユニット１１２４と、を備える。

本実施例では、第３の計算ユニット１１２４は、具体的には、前記第１の意味類似度が第１の閾値より大きいターゲット第１の制御命令情報を取得し、前記第２の意味類似度が第２の閾値より大きいターゲット第２の制御命令情報を取得し、前記ターゲット第１の制御命令情報と前記ターゲット第２の制御命令情報との意味類似度を計算して、前記意味完全性を取得する。

本実施例では、第３の計算ユニット１１２４は、具体的には、前記第１の制御命令情報が取得されず、前記第２の制御情報が取得された場合、前記第１の閾値と前記第１の意味類似度との第１の差分値を計算し、前記第１の差分値と前記第１の閾値との第１の比率を計算し、前記第２の意味類似度と前記第１の比率との第１の積値を取得して、前記意味完全性を取得する。

本実施例では、第３の計算ユニット１１２４は、具体的には、前記第２の制御命令情報が取得されず、前記第１の制御情報が取得された場合、前記第２の閾値と前記第２の意味類似度との第２の差分値を計算し、前記第２の差分値と前記第２の閾値との第２の比率を計算し、前記第１の意味類似度と前記第２の比率との第２の積値を取得して、前記意味完全性を取得する。

本実施例では、第３の計算ユニット１１２４は、具体的には、前記第２の制御命令情報が取得されず、前記第１の制御情報も取得されなかった場合、前記第１の意味類似度と前記第２の意味類似度との第３の差分値を計算し、前記第３の差分値の絶対値を計算して、前記意味完全性を取得する。

本願の一実施例では、計算モジュール１１２０は、具体的には、前記状態情報の第１の特性値を取得し、前記コンテキスト情報の第２の特性値を取得し、前記ターゲット音声情報の第３の特性値を取得し、前記第１の特性値、前記第２の特性値及び前記第３の特性値を予め設定された深層学習モデルに入力して、前記意味完全性を取得し、ここで、前記予め設定された深層学習モデルは、前記第１の特性値、前記第２の特性値及び前記第３の特性値と、前記意味完全性との対応関係を予め学習する。

本願の一実施例では、図１２に示すように、音声認識装置は、取得モジュール１２１０、計算モジュール１２２０、モニタリングモジュール１２３０、音声認識モジュール１２４０、抽出モジュール１２５０、第１の決定モジュール１２６０、判断モジュール１２７０、第２の決定モジュール１２８０及び更新モジュール１２９０を備え、ここで、取得モジュール１２１０、計算モジュール１２２０、モニタリングモジュール１２３０及び音声認識モジュール１２４０は、図１０における取得モジュール１０１０、計算モジュール１０２０、モニタリングモジュール１０３０及び音声認識モジュール１０４０と同様であり、ここでは説明を省略し、ここで、抽出モジュール１２５０は、前記ターゲット音声情報の声紋特性情報を抽出し、第１の決定モジュール１２６０は、前記声紋特性情報に基づいてユーザ画像情報を決定し、判断モジュール１２７０は、前記ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断し、第２の決定モジュール１２８０は、前記予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、前記ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定し、更新モジュール１２９０は、前記検出期間と前記調整期間との合計を計算し、前記合計に基づいて前記モニタリング期間を更新する。

なお、音声認識方法に対する上記の説明は、本願の実施例の音声認識装置にも適用し、その実現原理は類似し、ここでは説明を省略する。

要約すると、本願の実施例に係る音声認識装置は、シーンの違いに応じて、異なる方式を柔軟に採用して状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算することにより、音声認識の精度を向上させることに役立つ。

本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本願の実施例によれば、本願は、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本願によって提供される音声認識方法を実現する。

図１３に示すように、それは本願の実施例に係る音声認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本願の実現を制限することを意図したものではない。

図１３に示すように、当該電子機器は、１つ又は複数のプロセッサ１３０１と、メモリ１３０２と、高速インタフェース及び低速インタフェースを備える各コンポーネントを接続するためのインタフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力／出力装置（例えば、インタフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと一緒に用いることができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作（例えば、サーバアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図１３では、１つのプロセッサ１３０１を例とする。

メモリ１３０２は、本願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも１つのプロセッサが本願により提供される音声認識方法を実行するように、少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本願により提供される音声認識方法を実行させるためのコンピュータ命令が記憶されている。

メモリ１３０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本願の実施例における音声認識方法に対応するプログラム命令／モジュールのような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ１３０１は、メモリ１３０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における音声認識方法を実現する。

メモリ１３０２は、プログラムストレージエリアとデータストレージエリアと、を含むことができ、ここで、プログラムストレージエリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、音声認識方法に係る電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ１３０２は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ１３０２は、プロセッサ１３０１に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して音声認識方法に係る電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

音声認識方法に係る電子機器は、入力装置１３０３と出力装置１３０４とをさらに備えることができる。プロセッサ１３０１、メモリ１３０２、入力装置１３０３、及び出力装置１３０４は、バス又は他の方式を介して接続することができ、図１３では、バスを介して接続することを例とする。

入力装置１３０３は、入力された数字又は文字情報を受信し、音声認識方法に係る電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置１３０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを備えることができる。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態で、表示機器は、タッチスクリーンであってもよい。

ここで説明したシステム及び技術の実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせによって実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、すなわち、本願はさらに、コンピュータプログラムを提供し、当該コンピュータプログラムは、プロセッサによって実行されるとき、上記の実施例に記載の音声認識方法を実現し、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び／又は対象指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティング装置（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティング装置によって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションを行う）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアント及びサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションを行う。対応するコンピュータ上で実行され、且つ互いにクライアント－サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであり、クラウド計算サーバ又はクラウドホストとも呼ばれ、クラウド計算サーバシステムにおけるホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）において、管理の難易度が大きく、業務拡張性が弱いという欠点を解決する。サーバは分散システムのサーバであってもよく、又は、ブロックリンクを結合したサーバであってもよい。

上記に示される様々な形態のフローを用い、ステップを並べ替え、追加、又は削除することができる。例えば、本願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims

取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するステップと、
前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するステップと、
前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするステップと、
前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うステップと、
を含む音声認識方法。
前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するステップが、
前記状態情報に対応する少なくとも１つの候補状態情報を決定するステップであって、各前記候補状態情報は前記状態情報の次の候補動作の状態情報であるステップと、
各前記候補状態情報が実行可能な少なくとも１つの第１の制御命令情報を取得し、前記ターゲット音声情報と各前記第１の制御命令情報との第１の意味類似度を計算するステップと、
前記コンテキスト情報に対応する少なくとも１つの第２の制御命令情報を決定し、前記ターゲット音声情報と各前記第２の制御命令情報との第２の意味類似度を計算するステップと、
前記第１の意味類似度及び前記第２の意味類似度に基づいて、前記ターゲット音声情報の意味完全性を計算するステップと、
を含む請求項１に記載の方法。
前記第１の意味類似度及び前記第２の意味類似度に基づいて、前記ターゲット音声情報の意味完全性を計算するステップが、
前記第１の意味類似度が第１の閾値より大きいターゲット第１の制御命令情報を取得するステップと、
前記第２の意味類似度が第２の閾値より大きいターゲット第２の制御命令情報を取得するステップと、
前記ターゲット第１の制御命令情報と前記ターゲット第２の制御命令情報との意味類似度を計算して、前記意味完全性を取得するステップと、
を含む請求項２に記載の方法。
前記第１の制御命令情報が取得されず、前記第２の制御情報が取得された場合、前記第１の閾値と前記第１の意味類似度との第１の差分値を計算するステップと、
前記第１の差分値と前記第１の閾値との第１の比率を計算するステップと、
前記第２の意味類似度と前記第１の比率との第１の積値を取得して、前記意味完全性を取得するステップと、
を含む請求項３に記載の方法。
前記第２の制御命令情報が取得されず、前記第１の制御情報が取得された場合、前記第２の閾値と前記第２の意味類似度との第２の差分値を計算するステップと、
前記第２の差分値と前記第２の閾値との第２の比率を計算するステップと、
前記第１の意味類似度と前記第２の比率との第２の積値を取得して、前記意味完全性を取得するステップと、
を含む請求項３に記載の方法。
前記第２の制御命令情報が取得されず、前記第１の制御情報も取得されなかった場合、前記第１の意味類似度と前記第２の意味類似度との第３の差分値を計算するステップと、
前記第３の差分値の絶対値を計算して、前記意味完全性を取得するステップと、
を含む請求項３に記載の方法。
前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するステップが、
前記状態情報の第１の特性値を取得するステップと、
前記コンテキスト情報の第２の特性値を取得するステップと、
前記ターゲット音声情報の第３の特性値を取得するステップと、
前記第１の特性値、前記第２の特性値及び前記第３の特性値を予め設定された深層学習モデルに入力して、前記意味完全性を取得するステップと、
を含み、
前記予め設定された深層学習モデルが、前記第１の特性値、前記第２の特性値及び前記第３の特性値と、前記意味完全性との対応関係を予め学習する請求項１に記載の方法。
前記意味完全性に対応するモニタリング期間を決定するステップの前に、
前記ターゲット音声情報の声紋特性情報を抽出するステップと、
前記声紋特性情報に基づいてユーザ画像情報を決定するステップと、
前記ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断するステップと、
前記予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、前記ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定するステップと、
前記検出期間と前記調整期間との合計を計算し、前記合計に基づいて前記モニタリング期間を更新するステップと、
を含む請求項１に記載の方法。
前記意味完全性に対応するモニタリング期間を決定するステップが、
予め設定された対応関係をクエリして、前記意味完全性に対応するモニタリング期間を取得するステップを含む請求項１に記載の方法。
取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するための取得モジュールと、
前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するための計算モジュールと、
前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするためのモニタリングモジュールと、
前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うための音声認識モジュールと、
を備える音声認識装置。
前記計算モジュールが、
前記状態情報に対応する少なくとも１つの候補状態情報を決定するための決定ユニットであって、各前記候補状態情報は前記状態情報の次の候補動作の状態情報である決定ユニットと、
各前記候補状態情報が実行可能な少なくとも１つの第１の制御命令情報を取得し、前記ターゲット音声情報と各前記第１の制御命令情報との第１の意味類似度を計算するための第１の計算ユニットと、
前記コンテキスト情報に対応する少なくとも１つの第２の制御命令情報を決定し、前記ターゲット音声情報と各前記第２の制御命令情報との第２の意味類似度を計算するための第２の計算ユニットと、
前記第１の意味類似度及び前記第２の意味類似度に基づいて、前記ターゲット音声情報の意味完全性を計算するための第３の計算ユニットと、
を備える請求項１０に記載の装置。
前記第３の計算ユニットが、
前記第１の意味類似度が第１の閾値より大きいターゲット第１の制御命令情報を取得し、
前記第２の意味類似度が第２の閾値より大きいターゲット第２の制御命令情報を取得し、
前記ターゲット第１の制御命令情報と前記ターゲット第２の制御命令情報との意味類似度を計算して、前記意味完全性を取得する請求項１１に記載の装置。
前記第３の計算ユニットが、
前記第１の制御命令情報が取得されず、前記第２の制御情報が取得された場合、前記第１の閾値と前記第１の意味類似度との第１の差分値を計算し、
前記第１の差分値と前記第１の閾値との第１の比率を計算し、
前記第２の意味類似度と前記第１の比率との第１の積値を取得して、前記意味完全性を取得する請求項１１に記載の装置。
前記第３の計算ユニットが、
前記第２の制御命令情報が取得されず、前記第１の制御情報が取得された場合、前記第２の閾値と前記第２の意味類似度との第２の差分値を計算し、
前記第２の差分値と前記第２の閾値との第２の比率を計算し、
前記第１の意味類似度と前記第２の比率との第２の積値を取得して、前記意味完全性を取得する請求項１１に記載の装置。
前記第３の計算ユニットが、
前記第２の制御命令情報が取得されず、前記第１の制御情報も取得されなかった場合、前記第１の意味類似度と前記第２の意味類似度との第３の差分値を計算し、
前記第３の差分値の絶対値を計算して、前記意味完全性を取得する請求項１１に記載の装置。
前記計算モジュールが、
前記状態情報の第１の特性値を取得し、
前記コンテキスト情報の第２の特性値を取得し、
前記ターゲット音声情報の第３の特性値を取得し、
前記第１の特性値、前記第２の特性値及び前記第３の特性値を予め設定された深層学習モデルに入力して、前記意味完全性を取得し、
前記予め設定された深層学習モデルは、前記第１の特性値、前記第２の特性値及び前記第３の特性値と、前記意味完全性との対応関係を予め学習する請求項１０に記載の装置。
前記ターゲット音声情報の声紋特性情報を抽出するための抽出モジュールと、
前記声紋特性情報に基づいてユーザ画像情報を決定するための第１の決定モジュールと、
前記ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断するための判断モジュールと、
前記予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、前記ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定するための第２の決定モジュールと、
前記検出期間と前記調整期間との合計を計算し、前記合計に基づいて前記モニタリング期間を更新するための更新モジュールと、
を備える請求項１０に記載の装置。
前記モニタリングモジュールが、
予め設定された対応関係をクエリして、前記意味完全性に対応するモニタリング期間を取得する請求項１０に記載の装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサに通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶され、前記命令が、前記少なくとも１つのプロセッサが請求項１から９のいずれか一項に記載の音声認識方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１から９のいずれか一項に記載の音声認識方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１から９のいずれか一項に記載の音声認識方法を実現するコンピュータプログラム製品。
プロセッサによって実行される場合、請求項１から９のいずれか一項に記載の音声認識方法を実現するコンピュータプログラム。