JP2019139211A

JP2019139211A - 音声ウェイクアップ方法及び装置

Info

Publication number: JP2019139211A
Application number: JP2018230515A
Authority: JP
Inventors: リー、チュン; Jun Li; ヤン、ルイ; Rui Yang; チャオ、リーフォン; Lifeng Zhao; チェン、シアオチエン; Xiaojian Chen; ツァオ、ユイシュー; Yushu Cao
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-02-09
Filing date: 2018-12-10
Publication date: 2019-08-22
Anticipated expiration: 2038-12-10
Also published as: US11322138B2; JP6828001B2; US20190251963A1; CN108335696A

Abstract

【課題】音声情報の二次検証を実現し、スマートデバイスが誤ってウェイクアップされる確率を低減させる音声ウェイクアップ方法及び装置を提供する。【解決手段】音声ウェイクアップ方法は、ユーザの音声情報を受信するステップと、音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップと、ウェイクアップ信頼度に基づいて音声情報が擬似ウェイクアップ音声情報であるか否かを確定するステップと、音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、音声情報に対して二次判断を行って二次判断結果を取得し、二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップとを含む。【選択図】図２

Description

本願の実施形態は、コンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特に音声ウェイクアップ方法及び装置に関する。

人工知能技術の発展及び音声技術の発達に従って、対話型を中心とするヒューマノイド対話インタラクションは、新たなインタラクションの革新になり、且つ製品化を逐次に実現した。例えば、スマートロボット、スマートサウンドボックス、スマートテレビ、スマート冷蔵庫などのようなスマートデバイスは、人間の両手をタッチインタラクションから解放することができる。

幾つかのシナリオにおいて、ユーザはウェイクアップ音声を利用してスマートデバイスをウェイクアップすることができる。そして、スマートデバイスは、ユーザの音声指令に対して応答することができる。

本願の実施形態は、音声ウェイクアップ方法及び装置を提供する。

第一の側面として、本願の実施形態は、ユーザの音声情報を受信するステップと、前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップと、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定するステップと、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップと、を含む音声ウェイクアップ方法を提供する。

一部の実施形態において、記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップは、予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得するステップを含む。

一部の実施形態において、前記認識モデルはニューラルネットワークモデルであり、前記ニューラルネットワークモデルは、サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得するステップと、前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することであって、前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示す、ことと、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含むトレーニングステップと、を実行する、という方式でトレーニングされる。

一部の実施形態において、前記ニューラルネットワークモデルをトレーニングするステップは、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する、ステップを更に含む。

一部の実施形態において、前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識が含まれる。

一部の実施形態において、前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップは、前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成するステップと、前記二次判断結果を受信するステップと、前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行するステップと、を含む。

第二の側面として、本願の実施形態は、端末から送信された擬似ウェイクアップ音声情報を受信するステップと、前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得するステップと、前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするステップと、マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、ステップと、を含む音声ウェイクアップ方法を更に提供する。

一部の実施形態において、前記マッチング結果に基づいて前記端末へ二次判断結果を送信するステップは、前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信するステップと、前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信するステップとを含む。

第三の側面として、本願の実施形態は、ユーザの音声情報を受信する受信ユニットと、前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得する生成ユニットと、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定する第一確定ユニットと、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する第二確定ユニットと、を備える音声ウェイクアップ装置を提供する。

一部の実施形態において、前記生成ユニットは更に、予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得する。

一部の実施形態において、前記認識モデルはニューラルネットワークモデルであり、前記装置は、モデルトレーニングユニットを更に備え、前記モデルトレーニングユニットは、サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得する取得ユニットと、トレーニングステップを実行する実行ユニットと、を備え、前記トレーニングステップが、前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することであって、前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示す、ことと、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含む。

一部の実施形態において、前記モデルトレーニングユニットは、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する調整ユニットを更に備える。

一部の実施形態において、前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識とが含まれる。

一部の実施形態において、前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、前記第二確定ユニットは更に、前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成し、前記二次判断結果を受信し、前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行する。

第四の側面として、本願の実施形態は、端末から送信された擬似ウェイクアップ音声情報を受信する情報受信ユニットと、前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する認識ユニットと、前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするマッチングユニットと、マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する情報送信ユニットであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、情報送信ユニットと、を備える音声ウェイクアップ装置を提供する。

一部の実施形態において、前記情報送信ユニットは更に、前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信する。

第五の側面として、本願の実施形態は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されている記憶装置と、を備え、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに第一の側面の何れか一つの実現形態に記載の方法を実現させる端末を提供する。

第六の側面として、本願の実施形態は、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、第一の側面の何れか一つの実現形態に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。

第七の側面として、本願の実施形態は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されている記憶装置と、を備え、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに第二の側面の何れか一つの実現形態に記載の方法を実現させるサーバを提供する。

第八の側面として、本願の実施形態は、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、第二の側面の何れか一つの実現形態に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。

本願の実施形態により提供される音声ウェイクアップ方法及び装置は、まず、受信されたユーザの音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得し、その後、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定し、そして前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、及び前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する。これにより、音声情報の二次検証を実現し、スマートデバイスが誤ってウェイクアップされる確率を低減させることができる。

以下の図面による非限定的な実施例についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
本願を適用可能な例示的なシステムアーキテクチャ図である。本願の音声ウェイクアップ方法による一つの実施例のフローチャートである。本願の音声ウェイクアップ方法による一つの応用シナリオの模式図である。本願の音声ウェイクアップ方法による他の実施例のフローチャートである。本願の音声ウェイクアップ装置による一つの実施例の構成の模式図である。本願の音声ウェイクアップ装置による他の実施例の構成の模式図である。本願の実施例の端末デバイスを実現可能なコンピュータシステムの構成の模式図である。

以下、図面と実施例を参照しながら、本願を詳しく説明する。ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。

なお、矛盾が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施例を併せて本願を詳しく説明する。

図１は、本願を適用可能な音声ウェイクアップ方法又は音声ウェイクアップ装置の実施例の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末デバイス１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を備えても良い。ネットワーク１０４は、端末デバイス１０１、１０２、１０３とサーバ１０５との間に通信リンクの媒体を提供するためである。ネットワーク１０４には、例えば有線、無線通信リンク又はファイバケーブルなどの各種の接続タイプが含まれても良い。

ユーザは、端末デバイス１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５とインタラクションしてメッセージなどを送受信することができる。端末デバイス１０１、１０２、１０３には、例えば、ウェブページブラウザアプリ、買物型アプリ、検索型アプリ、即時通信ツール、メールボックスエンド、交際型プラットフォームソフトウェアなどの各種のクライアントアプリがインストールされても良い。

端末デバイス１０１、１０２、１０３は、音声情報を受信可能な各種の電子デバイスであっても良く、スマートフォーン、スマートウォッチ、スマートロボット、スマートサウンドボックス、スマートテレビ、スマート冷蔵庫などを含むが、それらに限定されない。

サーバ１０５は、例えば端末デバイス１０１、１０２、１０３から送信される情報を処理するバックグラウンドサーバのような、各種のサービスを提供するサーバであっても良い。バックグラウンドサーバは、端末デバイス１０１、１０２、１０３から送信される音声情報に対して二次判断を行い、二次判断結果を端末デバイスにフィードバックすることができる。

説明すべきなのは、本願の図２に対応する実施例により提供される音声ウェイクアップ方法は、一般的に端末デバイス１０１、１０２、１０３により実行される。それに応じて、図５に対応する音声ウェイクアップ装置は、一般的に端末デバイス１０１、１０２、１０３に設置される。図４に対応する実施例により提供される音声ウェイクアップ方法は、一般的にサーバ１０５により実行される。それに応じて、図６に対応する音声ウェイクアップ装置は、一般的にサーバ１０５に設置される。

理解すべきなのは、図１における端末デバイス、ネットワーク及びサーバの数は例示的なものに過ぎない。実現の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを備えても良い。

続いて図２を参照する。図２は、本願の音声ウェイクアップ方法による一つの実施例の手順２００を示す。当該音声ウェイクアップ方法は、以下のステップを含む。

ステップ２０１において、ユーザの音声情報を受信する。

本実施例において、音声ウェイクアップ方法が運行される電子デバイス（例えば、図１に示された端末デバイス１０１、１０２、１０３）は、ユーザから送信される音声情報を受信することができる。例示として、前記電子デバイスは、作動状態にある時に、周囲の声をリアルタイムにモニターすることにより、ユーザの音声情報を受信することができる。

ステップ２０２において、音声情報に基づいて音声情報に対応するウェイクアップ信頼度を取得する。

本実施例において、前記電子デバイスは、各種の方式で、ステップ２０１において受信された音声情報に基づいて、当該音声情報に対応するウェイクアップ信頼度を取得することができる。なお、ウェイクアップ信頼度は、前記音声情報が前記電子デバイスをウェイクアップするためのウェイクアップ音声である確率を示すことができる。例示として、前記電子デバイスは、まず前記音声情報の特徴を抽出し、その後に前記音声情報の特徴と予め設定された標準ウェイクアップ音声情報の特徴とを照合し、最後に照合結果に基づいて前記音声情報のウェイクアップ信頼度を取得することができる。

本実施例の複数のオプションとなる実施形態において、前記ステップ２０１は、具体的に、前記電子デバイスがステップ２０１において受信された音声情報を予め構築された認識モデルに入力して、前記音声情報に対するウェイクアップ信頼度を取得可能であることを含んでも良い。ここで、前記認識モデルは、音声情報とウェイクアップ信頼度の対応関係を示すことができる。例示として、前記認識モデルは、まず前記音声情報における特徴情報を抽出して特徴ベクトルを取得し、その後に予め構築された特徴ベクトルとウェイクアップ信頼度の対応関係テーブルに基づいて、前記音声情報に対するウェイクアップ信頼度を取得することができる。説明すべきなのは、前記特徴ベクトルとウェイクアップ信頼度の対応関係テーブルは、技術者により大量の特徴ベクトルとウェイクアップ信頼度の統計で予め作成され、複数の特徴ベクトルとウェイクアップ信頼度の対応関係が記憶されている対応関係テーブルであっても良い。また、音声情報における特徴情報を抽出して特徴ベクトルを取得することは、現在によく研究し応用されている周知技術であるため、ここでは詳しく説明しない。

複数のオプションとなる実施形態において、前記認識モデルはニューラルネットワークモデルであっても良い。ここで、前記ニューラルネットワークモデルは、人工ニューラルネットワークであっても良い。人工ニューラルネットワークは、情報処理の観点から大脳ニューロンを抽象化して簡単なモデルを構築し、異なる接続手段で異なるグリッドを組み合わせる。一般的には、大量のノード（ニューロンとも呼ばれる）同士を互いに連結して構成され、各ノードが一つの特定の出力関数を示し、励起関数と呼ばれる。二つずつのノードの間の接続は、重み（パラメータとも言う）と呼ばれる、当該接続を通す信号に対する加重値を示す。ネットワークの出力は、ネットワークの接続方式、加重値及び励起関数の違いによって異なる。前記ニューラルネットワークモデルは、前記電子デバイス、又は前記ニューラルネットワークモデルをトレーニングするための他の電子デバイスにより、以下の方式でトレーニングされたものであっても良い。

まず、サンプルのセットを取得する。なお、サンプルには、サンプル音声情報とサンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれても良い。そして、以下のトレーニングステップを実行することができる。Ｓ１において、前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力することにより、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することができる。なお、予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示すことができる。Ｓ２において、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することができる。Ｓ３において、比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定する。例示として、前記最適化目標は、予測情報と注釈情報の差分が所定の差分閾値よりも小さいことであっても良い。他の例示として、前記最適化目標は、前記初期ニューラルネットワークモデルの予測正確率が所定の正確率閾値よりも大きいことであっても良い。Ｓ４において、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることができる。ここで、前記初期ニューラルネットワークモデルは、トレーニングされていないニューラルネットワークモデル、又はトレーニングが完成されていないニューラルネットワークモデルであっても良い。

選択的に、前記ニューラルネットワークモデルをトレーニングするステップは、更に、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行することができるＳ５を含んでも良い。例示として、バックプロパゲーションアルゴリズム（ＢａｃｋＰｒｏｐｇａｔｉｏｎＡｌｇｏｒｉｔｈｍ、ＢＰアルゴリズム）と勾配降下法（例えばランダム勾配降下アルゴリズム）を採用して、前記初期ニューラルネットワークモデルのネットワークパラメータを調整することができる。説明すべきなのは、バックプロパゲーションアルゴリズムと勾配降下法が現在によく研究し応用されている周知技術であるため、ここでは詳しく説明しない。

複数のオプションとなる実施形態において、前記注釈情報には第一標識と第二標識が含まれても良い。なお、第一標識はウェイクアップ音声情報であると示し、第二標識はウェイクアップ音声情報ではないと示すことができる。例えば、第一標識は１、第二標識は０であっても良い。

ステップ２０３において、ウェイクアップ信頼度に基づいて音声情報が擬似ウェイクアップ音声情報であるか否かを確定する。

本実施例において、前記電子デバイスは、ステップ２０２において得られたウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定することができる。例示として、前記電子デバイスは、予め設定された少なくとも一つの閾値に基づいて、前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定することができる。例えば、一つの閾値を予め設置することができる。前記ウェイクアップ信頼度が当該閾値よりも大きい場合に、前記音声情報が前記電子デバイスをウェイクアップするためのウェイクアップ音声であると確定でき、この場合に前記電子デバイスによりウェイクアップ操作を実行することができる。前記ウェイクアップ信頼度が当該閾値よりも小さい場合に、前記音声情報が擬似ウェイクアップ音声情報であると確定することができる。また、例えば、小さい順で第一閾値、第二閾値及び第三閾値を順に設置することができる。前記ウェイクアップ信頼度が第一閾値よりも小さい場合に、前記音声情報が前記電子デバイスをウェイクアップするウェイクアップ音声ではないと確定し、前記ウェイクアップ信頼度が第一閾値よりも大きく且つ第二閾値よりも小さい場合に、前記音声情報が擬似ウェイクアップ音声情報であると確定することができる。前記ウェイクアップ信頼度が第二閾値よりも大きい場合に、前記音声情報が前記電子デバイスをウェイクアップするウェイクアップ音声であると確定でき、この場合に前記電子デバイスによりウェイクアップ操作を実行することができる。

ステップ２０４において、音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、音声情報に対して二次判断を行って二次判断結果を取得し、二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する。

本実施例において、前記電子デバイスは、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定することができる。

本実施例の複数のオプションとなる実施形態において、前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれても良い。前記ステップ２０４は、具体的に、まず前記電子デバイスにより前記音声情報をサービスエンドへ送信し、前記サービスエンドに前記音声情報に基づいて二次判断結果を生成させ、その後に前記電子デバイスにより前記サービスエンドから前記二次判断結果を受信し、最後に前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、前記電子デバイスによりウェイクアップ操作を実行することを含んでも良い。ここで、前記サービスエンドはハードウェアであっても良く、ソフトウェアであっても良い。前記サービスエンドはハードウェアである場合に、分散型のサーバグループであっても良く、単一のサーバであっても良い。前記サービスエンドがソフトウェアである場合に、分散型のサービスであっても良く、単一のソフトウェアにより提供されるサービスであっても良く、ここでは限定しない。

例示として、前記サービスエンドは、まず前記音声情報を音声認識して前記音声情報に対応するテキスト情報を取得し、その後に得られたテキスト情報と前記電子デバイスの目標ウェイクアップワードとをマッチングし、最後にマッチング結果に基づいて二次判断結果を生成することができる。ここで、前記電子デバイスの目標ウェイクアップワードは、前記電子デバイスをウェイクアップすることができる。一般的に、ユーザは目標ウェイクアップワードを言い出すことで前記電子デバイスにウェイクアップ操作を実行させることにより、前記電子デバイスを待機状態からウェイクアップ状態に切り替えることができる。前記電子デバイスはウェイクアップ状態にある場合に、ユーザとインタラクションを行うことができる。

続いて図３を参照する。図３は、本実施例の音声ウェイクアップ方法による応用シナリオの一つの模式図である。図３の応用シナリオにおいて、スマートデバイス３０１は、まずユーザから送信された音声情報を受信し、その後に前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得し、その後に前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定し、続いて前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報をサービスエンド３０２に送信し、サービスエンド３０２に前記音声情報に基づいて二次判断結果を生成させ、最後に前記二次判断結果を受信し、及び前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定することができる。

本願の前記実施例により提供された方法は、擬似ウェイクアップ音声情報に対して二次検証を行うことにより、スマートデバイスが誤ってウェイクアップされる確率を効率的に低減させることができる。

更に図４を参照する。図４は、音声ウェイクアップ方法の他の実施例の手順４００を示す。当該音声ウェイクアップ方法の手順４００は、以下のステップを含む。

ステップ４０１において、端末から送信された擬似ウェイクアップ音声情報を受信する。

本実施例において、音声ウェイクアップ方法が運行される電子デバイス（例えば図１に示されたサーバ１０５）は、有線又は無線の接続手段によりユーザが音声対話を行うように利用される端末から擬似ウェイクアップ音声情報を受信することができる。説明すべきなのは、前記無線の接続手段は、３Ｇ／４Ｇ接続、ＷｉＦｉ接続、ブルートゥース（登録商標）接続、ＷｉＭＡＸ接続、Ｚｉｇｂｅｅ接続、ＵＷＢ（ｕｌｔｒａｗｉｄｅｂａｎｄ）接続、及び既知又は将来に開発される他の無線接続手段を含むが、それらに限定されない。

ステップ４０２において、擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する。

本実施例において、前記電子デバイスは、ステップ４０１において受信された擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得することができる。例示として、前記電子デバイスは、擬似ウェイクアップ音声情報を音声認識して、擬似ウェイクアップ音声情報に対応するテキスト情報を取得することができる。説明すべきなのは、音声認識技術は、現在によく研究し応用されている周知技術であるため、ここでは詳しく説明しない。

ステップ４０３において、音声認識結果と端末の目標ウェイクアップワードとをマッチングする。

本実施例において、前記電子デバイスは、前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングすることができる。例示として、前記音声認識結果に前記目標ウェイクアップワードが含まれている場合に、マッチングの成功と考え、前記音声認識結果に前記目標ウェイクアップワードが含まれていない場合に、マッチングの不成功と考えても良い。

ステップ４０４において、マッチング結果に基づいて端末へ二次判断結果を送信し、端末が二次判断結果に基づいて、ウェイクアップ操作を実行するか否かを確定する。

本実施例において、前記電子デバイスは、マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末が前記二次判断結果に基づいて、ウェイクアップ操作を実行するか否かを確定させることができる。ここで、前記二次判断結果には、ウェイクアップ判明又は非ウェイクアップ判明が含まれても良い。

本実施例の複数のオプションとなる実施形態において、前記ステップ４０４は、具体的に、前記電子デバイスが、前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信しても良いことを含んでも良い。

本願の前記実施例により提供された方法は、擬似ウェイクアップ音声情報を音声認識し、音声認識結果を端末の目標ウェイクアップワードとマッチングを行い、マッチング結果に基づいて二次判断結果を生成することができるため、擬似ウェイクアップ音声情報に対する検証を実現し、端末が誤ってウェイクアップされる確率を効率的に低減させることができる。

更に図５を参照する。前記各図に示された方法に対する実現として、本願は音声ウェイクアップ装置の一つの実施例を提供する。当該装置の実施例は図２に示された方法の実施例に対応する。

図５に示すように、本実施例の音声ウェイクアップ装置５００は、受信ユニット５０１と、生成ユニット５０２と、第一確定ユニット５０３と、第二確定ユニット５０４とを備える。なお、受信ユニット５０１は、ユーザの音声情報を受信する。生成ユニット５０２は、前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得する。第一確定ユニット５０３は、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定する。第二確定ユニット５０４は、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する。

本実施例において、音声ウェイクアップ装置５００の受信ユニット５０１、生成ユニット５０２、第一確定ユニット５０３及び第二確定ユニット５０４の具体的な処理、及びそれによる技術効果は、図２に対応する実施例におけるステップ２０１、ステップ２０２、ステップ２０３及びステップ２０４の関連説明をそれぞれ参照することができ、ここでは詳しく説明しない。

本実施例の複数のオプションとなる実施形態において、前記生成ユニット５０２は更に、前記音声情報を予め構築された認識モデルに入力して前記音声情報に対するウェイクアップ信頼度を取得する。更に、前記認識モデルは音声情報とウェイクアップ信頼度の対応関係を示す。

本実施例の複数のオプションとなる実施形態において、前記認識モデルはニューラルネットワークモデルである。前記装置５００は、モデルトレーニングユニット（未図示）を更に備えても良い。前記モデルトレーニングユニットは、サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得する取得ユニットと（未図示）、前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することであって、前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示す、ことと、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含むトレーニングステップを実行する実行ユニットと（未図示）を備えても良い。

本実施例の複数のオプションとなる実施形態において、前記モデルトレーニングユニットは更に、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する調整ユニット（未図示）を備えても良い。

本実施例の複数のオプションとなる実施形態において、前記注釈情報には、第一標識と第二標識が含まれても良い。なお、第一標識はウェイクアップ音声情報であると示し、第二標識はウェイクアップ音声情報ではないと示す。

本実施例の複数のオプションとなる実施形態において、前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれても良い。前記第二確定ユニット５０４は更に、前記音声情報をサービスエンドへ送信して前記サービスエンドに前記音声情報に基づいて二次判断結果を生成させ、前記二次判断結果を受信し、前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行する。

続いて図６を参照する。前記各図に示された方法に対する実現として、本願は更に音声ウェイクアップ装置の一つの実施例を提供する。当該装置の実施例は、図４示された方法の実施例に対応する。

図６に示すように、本実施例の音声ウェイクアップ装置６００は、情報受信ユニット６０１と、認識ユニット６０２と、マッチングユニット６０３と、情報送信ユニット６０４とを備える。なお、情報受信ユニット６０１は、端末から送信された擬似ウェイクアップ音声情報を受信する。認識ユニット６０２は、前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する。マッチングユニット６０３は、前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングする。情報送信ユニット６０４は、マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末が前記二次判断結果に基づいて、ウェイクアップ操作を実行するか否かを確定させる。なお、前記二次判断結果には、ウェイクアップ判明又は非ウェイクアップ判明が含まれる。

本実施例において、音声ウェイクアップ装置６００の情報受信ユニット６０１、認識ユニット６０２、マッチングユニット６０３及び情報送信ユニット６０４の具体的な処理及びそれによる技術効果は、図４に対応する実施例におけるステップ４０１、ステップ４０２、ステップ４０３及びステップ４０４の関連説明をそれぞれ参照することができ、ここでは詳しく説明しない。

本実施例の複数のオプションとなる実施形態において、前記情報送信ユニット６０４は更に、前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信する。

以下に図７を参照する。図７は、本願の実施例の端末デバイスを実現可能なコンピュータシステム７００の構成の模式図を示す。図７に示された端末デバイスは、例示的なものに過ぎず、本願の実施例の機能及び使用範囲に制限しない。

図７に示すように、コンピュータシステム７００は、読み出し専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７０２に記憶されているプログラム又は記憶部７０８からランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７０３にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理ユニット（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７０１を備える。ＲＡＭ７０３には、システム７００の操作に必要な様々なプログラムおよびデータがさらに記憶されている。ＣＰＵ７０１、ＲＯＭ７０２およびＲＡＭ７０３は、バス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ、Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェース７０５もバス７０４に接続されている。

キーボード、マウスなどを含む入力部７０６、陰極線管（ＣＲＴ、ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、液晶ディスプレイ（ＬＣＤ、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）など、およびスピーカなどを含む出力部７０７、ハードディスクなどを含む記憶部７０８、およびＬＡＮ（ローカルエリアネットワーク、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カード、モデムなどを含むネットワークインターフェースカードの通信部７０９は、Ｉ／Ｏインターフェース７０５に接続されている。通信部７０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブ７１０は、必要に応じてＩ／Ｏインターフェース７０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなリムーバブルメディア７１１は、必要に応じてドライブ７１０に取り付けられることにより、読み出されたコンピュータプログラムが必要に応じて記憶部７０８にインストールされる。

特に、本発明の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本開示の実施例はコンピュータ読み取り可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部７０９を介してネットワークからダウンロードしてインストールされ、及び／又はリムーバブルメディア７１１からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット（ＣＰＵ）７０１により実行される場合に、本願の方法に限定される前記機能を実行する。説明すべきなのは、本願の前記コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、コンピュータ読み取り可能な記憶媒体、或いは前記両者の任意の組合わせであっても良い。コンピュータ読み取り可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、装置又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読み取り可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能なプログラミング読取専用メモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ（ＣＤ−ＲＯＭ）、光学記憶素子、磁気記憶素子、或いは前記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読み取り可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、指令実行システム、装置又は部品に使用されても良く、それらに組合わせて使用されても良い。本願において、コンピュータ読み取り可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読み取り可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は前記任意の適当の組合わせを含むが、それらに限定されない。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であっても良い。当該コンピュータ読み取り可能な媒体は、指令実行システム、装置又は部品に使用され又はそれらと組合わせて使用されるプログラムを送信し、伝播又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、ＲＦなど、或いは前記任意の適当の組み合わせを含むが、それらに限定されない。

図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。

本願の実施例に説明されたユニットはソフトウェアで実現されても良く、ハードウェアで実現されても良い。説明されたユニットは、プロセッサに設置されても良く、例えば、受信ユニットと、生成ユニットと、第一確定ユニットと、第二確定ユニットとを備えるプロセッサとして記載可能である。なお、これらのユニットの名称は場合によって当該ユニットの自身に対する限定とされない。例えば、受信ユニットは、「ユーザの音声情報を受信するユニット」として記載されても良い。

他の側面として、本願は更にコンピュータ読み取り可能な媒体を提供する。当該コンピュータ読み取り可能な媒体は、前記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。前記コンピュータ読み取り可能な媒体には、一つ又は複数のプログラムがロードされる。前記一つ又は複数のプログラムが当該装置により実行されると、当該装置に、ユーザの音声情報を受信し、前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得し、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定し、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するように実行させる。

以上の記載は、本願の好ましい実施例、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴（これらに限定されていない）とを互いに置き換えてなる技術方案も含まれる。

Claims

音声ウェイクアップ（ｗａｋｅｕｐ）方法であって、
ユーザの音声情報を受信するステップと、
前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップと、
前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定するステップと、
前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップと、を含む方法。
前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップは、
予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得するステップを含む請求項１に記載の方法。
前記認識モデルはニューラルネットワークモデルであり、前記ニューラルネットワークモデルは、
サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得するステップと、
トレーニングステップであって、
前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することと、ここで前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示すものであり、
前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、
比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、
前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含むトレーニングステップと、を実行する、
という方式でトレーニングされる、請求項２に記載の方法。
前記ニューラルネットワークモデルをトレーニングするステップは、
前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する、ステップを更に含む請求項３に記載の方法。
前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識が含まれる、請求項３に記載の方法。
前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、
前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップは、
前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成するステップと、
前記二次判断結果を受信するステップと、
前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行するステップと、を含む請求項１に記載の方法。
音声ウェイクアップ方法であって、
端末から送信された擬似ウェイクアップ音声情報を受信するステップと、
前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得するステップと、
前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするステップと、
マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、ステップと、を含む方法。
前記マッチング結果に基づいて前記端末へ二次判断結果を送信するステップは、
前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信するステップと、
前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信するステップとを含む請求項７に記載の方法。
音声ウェイクアップ装置であって、
ユーザの音声情報を受信する受信ユニットと、
前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得する生成ユニットと、
前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定する第一確定ユニットと、
前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する第二確定ユニットと、
を備える装置。
前記生成ユニットは更に、
予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得する、請求項９に記載の装置。
前記認識モデルはニューラルネットワークモデルであり、
前記装置は、モデルトレーニングユニットを更に備え、前記モデルトレーニングユニットは、
サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得する取得ユニットと、
トレーニングステップを実行する実行ユニットと、を備え、
前記トレーニングステップが、
前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することと、ここで前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示すものであり、
前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、
比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、
前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含む、請求項１０に記載の装置。
前記モデルトレーニングユニットは、
前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する調整ユニットを更に備える請求項１１に記載の装置。
前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識とが含まれる請求項１１に記載の装置。
前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、
前記第二確定ユニットは更に、
前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成し、
前記二次判断結果を受信し、
前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行する請求項９に記載の装置。
音声ウェイクアップ装置であって、
端末から送信された擬似ウェイクアップ音声情報を受信する情報受信ユニットと、
前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する認識ユニットと、
前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするマッチングユニットと、
マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する情報送信ユニットであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、情報送信ユニットと、
を備える装置。
前記情報送信ユニットは更に、
前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、
前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信する請求項１５に記載の装置。
端末であって、
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項１〜６の何れか一つに記載の方法を実現させる端末。
コンピュータ読み取り可能な記憶媒体であって、
コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、請求項１〜６の何れか一つに記載の方法を実現させるコンピュータ読み取り可能な記憶媒体。
サーバであって、
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項７又は８に記載の方法を実現させるサーバ。
コンピュータ読み取り可能な記憶媒体であって、
コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、請求項７又は８に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体。