JP2021196599A

JP2021196599A - 情報を出力するための方法および装置

Info

Publication number: JP2021196599A
Application number: JP2020205115A
Authority: JP
Inventors: ネンジュンウーヤン; Nengjun Ouyang; クーチャオ; Ke Zhao; ロンリウ; Rong Liu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-10
Filing date: 2020-12-10
Publication date: 2021-12-27
Also published as: EP3923272A1; US20210390947A1; CN111640426A; EP3923272B1; US11587550B2

Abstract

【課題】追加の記録コーパスを必要とせずにウェイクアップモデルをトレーニングする方法、装置、サーバ及び記憶媒体を提供する。【解決手段】方法は、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップと、音声情報に対して音声認識を実行し、認識結果を取得するステップと、認識結果にはプリセットのウェイクアップワードが含まれていないと判定した場合、音声情報の特徴情報を抽出するステップと、特徴情報に基づいて、反例トレーニングサンプルを生成するステップと、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得するステップと、を含む。【選択図】図２

Description

本願の実施例は、コンピュータ技術の分野、具体的にはデバイスウェイクアップの分野、特に情報を出力するための方法および装置に関する。

旅行の快適さに対する人々の要求がますます高まり、車載情報通信システムに搭載された音声アシスタントの普及率が高まるにつれて、人々は、旅行中にいくつかの車載制御を完了するために音声アシスタントの使用に徐々に依存するようになる。例えば、ナビゲート、音楽再生、空調制御などの機能は徐々に人々に受け入れられている。しかし、音声アシスタントは誤ってウェイクアップされることが多く、人々に多くのトラブルを引き起こし、旅行の安全性にも影響を与えるため、音声アシスタントをオフにする必要がある。これは、業界の車載音声アシスタントの問題点となっている。

本願の実施例は、情報を出力するための方法、装置、サーバ、および記憶媒体を提供する。

第一様態によれば、情報を出力するための方法が提供される。この方法は、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップと、上記音声情報に対して音声認識を実行し、認識結果を取得するステップと、上記認識結果には上記プリセットのウェイクアップワードが含まれていないと判定した場合、上記音声情報の特徴情報を抽出するステップと、上記特徴情報に基づいて、反例トレーニングサンプルを生成するステップと、上記反例トレーニングサンプルを使用して上記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するステップと、を含む。

第二様態によれば、情報を出力するための装置が提供される。この装置は、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するように構成された取得ユニットと、上記音声情報に対して音声認識を実行し、認識結果を取得するように構成された認識ユニットと、上記認識結果には上記プリセットのウェイクアップワードが含まれていないと判定した場合、上記音声情報の特徴情報を抽出するように構成された抽出ユニットと、上記特徴情報に基づいて、反例トレーニングサンプルを生成するように構成されたトレーニングユニットと、上記反例トレーニングサンプルを使用して上記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するように構成された出力ユニットと、を含む。

第三態様によれば、サーバが提供される。このサーバは、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶する記憶装置と、を含み、上記１つまたは複数のプログラムが上記１つまたは複数のプロセッサによって実行されるとき、上記１つまたは複数のプロセッサが第一態様の実施例のいずれか１つに記載の方法を実施するようにする。

第四態様によれば、コンピュータ可読媒体が提供される。このコンピュータ可読媒体は、コンピュータプログラムを記憶するコンピュータ可読媒体であって、このプログラムがプロセッサによって実行されるとき、第一態様の実施例のいずれか１つに記載の方法を実施する。

第五態様によれば、コンピュータプログラムが提供される。このコンピュータプログラムは、プロセッサによって実行されるとき、第一態様の実施例のいずれか１つに記載の方法を実施する。

本願の技術的解決手段によれば、従来のデバイスウェイクアップ方法が誤ってウェイクアップしやすいという問題を解決し、誤ったウェイクアップ時の音声情報を反例サンプルとして使用して、追加の記録コーパスを必要とせずにウェイクアップモデルをトレーニングすることができるため、コストを節約し、誤ったウェイクアップを自動的に抑制し、ウェイクアップの精度を向上させることができる。

このセクションで説明される内容は、本開示の実施例の主要または重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明から容易に理解されるであろう。

本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。
本願の一実施例が適用され得る例示的なシステムアーキテクチャ図である。本開示に係る情報を出力するための方法の一実施例のフローチャートである。本開示に係る情報を出力するための方法の適用シナリオの概略図である。本開示に係る情報を出力するための方法の別の実施例のフローチャートである。本開示に係る情報を出力するための装置の一実施例の構造概略図である。本願の実施例を実施するのに適したサーバのコンピュータシステムの構造概略図である。

以下、図面および実施例を参照して本願をさらに詳細に説明する。本明細書に記載の具体的な実施例は、関連発明を解釈するものにすぎず、当該発明を限定するものではないことを理解されたい。また、説明の便宜上、当該発明に関連する部分のみが図面に示されている。

なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本願を詳細に説明する。

図１は、本願の実施例が適用され得る、情報を出力するための方法または情報を出力するための装置の実施例の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供する媒体として機能している。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続形態を含み得る。

ユーザは、端末装置１０１、１０２、１０３を用いてネットワーク１０４を介してサーバ１０５と対話し、情報などを送受信することができる。端末装置１０１、１０２、１０３には、音声認識アプリケーションなどの様々な通信クライアントアプリケーションがインストールされ得る。端末装置１０１、１０２、１０３には、マイクアレイなどがさらに設置され得る。

端末装置１０１、１０２、１０３は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダ、車載コンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、音声ウェイクアップをサポートする様々な電子機器であり得る。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記に挙げた電子機器にインストールされ得る。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは具体的に限定しない。

サーバ１０５は、端末装置１０１、１０２、１０３に設置されたマイクアレイによって収集された音声をサポートするバックグラウンド音声サーバなど、様々なサービスを提供するサーバであり得る。バックグラウンド音声サーバは、受信した音声などのデータに対して分析などの処理を行い、処理結果（例えば、ウェイクアップ結果）を端末装置１０１、１０２、１０３にフィードバックすることができる。

なお、サーバ１０５は、ハードウェアであり得るか、またはソフトウェアであり得る。サーバ１０５がハードウェアである場合、それは、複数のサーバからなる分散サーバクラスタとして実装され得るか、または単一のサーバとして実装され得る。サーバ１０５がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは具体的に限定しない。

なお、本願の実施例によって提供される情報を出力するための方法は、一般に、サーバ１０５によって実行される。それに応じて、情報を出力するための装置は、一般に、サーバ１０５に設置される。

図１の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定されてもよい。

さらに図２を参照すると、図２は、本願に係る情報を出力するための方法の一実施例のプロセス２００を示す。本実施例における情報を出力するための方法は、以下のステップを含む。

ステップ２０１、デバイスがウェイクアップされる前に、所定期間の音声情報を取得する。

本実施例では、情報を出力するための方法の実行主体（例えば、図１に示すサーバ１０５）は、有線接続または無線接続を介して、デバイスがウェイクアップされる前に、所定期間の音声情報を取得することができる。上記デバイスは、車載コンピュータ、スマートフォンなどの様々な端末装置であり得る。上記デバイスには、少なくとも１つのニューラルネットワークからなるアルゴリズムであり得る音声ウェイクアップモデルが設けられ得る。上記音声ウェイクアップモデルは、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用される。プリセットのウェイクアップワードは、事前にトレーニングされたウェイクアップワードであり得る。上記プリセットの応答情報は、例えば、プリセットの出力情報であり得る。出力情報は、音声情報であり得るか、または文字情報であり得るか、またはハードウェアまたはソフトウェアに対する制御命令であり得る。上記音声ウェイクアップモデルは、事前にトレーニングされて上記デバイスに送信されるものであり得る。上記デバイスは、音声情報をリアルタイムで監視し、監視された音声情報を上記ウェイクアップモデルに送信することができる。上記ウェイクアップモデルは、上記音声情報を受信した後、プリセットの応答情報を出力して、デバイスがウェイクアップされたことを表明することができる。

デバイスがウェイクアップされた後、ウェイクアップされる前の所定期間の音声情報を実行主体に送信することができる。上記所定期間は、１０分、５分など、実際の適用シナリオに応じて設定された任意の期間であり得る。

ステップ２０２、音声情報に対して音声認識を実行し、認識結果を取得する。

実行主体は、音声情報を受信した後、音声に対して音声認識を実行し、認識結果を取得することができる。本実施例では、実行主体は、従来の音声認識アルゴリズムを使用して、音声情報を認識することができる。上記音声認識アルゴリズムは、ディープニューラルネットワークなどを含み得る。上記認識結果には、文字が含まれ得る。

ステップ２０３、認識結果にはプリセットのウェイクアップワードが含まれていないと判定した場合、音声情報の特徴情報を抽出する。

実行主体は、上記認識結果にはプリセットのウェイクアップワードが含まれるか否かを判定することができる。含まれる場合は、デバイスが正常にウェイクアップされることを意味する。プリセットのウェイクアップワードが含まれていない場合は、デバイスが誤ってウェイクアップされることを意味する。このとき、実行主体は、上記音声情報の特徴情報を抽出することができる。具体的には、実行主体は、畳み込みニューラルネットワークなどの様々な音声処理アルゴリズムを使用して、音声情報の特徴情報を抽出することができる。上記特徴情報は、音素シーケンス、音節シーケンスなど、音声情報を表すことができる様々な特徴であり得る。

ステップ２０４、特徴情報に基づいて、反例トレーニングサンプルを生成する。

実行主体は、特徴情報を取得した後、反例トレーニングサンプルを生成することができる。具体的には、実行主体は、上記特徴情報を反例サンプルとして直接使用することができる。あるいは、実行主体は、上記特徴情報をさらに処理して、反例トレーニングサンプルを取得することができる。例えば、実行主体は、上記特徴情報におけるノイズを除去したり、上記特徴情報を傍受したりすることができる。

ステップ２０５、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得する。

実行主体は、上記反例トレーニングサンプルを取得した後、上記反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得することができる。具体的には、実行主体は、上記音声に含まれるウェイクアップワードを入力とし、空の情報を所望の出力として使用し、ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得することができる。

さらに図３を参照すると、図３は、本実施例に係る情報を出力するための方法の適用シナリオの概略図である。図３の適用シナリオでは、ユーザが車内で通話しているときに車載コンピュータから突然「私はいます」という音声が出る場合は、車載コンピュータが誤ってウェイクアップされたことを意味する。車載コンピュータは、ウェイクアップの２秒前の音声情報を圧縮して、サーバにアップロードすることができる。サーバは、上記音声情報を分析し、プリセットのウェイクアップワードが含まれていないと判定することができる。そうである場合、音声情報の特徴情報を抽出し、反例トレーニングサンプルを生成する。反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得する。

本願の上記実施例によって提供される情報を出力するための方法は、誤ったウェイクアップ時の音声情報を反例サンプルとして使用して、追加の記録コーパスを必要とせずにウェイクアップモデルをトレーニングすることができるため、コストを節約し、誤ったウェイクアップを自動的に抑制し、ウェイクアップの精度を向上させることができる。

さらに図４を参照すると、図４は、本願に係る情報を出力するための方法の別の実施例のプロセス４００を示す。図４に示すように、本実施例における情報を出力するための方法は、以下のステップを含み得る。

ステップ４０１、デバイスがウェイクアップされる前に、所定期間の音声情報を取得する。

ステップ４０２、音声情報に対して音声認識を実行し、認識結果を取得する。

ステップ４０３、認識結果にはプリセットのウェイクアップワードが含まれていないと判定した場合、音声情報の特徴情報を抽出する。

ステップ４０４、特徴情報に基づいて、反例トレーニングサンプルを生成する。

ステップ４０５、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得する。

本実施例のいくつかの代替的な実施形態では、実行主体は、図２に示されていないステップによって、即ち、反例トレーニングサンプルの数を決定するステップ、および、反例トレーニングサンプルの数が所定数の閾値以上である場合、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングするステップによって、上記のステップ４０５を実施することができる。

本実施形態では、実行主体は、まず、反例トレーニングサンプルの数を決定することができる。数が所定数の閾値よりも大きい場合、各反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングすることができる。このようにして、ウェイクアップモデルの精度を確保することができる。

ステップ４０６、ウェイクアップワードを含む音声情報の特徴情報をトレーニング済みウェイクアップモデルに入力し、プリセットの応答情報が出力されるか否かを判定する。

本実施例では、実行主体は、トレーニング済みウェイクアップモデルを取得した後、ウェイクアップワードを含む音声情報の特徴情報を前記モデルに入力し、プリセットの応答情報が出力されるか否かを判定することができる。即ち、実行主体は、トレーニング済みウェイクアップモデルを検証することができる。プリセットの応答情報が出力される場合は、プリセットのウェイクアップモデルの効果が良好であることを意味する。プリセットの応答情報が出力できない場合は、このウェイクアップモデルが動作できないことを意味する。プリセットの応答情報が出力される場合、ステップ４０７を実行するが、プリセットの応答情報が出力されない場合、ステップ４０８を実行する。

ステップ４０７、プリセットの応答情報が出力される場合、トレーニング済みウェイクアップモデルを出力する。

ウェイクアップモデルがプリセットの応答情報を出力する場合、実行主体は、トレーニング済みウェイクアップモデルを出力することができる。例えば、端末装置がこのトレーニング済みウェイクアップモデルを使用して音声ウェイクアップを実行するように、各端末装置に送信することができる。

ステップ４０８、プリセットの応答情報が出力されない場合、アラーム情報を出力する。

ウェイクアップモデルがプリセットの応答情報を出力しない場合は、ウェイクアップモデルが動作できないことを意味するため、この場合にアラーム情報を出力する必要がある。このアラーム情報は、ウェイクアップモデルの調整に介入するように技術者に通知するために使用される。

本願の上記実施例によって提供される情報を出力するための方法は、ウェイクアップモデルをトレーニングした後、ウェイクアップワードを含む音声情報の特徴情報を使用して、ウェイクアップモデルを検証し、トレーニング済みウェイクアップモデルの有効性を確保し、無効になった場合に直ちに技術者に通知することができる。

さらに図５を参照すると、上記各図に示された方法の実施形態として、本願は、図２に示す方法の実施例に対応する、情報を出力するための装置の一実施例を提供する。この装置は様々な電子機器に特に適用できる。

図５に示すように、本実施例に係る情報を出力するための装置５００は、取得ユニット５０１、認識ユニット５０２、抽出ユニット５０３、トレーニングユニット５０４、および出力ユニット５０５を含む。

取得ユニット５０１は、デバイスがウェイクアップされる前に、所定期間の音声情報を取得するように構成される。ここで、デバイスには、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルが設けられる。

認識ユニット５０２は、音声情報に対して音声認識を実行し、認識結果を取得するように構成される。

抽出ユニット５０３は、認識結果にはプリセットのウェイクアップワードが含まれていないと判定した場合、音声情報の特徴情報を抽出するように構成される。

トレーニングユニット５０４は、特徴情報に基づいて、反例トレーニングサンプルを生成するように構成される。

出力ユニット５０５は、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するように構成される。

本実施例のいくつかの代替的な実施形態では、トレーニングユニット５０４は、ウェイクアップワードを含む音声情報の特徴情報をトレーニング済みウェイクアップモデルに入力し、プリセットの応答情報が出力されるか否かを判定するステップと、プリセットの応答情報が出力される場合、トレーニング済みウェイクアップモデルを出力するステップと、を実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、装置５００は、ウェイクアップワードを含む音声情報の特徴情報をトレーニング済みウェイクアップモデルに入力し、プリセットの応答情報が出力されるか否かを判定するステップと、プリセットの応答情報が出力される場合、トレーニング済みウェイクアップモデルを出力するステップとを実行するように構成された、図５に示されていないアラームユニットをさらに含む。

本実施例のいくつかの代替的な実施形態では、トレーニングユニット５０４は、反例トレーニングサンプルの数を決定するステップと、反例トレーニングサンプルの数が所定数の閾値以上である場合、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングするステップと、を実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、取得ユニット５０１は、デバイスがプリセットのウェイクアップワードによってウェイクアップされる場合、デバイスがウェイクアップされる前に、所定期間の音声情報を取得するようにさらに構成される。

情報を出力するための装置５００に記載のユニット５０１から５０５は、それぞれ、図２を参照して説明された方法の各ステップに対応することを理解されたい。従って、情報を出力するための方法について上述した操作および特徴は、装置５００およびそれに含まれるユニットにも適用可能であるため、ここではその説明を省略する。

本願の実施例によれば、本願は、電子機器および可読記憶媒体をさらに提供する。

図６に示すように、図６は、本願の実施例に係る情報を出力するための方法を実施するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および／または請求される本願の実施形態を限定することを意図したものではない。

図６に示すように、この電子機器は、１つまたは複数のプロセッサ６０１と、メモリ６０２と、高速インターフェースおよび低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバス６０３を介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、ＧＵＩのグラフィック情報が外部入力／出力装置（例えば、インターフェースに結合された表示装置）に表示されるようにメモリ内またはメモリ上に記憶される命令を含む、電子機器で実行された命令を処理することができる。他の実施形態では、複数のプロセッサおよび／または複数本のバス６０３は、必要に応じて、複数のメモリとともに使用され得る。同様に、それは、（例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして）いくつかの必要な操作を提供する複数の電子機器に接続され得る。図６には、プロセッサ６０１が例として挙げられる。

メモリ６０２は、本願によって提供される非一時的コンピュータ可読記憶媒体である。ここで、メモリ６０２には、少なくとも１つのプロセッサが本願によって提供される情報を出力するための方法を実行できるように、少なくとも１つのプロセッサによって実行され得る命令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願によって提供される情報を出力するための方法をコンピュータに実行させるために使用されるコンピュータ命令が記憶されている。

非一時的コンピュータ可読記憶媒体として、メモリ６０２は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例における情報を出力するための方法に対応するプログラム命令／モジュール（例えば、図５に示す取得ユニット５０１、認識ユニット５０２、抽出ユニット５０３、トレーニングユニット５０４、および出力ユニット５０５）などのモジュールとを記憶するために使用され得る。プロセッサ６０１は、メモリ６０２に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法の実施例における情報を出力するための方法を実施する。

メモリ６０２は、オペレーティングシステムおよび少なくとも１つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、情報を出力するための方法を実施するための電子機器によって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ６０２は、高速ランダムアクセスメモリを含み得、また、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ６０２は、任意選択で、プロセッサ６０１に対して遠隔的に設定されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、情報を出力するための方法を実施するための電子機器に接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。

情報を出力するための方法を実施するための電子機器は、入力装置６０４および出力装置６０５をさらに含み得る。プロセッサ６０１、メモリ６０２、入力装置６０４、および出力装置６０５は、バスまたはその他の手段を介して接続され得るが、図６にはバス６０３による接続が例として挙げられる。

入力装置６０４は、入力された数字または文字情報を受信し、情報を出力するための方法を実施するための電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができるものであり、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０５は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含み得る。この表示装置は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであり得る。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈され得る１つまたは複数のコンピュータプログラムに実装されることを含み得る。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および／またはアセンブリ／機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス（例えば、マウスまたはトラックボール）とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック）をユーザに提供したり、任意の形態（音響入力、音声入力、および触覚入力を含む形態）を使用してユーザからの入力を受信したりするために使用され得る。

本明細書に記載のシステムおよび技術は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピュータシステム、またはミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、またはフロントエンドコンポーネント（例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ）を含むコンピュータシステム、または、このバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットが含まれる。

コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント−サーバの関係を有するコンピュータプログラムによって生成される。

本願の実施例の技術的解決手段によれば、誤ったウェイクアップ時の音声情報を反例サンプルとして使用して、追加の記録コーパスを必要とせずにウェイクアップモデルをトレーニングすることができるため、コストを節約し、誤ったウェイクアップを自動的に抑制し、ウェイクアップの精度を向上させることができる。

ステップの並べ替え、追加、または削除は、上記の様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本願に記載の各ステップは、本願に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次、または異なる順序で実行され得るが、本明細書に限定されない。

上記具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本願の精神と原則の範囲内で行われた修正、同等置換、改良などは、本願の保護範囲に含まれるべきである。

Claims

プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップと、
前記音声情報に対して音声認識を実行し、認識結果を取得するステップと、
前記認識結果には前記プリセットのウェイクアップワードが含まれていないと判定した場合、前記音声情報の特徴情報を抽出するステップと、
前記特徴情報に基づいて、反例トレーニングサンプルを生成するステップと、
前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するステップと、を含む、
情報を出力するための方法。
前述した前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するステップは、
前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を含む、
請求項１に記載の方法。
前記プリセットの応答情報が出力されない場合、アラーム情報を出力するステップをさらに含む、
請求項２に記載の方法。
前述した前記トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得するステップは、
前記反例トレーニングサンプルの数を決定するステップと、
前記反例トレーニングサンプルの数が所定数の閾値以上である場合、前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングするステップと、を含む、
請求項１に記載の方法。
前述したデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップは、
前記デバイスが前記プリセットのウェイクアップワードによってウェイクアップされる場合、前記デバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップを含む、
請求項４に記載の方法。
プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するように構成された取得ユニットと、
前記音声情報に対して音声認識を実行し、認識結果を取得するように構成された認識ユニットと、
前記認識結果には前記プリセットのウェイクアップワードが含まれていないと判定した場合、前記音声情報の特徴情報を抽出するように構成された抽出ユニットと、
前記特徴情報に基づいて、反例トレーニングサンプルを生成するように構成されたトレーニングユニットと、
前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するように構成された出力ユニットと、を含む、
情報を出力するための装置。
前記トレーニングユニットは、
前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を実行するようにさらに構成される、
請求項６に記載の装置。
前記装置は、
前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を実行するように構成されたアラームユニットをさらに含む、
請求項７に記載の装置。
前記トレーニングユニットは、
前記反例トレーニングサンプルの数を決定するステップと、
前記反例トレーニングサンプルの数が所定数の閾値以上である場合、前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングするステップと、を実行するようにさらに構成される、
請求項６に記載の装置。
前記取得ユニットは、
前記デバイスが前記プリセットのウェイクアップワードによってウェイクアップされる場合、前記デバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップを実行するようにさらに構成される、
請求項１に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶する記憶装置と、を含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されるとき、前記１つまたは複数のプロセッサが請求項１−５のいずれか一項に記載の方法を実施するようにする、
サーバ。
コンピュータプログラムを記憶するコンピュータ可読媒体であって、このプログラムがプロセッサによって実行されるとき、請求項１−５のいずれか一項に記載の方法を実施する、コンピュータ可読媒体。
このプログラムがプロセッサによって実行されるとき、請求項１−５のいずれか一項に記載の方法を実施する、コンピュータプログラム。