JP7349012B2

JP7349012B2 - ウェイクアップ指標の監視方法、装置及び電子機器

Info

Publication number: JP7349012B2
Application number: JP2022514849A
Authority: JP
Inventors: 旭李; 澤明陳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2021-05-07
Publication date: 2023-09-21
Anticipated expiration: 2041-05-07
Also published as: EP4099319A4; KR20220025148A; US20230130399A1; EP4099319A1; JP2023512134A

Description

本願は、人工知能の技術分野に関し、特にオーディオ試験の技術分野に関し、具体的には、ウェイクアップ指標の監視方法、装置及び電子機器に関する。

インテリジェント音声対話機器におけるウェイクアップ指標は、従来から重要なユーザー体験評価指標であり、インテリジェント音声対話機器のユーザー対話率及びユーザー維持率に直接的に影響する。したがって、ウェイクアップ指標については、ユーザー体験の重要な指標として、オンラインインテリジェント音声対話機器のウェイクアップ指標の変化状況を知る必要がある。

手動注釈の方式でインテリジェント音声対話機器のウェイクアップ指標を監視することにより、インテリジェント音声対話機器のウェイクアップ指標の変化を監視することができる。

本発明は、ウェイクアップ指標の監視方法、装置及び電子機器を提供する。

本開示の第１の態様に係るウェイクアップ指標の監視方法は、
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得することと、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表すことと、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表すことと、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含むことと、を含む。

本開示の第２の態様に係るウェイクアップ指標の監視方法は、
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得することと、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表すことと、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表すことと、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含むことと、を含む。

本開示の第３の態様に係るウェイクアップ指標の監視装置は、
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得する第１の取得モジュールと、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定する第１の決定モジュールであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表す第１の決定モジュールと、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得する第２の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第２の取得モジュールと、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第２の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第２の決定モジュールと、を含む。

本開示の第４の態様に係るウェイクアップ指標の監視装置は、
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得する第４の取得モジュールと、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定する第４の決定モジュールであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表す第４の決定モジュールと、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得する第５の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第５の取得モジュールと、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第５の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第５の決定モジュールと、を含む。

本開示の第５の態様に係る電子機器は、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサと通信接続されたメモリと、を含み、
メモリは、少なくとも１つのプロセッサにより実行可能な命令を記憶し、該命令は、少なくとも１つのプロセッサにより実行されると、少なくとも１つのプロセッサに第１の態様のいずれかの方法を実行させるか、又は第２の態様のいずれかの方法を実行させる。

本開示の第６の態様に係る非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータ命令を記憶しており、前記コンピュータ命令は、前記コンピュータに第１の態様のいずれかの方法を実行させるか、又は第２の態様のいずれかの方法を実行させるためのものである。

本開示の第７の態様に係るコンピュータプログラム製品は、電子機器で実行される場合、前記電子機器は、第１の態様のいずれかの方法を実行するか、又は第２の態様のいずれかの方法を実行することができる。

本明細書に記載された内容は、本開示の実施例のキーポイントまたは重要な特徴を限定するものではなく、本開示の範囲を限定しないことを理解されたい。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。

図１は、本願の第１の実施例に係るウェイクアップ指標の監視方法のフローチャートである。図２は、本願の第２の実施例に係るウェイクアップ指標の監視方法のフローチャートである。図３は、本願の第３の実施例に係るウェイクアップ指標の監視装置の概略構成図である。図４は、本願の第４の実施例に係るウェイクアップ指標の監視装置の概略構成図である。図５は、本開示の実施例を実施することが可能な電子機器５００を示す概略ブロック図である。

以下、図面を参照しながら、本願の例示的な実施例を説明し、理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

第１の実施例
図１に示すように、本願は、ウェイクアップ指標の監視方法を提供し、以下のステップＳ１０１～ステップＳ１０４を含む。

ステップＳ１０１では、監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得する。

本実施例において、ウェイクアップ指標の監視方法は、人工知能の技術分野に関し、特にオーディオ試験の技術分野に関し、様々な新型インテリジェント音声対話機器のエンドツーエンド検収及びウェイクアップ機能に対するオンライン監視等の多くのシーンに広く適用することができる。

実際に使用する時、本願の実施例に係るウェイクアップ指標の監視方法は、本願の実施例に係るウェイクアップ指標の監視装置により実行することができる。本願の実施例に係るウェイクアップ指標の監視装置は、任意の電子機器に配置することにより、本願の実施例に係るウェイクアップ指標の監視方法を実行することができる。電子機器は、サーバであってもよく、端末であってもよく、ここで特に限定されない。

前記監視対象機器は、インテリジェントオーディオ機器であってもよく、インテリジェント音声対話機器と呼ばれてもよく、例えば、前記監視対象機器は、インテリジェントスピーカー機器又はインテリジェント録音機器などであってもよい。

インテリジェント音声対話機器は、音声によりウェイクアップすることが可能な機器を指し、例えば、ユーザーがインテリジェント音声対話機器に対して「小都小都（シャオドゥシャオドゥ）」を話すと、インテリジェント音声対話機器は、該音声に応答して、動作モードに入ることができる。この時、インテリジェント音声対話機器がウェイクアップされ、それに応じて、「小都小都（シャオドゥシャオドゥ）」は、インテリジェント音声対話機器のウェイクアップワードと呼ばれてもよい。

前記監視対象機器のＭ個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータを指し、該オーディオデータは、受信された、ユーザーが前記監視対象機器をウェイクアップするための第１のウェイクアップワードのデータ、及び／又は、前記監視対象機器がウェイクアップされた後に生成したデータを含んでもよい。

一般的な状況で、監視対象機器は、例えば、スリープモード及び動作モードなどの複数のモードを含んでもよく、監視対象機器がスリープモードにある場合、ユーザーは第１のウェイクアップワードを含む音声データにより監視対象機器をウェイクアップし、それに応じて、監視対象機器がウェイクアップされ、スリープモードから動作モードに切り替えることができ、この時、監視対象機器の１回目のウェイクアップと呼ばれてもよい。

しかしながら、様々な要因により、監視対象機器がスリープモードで誤ってウェイクアップされる可能性があり、例えば、監視対象機器がユーザーの他の音声データに応答してウェイクアップされ、該他の音声データはユーザーが監視対象機器をウェイクアップするための第１のウェイクアップワードを含まず、また例えば、監視対象機器が何の兆候がない状況で、つまり何の音声データを受信していない状況でウェイクアップされ、これらのウェイクアップはいずれも監視対象機器の誤ウェイクアップと呼ばれてもよい。本願の実施例は、監視対象機器のウェイクアップ指標を監視するために用いられる。前記ウェイクアップ指標は、ウェイクアップ率であってもよく、監視対象機器のウェイクアップ性能を監視し、機器検収又は製品開発を行うために用いられる。

監視対象機器が毎回ウェイクアップされる場合、監視対象機器をスリープモードから動作モードに切り替える過程において受信したオーディオデータ及び生成したオーディオデータを記憶し、オーディオログデータを生成することができる。それに応じて、オーディオログデータから監視対象機器のＭ個のオーディオデータを取得することができる。監視対象機器の各オーディオデータは、監視対象機器の１回目のウェイクアップ過程において受信したオーディオデータ及び生成したデータであってもよい。

なお、Ｍは１より大きい正の整数であり、一般的には、監視対象機器のウェイクアップ指標の監視精度を向上させ、監視数が小さいことによる監視対象機器のウェイクアップ指標の変動を防止するために、一般的にＭの数が大きく、数千又は数万程度であってもよく、例えば、Ｍが５千又は１万である。

ステップＳ１０２では、前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定し、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表す。

本願の実施例において、前記監視対象機器が正常にウェイクアップされる状況で、前記監視対象機器のオーディオデータは前記監視対象機器をウェイクアップするための第１のウェイクアップワードを含み、誤ってウェイクアップされる状況で、前記監視対象機器のオーディオデータは一般的に前記監視対象機器をウェイクアップするための第１のウェイクアップワードを含まない。

前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することにより、前記監視対象機器の各オーディオデータには前記第１のウェイクアップワードが含まれるか否かを決定することができる。前記第１のウェイクアップ信頼度は、監視対象機器のオーディオデータには前記第１のウェイクアップワードが含まれる確率を表す。

前記第１のウェイクアップ信頼度の通常の値は０から１までであってもよく、前記第１のウェイクアップ信頼度が１である場合、監視対象機器のオーディオデータには前記第１のウェイクアップワードが含まれ、前記第１のウェイクアップ信頼度が０である場合、監視対象機器のオーディオデータには前記第１のウェイクアップワードが含まれないことを表し、前記第１のウェイクアップ信頼度が高いほど、監視対象機器のオーディオデータには前記第１のウェイクアップワードが含まれる確率が高く、そうでなければ、低い。

ターゲットモデルにより前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することができ、前記ターゲットモデルはウェイクアップ信頼度モデルと呼ばれ、それは深層学習モデルであってもよく、前記Ｍ個のオーディオデータをプログラムによりウェイクアップ信頼度モデルに入力することができ、前記ウェイクアップ信頼度モデルは各オーディオデータに対して、各オーディオデータをスコアリングし、前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を取得することができる。

なお、ウェイクアップ確信度モデルは、スコアリングする前に、予めトレーニングする必要があり、複数のインテリジェントオーディオ機器の複数のオーディオデータ、及び各オーディオデータのタグをウェイクアップ信頼度モデルのトレーニングサンプルデータとして取得し、ウェイクアップ信頼度モデルをトレーニングすることができる。オーディオデータのタグは、正タグ及び負タグを含み、正タグは数値０で識別されてもよく、オーディオデータにはウェイクアップワードが含まれないことを示し、負タグは数値１で識別され、オーディオデータにはウェイクアップワードが含まれることを示す。最終的にトレーニングして得られたウェイクアップ信頼度モデルは、インテリジェントオーディオ機器のオーディオデータのウェイクアップ信頼度をスコアリングし、スコアが０から１までのウェイクアップ信頼度を取得し、オーディオデータにはウェイクアップワードが含まれる確率を表す。

ステップＳ１０３では、前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得し、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す。

前記ターゲット区間は、予め決定されてもよく、ウェイクアップ閾値範囲であってもよく、該種類の応用シーンでは、前記ターゲット区間は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードを含むことを表す。オーディオ機器は、インテリジェントオーディオ機器であってもよい。すなわち、オーディオデータのウェイクアップ信頼度が前記ターゲット区間に存在する場合、オーディオデータは一般的にオーディオ機器のウェイクアップワードを含む。

前記ターゲット区間がウェイクアップ閾値範囲である応用シーンでは、前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を前記ターゲット区間とマッチングし、前記Ｍ個のオーディオデータのうちオーディオデータの第１のウェイクアップ信頼度が前記ターゲット区間に存在する場合、該オーディオデータは第１のオーディオデータであり、第１のウェイクアップワードを含み、すなわち、該オーディオデータは、監視対象機器が正常にウェイクアップされる場合のオーディオデータである。前記Ｍ個のオーディオデータのうちオーディオデータの第１のウェイクアップ信頼度が前記ターゲット区間に存在しない場合、該オーディオデータは第１のオーディオデータではなく、第１のウェイクアップワードを含まず、すなわち、該オーディオデータは、監視対象機器が誤ってウェイクアップされる場合オーディオデータである。

ステップＳ１０４では、前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定し、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む。

該ステップでは、前記ターゲット区間がウェイクアップ閾値範囲である場合、取得された第１のオーディオデータに基づいて、前記監視対象機器のウェイクアップ率を決定することができ、前記ウェイクアップ指標はウェイクアップ率であってもよい。

具体的には、前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を決定することができ、該割合は第１のオーディオデータの数をＭで割って取得することができる。

前記ターゲット区間がウェイクアップ閾値範囲である応用シーンでは、第１のオーディオデータが監視対象機器が実際にウェイクアップされる時に対応するオーディオデータであるため、該割合を前記監視対象機器のウェイクアップ率として決定することができる。

実際の応用において、該ウェイクアップ率は製品検証の評価基準とすることができ、例えば、監視対象機器のウェイクアップ率が高いほど、該製品のウェイクアップ性能が高く、監視対象機器のウェイクアップ率が低いほど、該製品がウェイクアップ性能の面で改善する必要がある。

実際の応用において、該ウェイクアップ率は、製品のバージョンのウェイクアップ機能を検証することもでき、例えば、製品の開発時に、監視対象機器に新たなバージョンのソフトウェアが埋め込まれ、該バージョンのソフトウェアのウェイクアップ性能が向上するか否かを検証するために、新たなバージョンのソフトウェアが埋め込まれた監視対象機器のウェイクアップ率と古いバージョンのソフトウェアが埋め込まれた監視対象機器のウェイクアップ率とを比較して、ウェイクアップ率が向上すると、新たなバージョンのソフトウェアがウェイクアップ性能で向上したと示し、そうでなければ改善する必要がある。

本実施例において、監視対象機器のＭ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することにより、前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得し、前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定し、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す。このようにして、監視対象機器のオンラインのオーディオデータに対してウェイクアップ率監視を自動的かつタイムリーに行い、ウェイクアップ率監視の精度を向上させることができる。かつ、オンラインの各オーディオ機器のウェイクアップ率の変化状況を大量かつ迅速に監視することができる。

かつ、手動注釈等の不確定要素を考慮する必要がなく、ウェイクアップ率監視の操作性が高く、人的資源を節約し、異なる機器に対してウェイクアップ率監視を行うことをサポートすることができ、再利用性が高く、拡張性が高い。また、教師なしの監視を実現し、警報閾値を限定し、オンライン監視警報を実現することができる。

好ましくは、前記ステップＳ１０１の前に、前記方法は、
Ｎ個のオーディオ機器のＰ個のオーディオデータ及び前記Ｐ個のオーディオデータの注釈結果を取得するステップであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第２のウェイクアップワードが含まれるか否かを表し、Ｎは正の整数であり、Ｐは１より大きい正の整数であるステップと、
前記Ｐ個のオーディオデータのうち各オーディオデータの第２のウェイクアップ信頼度を決定するステップと、
前記Ｐ個のオーディオデータに占める割合が予め設定された閾値より大きい第２のオーディオデータの第２のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得するステップであって、前記第２のオーディオデータは、注釈結果が前記第２のウェイクアップワードを含むことを表すオーディオデータであるステップと、をさらに含む。

本実施形態は、監視対象機器のウェイクアップ率を監視する前に、ウェイクアップ率監視装置がターゲット区間を決定する過程を説明する。該ターゲット区間を決定した後、一般的に複数回使用することができる。

オンラインの各オーディオ機器のオーディオデータが、実際にウェイクアップされる時のウェイクアップ信頼度の区間であることを評価することにより、前記ターゲット区間を決定することができ、前記ターゲット区間はウェイクアップ閾値範囲であってもよい。すなわち、複数のオーディオ機器の多くのオーディオデータがウェイクアップ信頼度のある区間に、いずれもオーディオ機器をウェイクアップするためのウェイクアップワードを含むと、該区間内にあるウェイクアップ信頼度に対応するオーディオデータが、オーディオ機器が実際にウェイクアップされる時に生成したデータである。

具体的には、オンラインのＮ個のオーディオ機器のＰ個のオーディオデータを抽出することができ、Ｎは正の整数であり、通常、Ｎの値は１より大きい。即ち、オンラインの複数のオーディオ機器の複数個のオーディオデータを抽出し、例えば、オンラインの複数のオーディオ機器の５万個のオーディオデータを抽出することができる。

同時に、前記Ｐ個のオーディオデータの注釈結果を取得することができ、該注釈結果は手動注釈の方式又は音声認識技術を用いて、前記Ｐ個のオーディオデータを注釈してから取得することができる。注釈結果は、２種類を含んでもよく、第１の種は、オーディオデータにはウェイクアップワードが含まれる注釈結果であってもよく、第２の種は、オーディオデータにはウェイクアップワードが含まれない注釈結果であってもよい。

ウェイクアップ信頼度モデルを採用して前記Ｐ個のオーディオデータのうち各オーディオデータのウェイクアップ信頼度をスコアリングし、前記Ｐ個のオーディオデータのうち各オーディオデータの第２のウェイクアップ信頼度を取得することができ、前記第２のウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするための第２のウェイクアップワードを含む確率を表す。

注釈結果を第２のウェイクアップ信頼度のスコアリング区間ごとに統計すると、第２のウェイクアップ信頼度が存在する区間のオーディオデータの注釈結果が、実際にウェイクアップされるオーディオデータの占める割合が所定の閾値、例えば９９％よりも大きいと示す場合、第２のウェイクアップ信頼度が存在する該区間はターゲット区間であると考え、例えば、該ターゲット区間は０．７を超えてもよく、すなわち、０．７を超える第２のウェイクアップ信頼度に対応するオーディオデータがいずれもオーディオ機器が実際にウェイクアップされる時のデータであると考えることができる。

本実施形態では、オンラインの各オーディオ機器の複数のオーディオデータが、実際にウェイクアップされる時の第２のウェイクアップ信頼度が存在する区間であることを統計することにより、ウェイクアップ閾値範囲のターゲット区間として決定し、監視対象機器のウェイクアップ率を自動的に、教師なしで監視することを実現することができる。

好ましくは、前記Ｐ個のオーディオデータは、前記Ｎ個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記Ｎ個のオーディオ機器のＰ個のオーディオデータを取得するステップは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してＬ個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのＬ（Ｌが正の整数である）個の分類特徴情報を取得するステップと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定するステップと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記Ｌ個の次元のオーディオサンプリング結果を取得するステップと、
前記Ｌ個の次元のオーディオサンプリング結果を含む前記Ｐ個のオーディオデータを生成するステップと、を含む。

本実施形態では、オーディオ機器のオーディオデータは、ユーザーの使用時間に強く関連するため、時間次元からオーディオデータを分類することができる。

かつ、中国の南北方出身のユーザーのオーディオ機器の使用習慣の違いにより、異なる地域のオーディオデータも大きく異なるため、地域次元からオーディオデータを分類することもできる。

また、オンラインのオーディオ機器のバージョン及び種類が様々であってもよいため、オーディオデータのソースは様々であってもよく、例えば、インテリジェントスピーカー機器又はインテリジェント録音機器等に由来するため、オーディオデータのソース次元からオーディオデータを分類することもできる。

より多くの使用シーンをできるだけカバーするために、Ｌが３であることを例とし、前記Ｌ個の次元は時間次元、地域次元及びオーディオデータのソース次元である。各オーディオデータに対して、それぞれ前記オーディオログデータにおける各オーディオデータに対して時間次元、地域次元及びオーディオデータのソース次元の分類を行うことができる。

例えば、あるオーディオデータがユーザーの使用時間に強く関連し、ユーザーの朝のオーディオデータであり場合、時間次元での該オーディオデータの分類特徴情報は朝のオーディオデータである。該オーディオデータが北方地域のオーディオデータである場合、地域次元での該オーディオデータの分類特徴情報は、北方地域のオーディオデータである。また、該オーディオデータがインテリジェントスピーカー機器に由来する場合、オーディオデータのソース次元での該オーディオデータの分類特徴情報はインテリジェントスピーカー機器に由来するオーディオデータである。

前記オーディオログデータにおけるオーディオデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定することができる。例えば、前記オーディオログデータにおけるオーディオデータの時間次元での分類特徴情報に基づいて、時間次元上のオーディオ特徴情報が朝と夜のオーディオデータが多く、午前及び午後のオーディオデータが少ないことを統計して得ることができる。

前記オーディオログデータにおけるオーディオデータの地域次元での分類特徴情報に基づいて、地域次元上の東西南北地域のオーディオデータの割合を統計して得ることができる。前記オーディオログデータにおけるオーディオデータのオーディオデータのソース次元での分類特徴情報に基づいて、各ソースでのオーディオデータの流量を統計して得ることができる。

その後、それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記Ｌ個の次元のオーディオサンプリング結果を得る。

例えば、オーディオログデータの時間次元でのオーディオ特徴情報が朝と夜のオーディオデータが多く、午前及び午後のオーディオデータが少ないと、サンプリング時に、朝のオーディオデータと夜のオーディオデータから高頻度サンプリングを行うことができ、午前のオーディオデータと午後のオーディオデータから低頻度サンプリングを行う。

地域次元において、東西南北地域のオーディオデータの割合に応じて、異なる地域のオーディオデータを選択することにより、選択されたオーディオデータがより多くの使用シーンにヒットすることを保証する。例えば、東西南北地域のオーディオデータの割合は、それぞれ１：２：３：４であり、１万個のオーディオデータを選択する必要があれば、東方地域のオーディオデータから１千個のオーディオデータを選択し、西方地域のオーディオデータから２千個のオーディオデータを選択し、南方地域のオーディオデータから３千個のオーディオデータを選択し、北方地域のオーディオデータから４千個のオーディオデータを選択する。

オーディオデータのソース次元において、同じ割合に応じて異なるソースでのオーディオデータを選択することができ、あるソースでのオーディオデータの流量が小さければ、サンプリングの割合を向上させることができ、ある機器のオーディオデータの数が少なくて実際にウェイクアップされる時のウェイクアップ信頼度が存在するターゲット区間を効果的に評価することができないことを防止する。例えば、それぞれ０．０１％の割合に応じて各ソースでのオーディオデータからオーディオデータをサンプリングすることができ、インテリジェントスピーカー機器のオーディオデータの流量が小さければ、１％の割合に応じてインテリジェントスピーカー機器のオーディオデータからオーディオデータをサンプリングすることができる。

前記Ｌ個の次元のオーディオサンプリング結果を集約し、オーディオデータ集合を取得する。集約時にＬ個の次元のオーディオサンプリング結果のオーディオデータが重複すれば、重複するオーディオデータを除去すればよく、最終的に前記Ｎ個のオーディオ機器のＰ個のオーディオデータを取得する。

本実施形態において、オーディオログデータにおける各オーディオデータに対してそれぞれＬ個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのＬ個の分類特徴情報を取得し、前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定する。このように、異なる次元のオーディオ特徴情報に基づいて、オーディオログデータにおけるオーディオデータを精細化して選択することにより、取得されたＰ個のオーディオデータをより多くの使用シーンにヒットさせることができ、さらに各オーディオ機器が実際にウェイクアップされる時に大部分のオーディオデータの第２のウェイクアップ信頼度が存在するターゲット区間を効果的に評価し、ターゲット区間の特徴付け能力を向上させることができる。

好ましくは、前記Ｌ個の次元は、
オーディオデータに対応する機器種別、
オーディオデータに対応する時間帯、
オーディオデータに対応する地域のうちの少なくとも１つを含む。

本実施形態において、オーディオデータに対応する機器種別はオーディオデータのソースであり、それはオーディオデータのソース次元に対応し、例えば、オーディオデータに対応する機器種別がインテリジェントスピーカー機器であれば、該オーディオデータのソースは該インテリジェントスピーカー機器である。

本実施形態において、オーディオデータに対応する機器種別、時間帯及び地域のいくつかの次元により、前記オーディオログデータにおける各オーディオデータを分類して、オーディオログデータからオーディオ機器により多く使用されるシーンのオーディオデータを精細化して選択することができる。

好ましくは、前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定するステップは、
ターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得するステップであって、前記ターゲットオーディオデータは、前記Ｍ個のオーディオデータのいずれかであるステップと、
前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第１のウェイクアップ信頼度を取得するステップと、を含む。

本実施形態において、前記ウェイクアップ確信度モデルは、ウェイクアップオフラインモデル及び信頼度モデルを含み、前記ウェイクアップオフラインモデル及び信頼度モデルは直列に実現されてもよく、前記ウェイクアップオフラインモデルはターゲットオーディオデータに特徴抽出を行うことにより、前記ターゲットオーディオデータのオーディオ特徴を取得し、信頼度モデルはターゲットオーディオデータのオーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第１のウェイクアップ信頼度を取得する。

本実施形態において、ターゲットオーディオデータに特徴抽出を行うことにより、前記ターゲットオーディオデータのオーディオ特徴を取得し、前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第１のウェイクアップ信頼度を取得することにより、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を評価することを実現することができる。

第２の実施例
図２に示すように、本願に係るウェイクアップ指標の監視方法は、
ステップＳ２０１では、監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得する。

ステップＳ２０２では、前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定し、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表す。

ステップＳ２０３では、前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得し、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す。

ステップＳ２０４では、前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定し、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む。

本実施例は、監視対象機器のウェイクアップ指標を監視するために用いられ、前記ウェイクアップ指標は、誤ウェイクアップ率であってもよく、監視対象機器のウェイクアップ性能を監視し、機器検収又は製品開発を行う。

本実施例は、第１の実施例におけるステップの実現方式と類似し、ターゲット区間の閾値範囲が異なるため、その意味が異なり、監視されたウェイクアップ指標は前記検出対象機器の誤ウェイクアップ率である。

具体的には、前記ターゲット区間は誤ウェイクアップ閾値範囲であってもよく、該種類の応用シーンでは、前記ターゲット区間は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す。オーディオ機器は、インテリジェントオーディオ機器であってもよい。すなわち、オーディオデータのウェイクアップ信頼度が前記ターゲット区間に存在する場合、オーディオデータは一般的にオーディオ機器のウェイクアップワードを含まない。

前記ターゲット区間が誤ウェイクアップ閾値範囲である応用シーンでは、前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を前記ターゲット区間とマッチングし、前記Ｍ個のオーディオデータのうちオーディオデータの第１のウェイクアップ信頼度が前記ターゲット区間に存在する場合、該オーディオデータは第１のオーディオデータであり、第１のウェイクアップワードを含まず、すなわち、該オーディオデータは、監視対象機器が誤ってウェイクアップされる場合のオーディオデータである。前記Ｍ個のオーディオデータのうちオーディオデータの第１のウェイクアップ信頼度が前記ターゲット区間に存在しない場合、該オーディオデータは第１のオーディオデータではなく、第１のウェイクアップワードを含む可能性があり、すなわち、該オーディオデータが、監視対象機器が実際にウェイクアップされる場合オーディオデータであると考えられる。

前記ターゲット区間が誤ウェイクアップ閾値範囲である応用シーンでは、第１のオーディオデータが監視対象機器が誤ってウェイクアップされる時に対応するオーディオデータであるため、第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定することができる。

実際の応用において、該誤ウェイクアップ率は製品検証の評価基準とすることができ、例えば、監視対象機器の誤ウェイクアップ率が高いほど、該製品のウェイクアップ性能が低く、該製品はウェイクアップ性能の面で改善する必要があり、監視対象機器の誤ウェイクアップ率が低いほど、該製品のウェイクアップ性能が高いことを示す。

実際の応用において、該誤ウェイクアップ率は、製品のバージョンのウェイクアップ機能を検証することもでき、例えば、製品の開発時に、監視対象機器に新たなバージョンのソフトウェアが埋め込まれ、該バージョンのソフトウェアのウェイクアップ性能が向上するか否かを検証するために、新たなバージョンのソフトウェアが埋め込まれた監視対象機器の誤ウェイクアップ率と古いバージョンのソフトウェアが埋め込まれた監視対象機器の誤ウェイクアップ率とを比較して、誤ウェイクアップ率が低下すると、新たなバージョンのソフトウェアがウェイクアップ性能で向上したと示し、そうでなければ改善する必要がある。

本実施例において、監視対象機器のＭ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することにより、前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得し、前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定し、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す。このように、監視対象機器のオンラインのオーディオデータに対して誤ウェイクアップ率の監視を自動的かつタイムリーに行い、誤ウェイクアップ率の監視の精度を向上させることができる。オンラインの各オーディオ機器の誤ウェイクアップ率の変化状況を大量かつ迅速に監視することができる。

好ましくは、前記ステップＳ２０１の前に、
Ｎ個のオーディオ機器のＰ個のオーディオデータ及び前記Ｐ個のオーディオデータの注釈結果を取得するステップであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第２のウェイクアップワードが含まれるか否かを表し、Ｎは正の整数であり、Ｐは１より大きい正の整数であるステップと、
前記Ｐ個のオーディオデータのうち各オーディオデータの第２のウェイクアップ信頼度を決定するステップと、
前記Ｐ個のオーディオデータに占める割合が予め設定された閾値より大きい第２のオーディオデータの第２のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得するステップであって、前記第２のオーディオデータは、注釈結果が前記第２のウェイクアップワードを含まないことを表すオーディオデータであるステップと、をさらに含む。

本実施形態において、オンラインの各オーディオ機器のオーディオデータが、誤ってウェイクアップされる時のウェイクアップ信頼度の区間であることを評価することにより、前記ターゲット区間を決定することができ、前記ターゲット区間は誤ウェイクアップ閾値範囲であってもよい。すなわち、複数のオーディオ機器の多くのオーディオデータがウェイクアップ信頼度のある区間に、いずれもオーディオ機器をウェイクアップするためのウェイクアップワードを含まないと、該区間内にあるウェイクアップ信頼度に対応するオーディオデータが、オーディオ機器が誤ってウェイクアップされる時に生成したデータである。

具体的には、前記Ｐ個のオーディオデータのうち各オーディオデータの第２のウェイクアップ信頼度を決定した後、注釈結果を第２のウェイクアップ信頼度のスコアリング区間ごとに統計すると、第２のウェイクアップ信頼度が存在する区間のオーディオデータの注釈結果が、誤ってウェイクアップされるオーディオデータの占める割合が所定の閾値、例えば９５％よりも大きいと示す場合、第２のウェイクアップ信頼度が存在する該区間はターゲット区間であると考え、例えば、該ターゲット区間は０．６未満であってもよく、すなわち、０．６未満の第２のウェイクアップ信頼度に対応するオーディオデータがいずれもオーディオ機器が誤ってウェイクアップされる時のデータであると考えることができる。

オンラインの各オーディオ機器の複数のオーディオデータが、誤ってウェイクアップされる時の第２のウェイクアップ信頼度が存在する区間を統計することにより、誤ウェイクアップ閾値範囲のターゲット区間として決定し、監視対象機器の誤ウェイクアップ率を自動的に、教師なしで監視することを実現することもできる。

第３の実施例
図３に示すように、本願に係るウェイクアップ指標の監視装置３００は、
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得する第１の取得モジュール３０１と、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定する第１の決定モジュールであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表す第１の決定モジュール３０２と、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得する第２の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第２の取得モジュール３０３と、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第２の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第２の決定モジュール３０４と、を含む。

好ましくは、前記装置は、
Ｎ個のオーディオ機器のＰ個のオーディオデータ及び前記Ｐ個のオーディオデータの注釈結果を取得する第３の取得モジュールであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第２のウェイクアップワードが含まれるか否かを表し、Ｎは正の整数であり、Ｐは１より大きい正の整数である第３の取得モジュールと、
前記Ｐ個のオーディオデータのうち各オーディオデータの第２のウェイクアップ信頼度を決定する第３の決定モジュールと、
前記Ｐ個のオーディオデータに占める割合が予め設定された閾値より大きい第２のオーディオデータの第２のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得する統計モジュールであって、前記第２のオーディオデータは、注釈結果が前記第２のウェイクアップワードを含むことを表すオーディオデータである統計モジュールと、をさらに含む。

好ましくは、前記Ｐ個のオーディオデータは、前記Ｎ個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記第３の取得モジュールは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してＬ個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのＬ（Ｌが正の整数である）個の分類特徴情報を取得する分類ユニットと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定する第１の決定ユニットと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記Ｌ個の次元のオーディオサンプリング結果を取得する第２の決定ユニットと、
前記Ｌ個の次元のオーディオサンプリング結果を含む前記Ｐ個のオーディオデータを生成する生成ユニットと、を含む。

好ましくは、前記第１の決定モジュール３０２は、具体的には、ターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得し、前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第１のウェイクアップ信頼度を取得する。前記ターゲットオーディオデータは、前記Ｍ個のオーディオデータのいずれかである。

本願に係るウェイクアップ指標の監視装置３００は、上記ウェイクアップ指標の監視方法の第１の実施例が実現する各過程を実現することができ、かつ同様の有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。

第４の実施例
図４に示すように、本願に係るウェイクアップ指標の監視装置４００は、
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得する第４の取得モジュール４０１と、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定する第４の決定モジュールであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表す第４の決定モジュール４０２と、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得する第５の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第５の取得モジュール４０３と、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第５の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第５の決定モジュール４０４と、を含む。

本願に係るウェイクアップ指標の監視装置４００は、上記ウェイクアップ指標の監視方法の第２の実施例が実現する各過程を実現することができ、かつ同様の有益な効果を達成することができ、重複を回避するために、ここでは説明を省略する。

本願の実施例によれば、本願は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。

図５は、本開示の実施例を実施することが可能な電子機器５００を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器は、さらに様々な形式の移動装置を表示することができ、例えば、パーソナル・デジタル・アシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図５に示すように、機器５００は計算ユニット５０１を含み、それはリードオンリーメモリ（ＲＯＭ）５０２に記憶されたコンピュータプログラム又は記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ５０３には、さらに記憶機器５００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４を介して相互に接続されている。バス５０４には、さらに、入出力（Ｉ／Ｏ）インタフェース５０５が接続されている。

機器５００における複数の部品はＩ／Ｏインタフェース５０５に接続され、例えばキーボード、マウス等である入力ユニット５０６と、例えば様々なタイプのディスプレイ、スピーカ等である出力ユニット５０７と、例えば磁気ディスク、光ディスク等である記憶ユニット５０８と、例えばネットワークカード、モデム、無線通信トランシーバ等である通信ユニット５０９と、を含む。通信ユニット５０９は、機器５００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信ネットワークを介して、他の機器と情報／データをやり取りすることを可能にする。

計算ユニット５０１は、各種の処理および計算能力を有する汎用及び／又は専用の処理モジュールであってもよい。計算ユニット５０１としては、中央処理ユニット（ＣＰＵ）、画像処理ユニット（ＧＰＵ）、各種専用の人工知能（ＡＩ）計算チップ、各種機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号処理手段（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット５０１は上記説明した各方法及び処理を実行し、例えばウェイクアップ指標の監視方法を実行する。例えば、いくつかの実施例において、ウェイクアップ指標の監視方法はコンピュータソフトウェアプログラムとして実現され、それは機械読み取り可能な媒体、例えば記憶ユニット５０８に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はＲＯＭ５０２及び／又は通信ユニット５０９を介して機器５００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ５０３にロードされかつ計算ユニット５０１により実行される場合、上記ウェイクアップ指標の監視方法の１つ又は複数のステップを実行することができる。代替として、他の実施例において、計算ユニット５０１は、他の任意の適切な方式（例えば、ファームウェアによって）によりウェイクアップ指標の監視方法を実行するように構成されてもよい。

本明細書で以上に説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、システム・オン・チップのシステム（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実現され得る。これらの各種実施形態は、１つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この１つ又は複数のコンピュータプログラムが、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び／又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも１つの入力装置と、少なくとも１つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも１つの入力装置と、この少なくとも１つの出力装置とに転送してもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せによって書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されて、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び／又はブロック図に規定された機能・操作が実施されるようにしてもよい。プログラムコードは、完全に機器上に実行されてもよいし、部分的に機器上に実行されてもよく、独立ソフトウェアパッケージとして部分的に機器上に実行され且つ部分的に遠隔機器上に実行され、或いは完全に遠隔機器又はサーバ上に実行される。

本開示のコンテキストにおいて、機器読取可能な媒体は、有形的な媒体であってもよく、それが、コマンド実行システム、装置又は機器に使用され、又はコマンド実行システム、装置又は機器と組合せて使用されるプログラムを含み、或いは記憶してもよい。機器読取可能な媒体は、機器読取可能な信号媒体や、機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子的なもの、磁性的なもの、光学的なもの、電磁的なもの、赤外のもの、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組合せを含むが、これらに限られない。機器読取可能な記憶媒体のより具体的な例示は、１つ又は複数のラインによる電気接続、携帯コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光的記憶デバイス、磁気記憶デバイス、又は上記内容の任意の適宜な組合せを含む。

ユーザとのインタラクションを提供するために、コンピュータでここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレー）モニタ）と、キーボード及び指向装置（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（声入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとする）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）と、広域ネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント―サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバは、クラウドサーバー、すなわちクラウドコンピューティングサーバ又はクラウドホストとも称され、従来の物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」又は単に「ＶＰＳ」）における管理の困難さが大きく、サービスの拡張性が弱いという欠点を解決するために、クラウドコンピューティングサービスのアーキテクチャにおけるホスト製品の１つであってもよい。サーバは、分散システムのサーバ、または、ブロックチェーンを結合したサーバであってもよい。

上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。

上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本願の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本願の保護範囲内に含まれるべきである。

本願は、２０２０年１２月２８日に中国特許庁に提出された中国特許出願Ｎｏ．２０２０１１５７７３４１．７の優先権を主張し、その全ての内容が援用によりここに取り込まれる。

Claims

監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得することと、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表すことと、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータには前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表すことと、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含むことと、を含み、
前記監視対象機器のＭ個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータであり、前記起動された後のオーディオデータは、前記監視対象機器がウェイクアップされた後に生成したオーディオデータを含み、
前記ターゲット区間は、前記Ｍ個のオーディオデータのうち各オーディオデータにおける前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードを含むウェイクアップ閾値範囲である、
電子機器によるウェイクアップ指標の監視方法。
監視対象機器のＭ個のオーディオデータを取得する前に、前記方法は、
Ｎ個のオーディオ機器のＰ個のオーディオデータ及び前記Ｐ個のオーディオデータの注釈結果を取得することであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第２のウェイクアップワードが含まれるか否かを表し、Ｎは正の整数であり、Ｐは１より大きい正の整数であることと、
前記Ｐ個のオーディオデータのうち各オーディオデータの第２のウェイクアップ信頼度を決定することと、
前記Ｐ個のオーディオデータに占める割合が予め設定された閾値より大きい第２のオーディオデータの第２のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得することであって、前記第２のオーディオデータは、注釈結果が前記第２のウェイクアップワードを含むことを表すオーディオデータであることと、をさらに含み、
前記予め設定された閾値は、前記監視対象機器としてのオーディオ機器が実際にウェイクアップされるオーディオデータと前記Ｐ個のオーディオデータとの比を指す、
請求項１に記載の方法。
前記Ｐ個のオーディオデータは、前記Ｎ個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記Ｎ個のオーディオ機器のＰ個のオーディオデータを取得することは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してＬ個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのＬ（Ｌが正の整数である）個の分類特徴情報を取得することと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定することと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記Ｌ個の次元のオーディオサンプリング結果を取得することと、
前記Ｌ個の次元のオーディオサンプリング結果を含む前記Ｐ個のオーディオデータを生成することと、を含む請求項２に記載の方法。
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することは、
ターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得することであって、前記ターゲットオーディオデータは、前記Ｍ個のオーディオデータのいずれかであることと、
前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第１のウェイクアップ信頼度を取得することと、を含む請求項１に記載の方法。
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得することと、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定することであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表すことと、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータには前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表すことと、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含むことと、を含み、
前記監視対象機器のＭ個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータであり、前記起動された後のオーディオデータは、前記監視対象機器がウェイクアップされた後に生成したオーディオデータを含み、
前記ターゲット区間は、前記Ｍ個のオーディオデータのうち各オーディオデータにおける前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードを含まないウェイクアップ閾値範囲である、
電子機器によるウェイクアップ指標の監視方法。
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得する第１の取得モジュールと、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定する第１の決定モジュールであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表す第１の決定モジュールと、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得する第２の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータには前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第２の取得モジュールと、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第２の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第２の決定モジュールと、を含み、
前記監視対象機器のＭ個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータであり、前記起動された後のオーディオデータは、前記監視対象機器がウェイクアップされた後に生成したオーディオデータを含み、
前記ターゲット区間は、前記Ｍ個のオーディオデータのうち各オーディオデータにおける前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードを含むウェイクアップ閾値範囲である、
ウェイクアップ指標の監視装置。
Ｎ個のオーディオ機器のＰ個のオーディオデータ及び前記Ｐ個のオーディオデータの注釈結果を取得する第３の取得モジュールであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第２のウェイクアップワードが含まれるか否かを表し、Ｎは正の整数であり、Ｐは１より大きい正の整数である第３の取得モジュールと、
前記Ｐ個のオーディオデータのうち各オーディオデータの第２のウェイクアップ信頼度を決定する第３の決定モジュールと、
前記Ｐ個のオーディオデータに占める割合が予め設定された閾値より大きい第２のオーディオデータの第２のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得する統計モジュールであって、前記第２のオーディオデータは、注釈結果が前記第２のウェイクアップワードを含むことを表すオーディオデータである統計モジュールと、をさらに含み、
前記予め設定された閾値は、前記監視対象機器としてのオーディオ機器が実際にウェイクアップされるオーディオデータと前記Ｐ個のオーディオデータとの比を指す、
請求項６に記載の装置。
前記Ｐ個のオーディオデータは、前記Ｎ個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記第３の取得モジュールは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してＬ個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのＬ（Ｌが正の整数である）個の分類特徴情報を取得する分類ユニットと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定する第１の決定ユニットと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記Ｌ個の次元のオーディオサンプリング結果を取得する第２の決定ユニットと、
前記Ｌ個の次元のオーディオサンプリング結果を含む前記Ｐ個のオーディオデータを生成する生成ユニットと、を含む請求項７に記載の装置。
前記第１の決定モジュールは、具体的には、前記Ｍ個のオーディオデータのいずれかであるターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得し、前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第１のウェイクアップ信頼度を取得する、請求項６に記載の装置。
監視対象機器のＭ（Ｍが１より大きい正の整数である）個のオーディオデータを取得する第４の取得モジュールと、
前記Ｍ個のオーディオデータのうち各オーディオデータの第１のウェイクアップ信頼度を決定する第４の決定モジュールであって、前記第１のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第１のウェイクアップワードが含まれる確率を表す第４の決定モジュールと、
前記Ｍ個のオーディオデータのうち第１のウェイクアップ信頼度がターゲット区間に存在する第１のオーディオデータを取得する第５の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータには前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第５の取得モジュールと、
前記第１のオーディオデータの前記Ｍ個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第５の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第５の決定モジュールと、を含み、
前記監視対象機器のＭ個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータであり、前記起動された後のオーディオデータは、前記監視対象機器がウェイクアップされた後に生成したオーディオデータを含み、
前記ターゲット区間は、前記Ｍ個のオーディオデータのうち各オーディオデータにおける前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードを含まないウェイクアップ閾値範囲である、
ウェイクアップ指標の監視装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも１つのプロセッサにより実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１－４のいずれか一項に記載の方法を実行させるか、又は請求項５に記載の方法を実行させる、電子機器。
コンピュータプログラムを記憶している非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、コンピュータに請求項１－４のいずれか一項に記載の方法を実行させるか、又は請求項５に記載の方法を実行させるためのものである、非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される場合、前記電子機器は、請求項１－４のいずれか一項に記載の方法を実行するか、又は請求項５に記載の方法を実行する、コンピュータプログラム。