JP7349012B2 - ウェイクアップ指標の監視方法、装置及び電子機器 - Google Patents
ウェイクアップ指標の監視方法、装置及び電子機器 Download PDFInfo
- Publication number
- JP7349012B2 JP7349012B2 JP2022514849A JP2022514849A JP7349012B2 JP 7349012 B2 JP7349012 B2 JP 7349012B2 JP 2022514849 A JP2022514849 A JP 2022514849A JP 2022514849 A JP2022514849 A JP 2022514849A JP 7349012 B2 JP7349012 B2 JP 7349012B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- wake
- audio
- data
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000012544 monitoring process Methods 0.000 title claims description 43
- 230000002618 waking effect Effects 0.000 claims description 35
- 238000005070 sampling Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012806 monitoring device Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims 4
- 230000003993 interaction Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012356 Product development Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Electric Clocks (AREA)
- Debugging And Monitoring (AREA)
Description
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得することと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表すことと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含むことと、を含む。
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得することと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表すことと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含むことと、を含む。
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第1の取得モジュールと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第1の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第1の決定モジュールと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第2の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第2の取得モジュールと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第2の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第2の決定モジュールと、を含む。
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第4の取得モジュールと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第4の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第4の決定モジュールと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第5の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第5の取得モジュールと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第5の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第5の決定モジュールと、を含む。
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
メモリは、少なくとも1つのプロセッサにより実行可能な命令を記憶し、該命令は、少なくとも1つのプロセッサにより実行されると、少なくとも1つのプロセッサに第1の態様のいずれかの方法を実行させるか、又は第2の態様のいずれかの方法を実行させる。
図1に示すように、本願は、ウェイクアップ指標の監視方法を提供し、以下のステップS101~ステップS104を含む。
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得するステップであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数であるステップと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定するステップと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得するステップであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含むことを表すオーディオデータであるステップと、をさらに含む。
それぞれ前記オーディオログデータにおける各オーディオデータに対してL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL(Lが正の整数である)個の分類特徴情報を取得するステップと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定するステップと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を取得するステップと、
前記L個の次元のオーディオサンプリング結果を含む前記P個のオーディオデータを生成するステップと、を含む。
オーディオデータに対応する機器種別、
オーディオデータに対応する時間帯、
オーディオデータに対応する地域のうちの少なくとも1つを含む。
ターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得するステップであって、前記ターゲットオーディオデータは、前記M個のオーディオデータのいずれかであるステップと、
前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得するステップと、を含む。
図2に示すように、本願に係るウェイクアップ指標の監視方法は、
ステップS201では、監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する。
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得するステップであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数であるステップと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定するステップと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得するステップであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含まないことを表すオーディオデータであるステップと、をさらに含む。
図3に示すように、本願に係るウェイクアップ指標の監視装置300は、
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第1の取得モジュール301と、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第1の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第1の決定モジュール302と、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第2の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第2の取得モジュール303と、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第2の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第2の決定モジュール304と、を含む。
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得する第3の取得モジュールであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数である第3の取得モジュールと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定する第3の決定モジュールと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得する統計モジュールであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含むことを表すオーディオデータである統計モジュールと、をさらに含む。
それぞれ前記オーディオログデータにおける各オーディオデータに対してL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL(Lが正の整数である)個の分類特徴情報を取得する分類ユニットと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定する第1の決定ユニットと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を取得する第2の決定ユニットと、
前記L個の次元のオーディオサンプリング結果を含む前記P個のオーディオデータを生成する生成ユニットと、を含む。
図4に示すように、本願に係るウェイクアップ指標の監視装置400は、
監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第4の取得モジュール401と、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第4の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第4の決定モジュール402と、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第5の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータにはオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第5の取得モジュール403と、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第5の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第5の決定モジュール404と、を含む。
Claims (13)
- 監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得することと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータには前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表すことと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含むことと、を含み、
前記監視対象機器のM個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータであり、前記起動された後のオーディオデータは、前記監視対象機器がウェイクアップされた後に生成したオーディオデータを含み、
前記ターゲット区間は、前記M個のオーディオデータのうち各オーディオデータにおける前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードを含むウェイクアップ閾値範囲である、
電子機器によるウェイクアップ指標の監視方法。 - 監視対象機器のM個のオーディオデータを取得する前に、前記方法は、
N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得することであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数であることと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定することと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得することであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含むことを表すオーディオデータであることと、をさらに含み、
前記予め設定された閾値は、前記監視対象機器としてのオーディオ機器が実際にウェイクアップされるオーディオデータと前記P個のオーディオデータとの比を指す、
請求項1に記載の方法。 - 前記P個のオーディオデータは、前記N個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記N個のオーディオ機器のP個のオーディオデータを取得することは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL(Lが正の整数である)個の分類特徴情報を取得することと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定することと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を取得することと、
前記L個の次元のオーディオサンプリング結果を含む前記P個のオーディオデータを生成することと、を含む請求項2に記載の方法。 - 前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することは、
ターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得することであって、前記ターゲットオーディオデータは、前記M個のオーディオデータのいずれかであることと、
前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得することと、を含む請求項1に記載の方法。 - 監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得することと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定することであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表すことと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得することであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータには前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表すことと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定することであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含むことと、を含み、
前記監視対象機器のM個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータであり、前記起動された後のオーディオデータは、前記監視対象機器がウェイクアップされた後に生成したオーディオデータを含み、
前記ターゲット区間は、前記M個のオーディオデータのうち各オーディオデータにおける前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードを含まないウェイクアップ閾値範囲である、
電子機器によるウェイクアップ指標の監視方法。 - 監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第1の取得モジュールと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第1の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第1の決定モジュールと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第2の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータには前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードが含まれることを表す第2の取得モジュールと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器のウェイクアップ率として決定する第2の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記ウェイクアップ率を含む第2の決定モジュールと、を含み、
前記監視対象機器のM個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータであり、前記起動された後のオーディオデータは、前記監視対象機器がウェイクアップされた後に生成したオーディオデータを含み、
前記ターゲット区間は、前記M個のオーディオデータのうち各オーディオデータにおける前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードを含むウェイクアップ閾値範囲である、
ウェイクアップ指標の監視装置。 - N個のオーディオ機器のP個のオーディオデータ及び前記P個のオーディオデータの注釈結果を取得する第3の取得モジュールであって、前記注釈結果は、オーディオデータにはオーディオ機器をウェイクアップするための第2のウェイクアップワードが含まれるか否かを表し、Nは正の整数であり、Pは1より大きい正の整数である第3の取得モジュールと、
前記P個のオーディオデータのうち各オーディオデータの第2のウェイクアップ信頼度を決定する第3の決定モジュールと、
前記P個のオーディオデータに占める割合が予め設定された閾値より大きい第2のオーディオデータの第2のウェイクアップ信頼度が存在する区間を統計し、前記ターゲット区間を取得する統計モジュールであって、前記第2のオーディオデータは、注釈結果が前記第2のウェイクアップワードを含むことを表すオーディオデータである統計モジュールと、をさらに含み、
前記予め設定された閾値は、前記監視対象機器としてのオーディオ機器が実際にウェイクアップされるオーディオデータと前記P個のオーディオデータとの比を指す、
請求項6に記載の装置。 - 前記P個のオーディオデータは、前記N個のオーディオ機器のオーディオログデータから取得され、前記オーディオログデータは、複数のオーディオデータを含み、前記第3の取得モジュールは、
それぞれ前記オーディオログデータにおける各オーディオデータに対してL個の次元の分類を行うことにより、前記オーディオログデータにおける各オーディオデータのL(Lが正の整数である)個の分類特徴情報を取得する分類ユニットと、
前記オーディオログデータの分類特徴情報に基づいて各次元のオーディオ特徴情報を決定する第1の決定ユニットと、
それぞれ各次元のオーディオ特徴情報に基づいて前記オーディオログデータにサンプリングを行うことにより、前記L個の次元のオーディオサンプリング結果を取得する第2の決定ユニットと、
前記L個の次元のオーディオサンプリング結果を含む前記P個のオーディオデータを生成する生成ユニットと、を含む請求項7に記載の装置。 - 前記第1の決定モジュールは、具体的には、前記M個のオーディオデータのいずれかであるターゲットオーディオデータに対して特徴抽出を行い、前記ターゲットオーディオデータのオーディオ特徴を取得し、前記オーディオ特徴に基づいて前記ターゲットオーディオデータをスコアリングし、前記ターゲットオーディオデータの第1のウェイクアップ信頼度を取得する、請求項6に記載の装置。
- 監視対象機器のM(Mが1より大きい正の整数である)個のオーディオデータを取得する第4の取得モジュールと、
前記M個のオーディオデータのうち各オーディオデータの第1のウェイクアップ信頼度を決定する第4の決定モジュールであって、前記第1のウェイクアップ信頼度は、オーディオデータには前記監視対象機器をウェイクアップするための第1のウェイクアップワードが含まれる確率を表す第4の決定モジュールと、
前記M個のオーディオデータのうち第1のウェイクアップ信頼度がターゲット区間に存在する第1のオーディオデータを取得する第5の取得モジュールであって、前記ターゲット区間に存在するウェイクアップ信頼度は、オーディオデータには前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードが含まれないことを表す第5の取得モジュールと、
前記第1のオーディオデータの前記M個のオーディオデータに占める割合を前記監視対象機器の誤ウェイクアップ率として決定する第5の決定モジュールであって、前記監視対象機器のウェイクアップ指標は、前記誤ウェイクアップ率を含む第5の決定モジュールと、を含み、
前記監視対象機器のM個のオーディオデータは、前記監視対象機器が起動された後のオーディオデータであり、前記起動された後のオーディオデータは、前記監視対象機器がウェイクアップされた後に生成したオーディオデータを含み、
前記ターゲット区間は、前記M個のオーディオデータのうち各オーディオデータにおける前記監視対象機器としてのオーディオ機器をウェイクアップするためのウェイクアップワードを含まないウェイクアップ閾値範囲である、
ウェイクアップ指標の監視装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサにより実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1-4のいずれか一項に記載の方法を実行させるか、又は請求項5に記載の方法を実行させる、電子機器。 - コンピュータプログラムを記憶している非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、コンピュータに請求項1-4のいずれか一項に記載の方法を実行させるか、又は請求項5に記載の方法を実行させるためのものである、非一時的なコンピュータ読み取り可能な記憶媒体。
- コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される場合、前記電子機器は、請求項1-4のいずれか一項に記載の方法を実行するか、又は請求項5に記載の方法を実行する、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011577341.7A CN112767935B (zh) | 2020-12-28 | 2020-12-28 | 唤醒指标监测方法、装置及电子设备 |
CN202011577341.7 | 2020-12-28 | ||
PCT/CN2021/092100 WO2022142048A1 (zh) | 2020-12-28 | 2021-05-07 | 唤醒指标监测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023512134A JP2023512134A (ja) | 2023-03-24 |
JP7349012B2 true JP7349012B2 (ja) | 2023-09-21 |
Family
ID=80820721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022514849A Active JP7349012B2 (ja) | 2020-12-28 | 2021-05-07 | ウェイクアップ指標の監視方法、装置及び電子機器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230130399A1 (ja) |
EP (1) | EP4099319A4 (ja) |
JP (1) | JP7349012B2 (ja) |
KR (1) | KR20220025148A (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081241A (zh) | 2019-11-20 | 2020-04-28 | Oppo广东移动通信有限公司 | 设备误唤醒的数据检测方法、装置、移动终端和存储介质 |
CN111767083A (zh) | 2020-02-03 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 误唤醒音频数据的收集方法、播放设备、电子设备、介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767861B (zh) * | 2016-08-22 | 2021-07-02 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
CN111880856B (zh) * | 2020-07-31 | 2023-05-16 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-07 JP JP2022514849A patent/JP7349012B2/ja active Active
- 2021-05-07 KR KR1020227004180A patent/KR20220025148A/ko unknown
- 2021-05-07 US US17/915,465 patent/US20230130399A1/en active Pending
- 2021-05-07 EP EP21912809.7A patent/EP4099319A4/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081241A (zh) | 2019-11-20 | 2020-04-28 | Oppo广东移动通信有限公司 | 设备误唤醒的数据检测方法、装置、移动终端和存储介质 |
CN111767083A (zh) | 2020-02-03 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 误唤醒音频数据的收集方法、播放设备、电子设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4099319A4 (en) | 2023-11-15 |
KR20220025148A (ko) | 2022-03-03 |
US20230130399A1 (en) | 2023-04-27 |
EP4099319A1 (en) | 2022-12-07 |
JP2023512134A (ja) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
KR102616470B1 (ko) | 이동식 신호등을 검출하는 방법, 장치, 전자 기기 및 저장 매체 | |
US20220301547A1 (en) | Method for processing audio signal, method for training model, device and medium | |
CN112528641A (zh) | 建立信息抽取模型的方法、装置、电子设备和可读存储介质 | |
WO2022142048A1 (zh) | 唤醒指标监测方法、装置及电子设备 | |
CN114244795B (zh) | 一种信息的推送方法、装置、设备及介质 | |
JP2023060846A (ja) | モデル決定方法、装置、電子機器及びメモリ | |
US20230096921A1 (en) | Image recognition method and apparatus, electronic device and readable storage medium | |
JP2022116231A (ja) | 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体 | |
JP7349012B2 (ja) | ウェイクアップ指標の監視方法、装置及び電子機器 | |
JP2023078411A (ja) | 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品 | |
US20230052623A1 (en) | Word mining method and apparatus, electronic device and readable storage medium | |
WO2023060954A1 (zh) | 数据处理与数据质检方法、装置及可读存储介质 | |
CN115665285A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113032251B (zh) | 应用程序服务质量的确定方法、设备和存储介质 | |
CN113051926B (zh) | 文本抽取方法、设备和存储介质 | |
CN114254650A (zh) | 一种信息处理方法、装置、设备及介质 | |
CN113238765B (zh) | 小程序的分发方法、装置、设备和存储介质 | |
US20220374603A1 (en) | Method of determining location information, electronic device, and storage medium | |
CN113657126B (zh) | 翻译的方法、装置及电子设备 | |
CN114416678A (zh) | 一种资源处理方法、装置、设备以及存储介质 | |
CN115904899A (zh) | 操作记录生成、操作记录获取方法、装置、设备及介质 | |
CN116434244A (zh) | 一种用于识别文本的模型的训练方法以及文本识别方法 | |
CN114898374A (zh) | 一种图像的语义识别方法、装置、设备和存储介质 | |
CN115828915A (zh) | 实体消歧方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7349012 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |