JP2017129860A - 音声ウェイクアップ方法及び装置 - Google Patents

音声ウェイクアップ方法及び装置 Download PDF

Info

Publication number
JP2017129860A
JP2017129860A JP2017005092A JP2017005092A JP2017129860A JP 2017129860 A JP2017129860 A JP 2017129860A JP 2017005092 A JP2017005092 A JP 2017005092A JP 2017005092 A JP2017005092 A JP 2017005092A JP 2017129860 A JP2017129860 A JP 2017129860A
Authority
JP
Japan
Prior art keywords
speech
recognition
voice
preset
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017005092A
Other languages
English (en)
Other versions
JP6453917B2 (ja
Inventor
タン,リリァン
Liliang Tang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2017129860A publication Critical patent/JP2017129860A/ja
Application granted granted Critical
Publication of JP6453917B2 publication Critical patent/JP6453917B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】処理過程を最適化し、正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる音声ウェイクアップ方法及び装置を提供する。【解決手段】ユーザーが入力した音声を取得するステップと、フレームスキップ策略を使用して音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムによりデータフレームに対して音声アクティビティ検出を行うステップと、音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて音声学特徴に対して音声認識を行うステップと、音声が認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行うステップと、を含む。【選択図】図1

Description

本出願は、音声認識処理技術に関し、特に音声ウェイクアップ方法及び装置に関する。
音声ウェイクアップ技術は、音声認識技術の重要な分岐であり、音声ウェイクアップ技術は、ユーザーの音声を傍受することにより、ユーザーが指定ウェイクアップワードを語るか否かを判断して、設備を作動させる。現在、車載、ナビゲーション、スマートホーム等の方面で重要な応用があり、声でプログラムまたはサービスを作動させる。
現在の音声ウェイクアップ手段は、主にジャンクワードネットワークに依存して音声ウェイクアップし、即ち一部のジャンクワード及びウェイクアップワードを選定して認識ネットワークを構築し、最終認識結果を得る。
但し、音声ウェイクアップ技術は、音声に対する長期的な傍受を必要とし、録音設備をつけ、且つ設備を長い期間運算状態に処させるべきである。然しながら、現在の音声ウェイクアップ技術の認識ネットワーク及びウェイクアップネットワークは、構造が複雑であり、音声アクティビティ検出、デコーディング等の過程における計算量が大きい。従って、設備の電力消耗が大きくさせ、音声に対する長期的な傍受を満たすことができなく、処理性能を下げる。
本出願は、相関技術における技術問題のうち一つを少なくともある程度解決しようとする。
このため、本出願の第一の目的は、音声ウェイクアップ方法を提供することであり、当該方法は音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。
本出願の第二の目的は、音声ウェイクアップ装置を提供することである。
上記の目的を達成するために、本出願の第1の方面の実施例が提供する音声ウェイクアップ方法は、ユーザーが入力した音声を取得するステップと、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行うステップと、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行うステップと、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行うステップと、を含む。
本出願の実施例の音声ウェイクアップ方法は、ユーザーが入力した音声を取得することにより、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出し、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識し、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。
前記目的を達成するために、本出願の第2の方面の実施例が提供する音声ウェイクアップ装置は、ユーザーが入力した音声を取得する取得モジュールと、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行う音声アクティビティ検出モジュールと、前記音声の音声学特徴を抽出する抽出モジュールと、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行う認識モジュールと、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う処理モジュールと、を含む。
本出願の実施例の音声ウェイクアップ装置は、ユーザーが入力した音声を取得することにより、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行い、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行い、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。
本発明において、上記の及び/又は付加された方面及び利点は、下記図面を結合して実施例について説明しながら明らかになり、理解されることが容易になる。その中で、
本出願の一つの実施例の音声ウェイクアップ方法のフローチャートである。 本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートであ る。 本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。 本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。 本出願の一つの実施例の音声ウェイクアップ装置の構造図である。 本出願のもう一つの実施例の音声ウェイクアップ装置の構造図である。 本出願のもう一つの実施例の音声ウェイクアップ装置の構造図である。 本出願のもう一つの実施例の音声ウェイクアップ装置の構造図である。
以下に、本出願の実施例を詳細に説明する。前記実施例の例示が図面において示されるが、一貫して同一または類似する符号は、同一又は類似の部品、または、同一又は類似の機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示性のものであり、本出願を解釈するためだけに用いられるものであって、本発明を限定するように理解されてはならない。
いかに、図面を参照しながら本出願の実施例の音声ウェイクアップ方法及び装置を詳細に説明する。
図1は、本出願の一つの実施例の音声ウェイクアップ方法のフローチャートである。
図1に示すように、当該音声ウェイクアップ方法は、下記のステップ101〜104を含む。
ステップ101:ユーザーが入力した音声を取得する。
Figure 2017129860
具体的には、本発明の実施例が提供する音声ウェイクアップ方法は、音声認識システムに応用され、ユーザーが入力した音声に対する認識を行い、認識ネットワークでの予め設定されたウェイクアップワードであるか否かを決定して、対応する処理操作を行うようにする。
ユーザーは、音声対話型インタフェースを介して音声を入力してから、最適化された音声アクティビティ検出技術(voice activity detech、VAD)を使用して入力した音声を検出する。
まず、音声の平穏且つ連続的な特性を利用して、フレームスキップ策略を使用して前記音声のデータフレームを処理することにより、従来技術に比べ、半分の計算量を減らすことができる。
説明すべきことは、異なる活用シナリオで異なるフレームスキップ策略を使用して音声のデータフレームを処理することができ、例えば、下記の二種の例示を含む。
第1例示:奇数フレーム処理
音声の第(2n-1)のフレームの特徴を抽出することにより、音声の第2nのフレームの特徴が第(2n-1)のフレームの処理結果を使用し、ここで、nは正の整数である。
または、
第2例示:偶数フレーム処理
前記音声の第2nのフレームの特徴を抽出することにより、音声の第(2n-1)のフレームの特徴が第2nのフレームの処理結果を使用し、ここで、nは正の整数である。
次に、時間領域エネルギーアルゴリズムにより前記データフレームに対する音声アクティビティ検出を行う。
従来技術に比べ、周波数領域アルゴリズムを使用しなく、即ちFFTを行わなく、時間領域エネルギーアルゴリズムだけを使用して、FFT計算量を減らし、VAD処理の電力消耗を大きく最適化する。
ステップ103:前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルによって前記音声学特徴に対する音声認識を行う。
ステップ104:前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。
具体的には、ユーザーが入力した音声に対する音声アクティビティ検出を行った後、検出できた音声情報に対する音声の音声学特徴を抽出する。
次に、予め構築した認識ネットワーク及び音声学モデルによってユーザーの音声の音声学特徴に対する音声認識を行う。
説明すべきことは、音声認識ウェイクアップ処理の電力消耗を更に減らすために、応用需要によって予め構築した認識ネットワーク及び音声学モデルを最適化でき、具体的な認識処理アルゴリズムも更に最適化できるが、後で重点的に説明することにする。音声処理アルゴリズムの方式は様々であり、例えば、予め設定された認識ネットワーク及び音声学モデルによって、ビタビアルゴリズムを使用して前記音声学特徴に対する音声認識を行う。
ひいては、認識結果に基づいて対応する操作処理を行う。即ち、ユーザーが入力した音声がウェイクアップワードである場合、対応するウェイクアップ操作を行い、ユーザーが入力した音声がウェイクアップワードでない場合、対応するウェイクアップ操作を行わない。
本実施例の音声ウェイクアップ方法は、ユーザーが入力した音声を取得することにより、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行い、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行い、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。
図2は、本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。
図2に示すように、図1におけるステップ103に関して、下記のようなステップ201〜ステップ205を含むことができる。
ステップ201:フィルタバンクを使用して抽出した第1次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数(mfcc)の第2次元特徴を取得する。
ステップ202:前記音声の振幅を取得して第3次元特徴とする。
ステップ203:前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とする。
ステップ204:前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴によって前記音声の音声学特徴を決定する。
ステップ205:予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対する音声認識を行う。
具体的には、本実施例は前記実施例における音声の音声学特徴の抽出に対する最適化処理であり、従って予め設定された認識ネットワーク及び音声学モデルによって音声学特徴に対する音声認識を行う過程を簡素化する。
ユーザーが入力した音声に対する音声学特徴抽出を行う過程で、普通フィルタ特徴を抽出することは、次元が高く、計算量が大きい。
本実施例は、FiterBank特徴に対する離散コサイン変換を行い、メル周波数ケプストラム係数(mfcc)の次元特徴を取得し、前記音声の振幅の次元特徴を抽出し、及び音声をハイパスフィルタに通過させ、高周波信号を取得し、前記高周波信号の次元特徴を抽出する。
従って、前記処理を経た後、入力した音声の音声学特徴を抽出する。本実施例が提供する音声学特徴抽出方法を更に明らかに説明するために、下記のように例を挙げて、説明する。
音声に対する特徴抽出処理を行った後、40次元のfiterbank特徴を抽出すると仮定すると、現在次元は40次元であり、本発明が使用するmfcc+他の特徴(13+2)の特徴取得過程は、具体的に下記の通りである。
1.40次元のfiterbank特徴に対するdct変換(離散コサイン変換)を行い、ひいては、13次元のmfcc特徴を取得する。
2.次に、他の二つの特徴を得るべきであり、先に声のボリューム(振幅)を第14次元特徴とする。
3.その後、声をhpf(ハイパスフィルタ)に通過させ、残るものが高周波信号だと思えられるが、人間の言語情報も殆どが高周波に集中され、hpfを通過した信号の絶対値のlog値を第15次元特徴とする。
このことから分かることは、特徴の数を減らす手段により、特徴抽出運算の計算量を減らす同時に、後続のベクトルと行列の積の計算量を減らすことである。
前記実施例に基づいて、本実施例の音声ウェイクアップ方法は、ひいては、フィルタバンクを使用して抽出した第1次元特徴に対して離散コサイン変換を行うことにより、メル周波数ケプストラム係数の第2次元特徴を取得し、前記音声の振幅を取得して第3次元特徴とし、前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とし、前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴に基づいて前記音声の音声学特徴を決定し、予め設定された認識ネットワーク及び音声学モデルによって前記音声学特徴に対する音声認識を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。ひいては、特徴の数を減らす手段により、特徴抽出運算の計算量を減らす同時に、後続のベクトルと行列の積の計算量を減らすことにより、更に処理電力消耗を減らす。
図3は、本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。
図3に示すように、図1におけるステップ101の前に、下記ステップを更に含むことができる。
Figure 2017129860
ステップ302:前記ジャンクワード及び予め設定したウェイクアップワードに基づいて前記認識ネットワークを構築する。
具体的には、上記の実施例に基づいて、音声認識を行う前に、音声認識を行う認識ネットワーク及び音声学モデルを構築すべきである。
その中で、認識ネットワークは、ウェイクアップワードと、ジャンクワードとを含む並列ネットワークであり、現在のジャンクワードの数は簡素化でないため、本実施例は、編集距離を利用してクラスタリングするアルゴリズムにより認識ネットワークのジャンクワードを簡素化し、更に計算量を減らし、処理電力消耗を減らす。具体的には、
全ての音節序列を一つの認識ネットワークに並列連結させるステップと、
前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第1閾値より大きい認識結果を取得するステップと、
前記認識結果から出現確率が一番高い音節Aを取得し、残りの音節はB1〜BNであり、AとB1〜BNとの間の編集距離Eをぞれぞれ計算し、編集距離が一番大きいBkを保留し、保留した音節数が予め設定された第2閾値を満たすまで残った音節を逐一計算するステップと、
ひいては、保留した音節の数を前記認識ネットワークのジャンクワードとするステップと、
を含む。
上記のジャンクワードに対する最適化過程をより明らかに説明するために、編集距離を利用してクラスタリングするアルゴリズムにより最初50個のジャンクワードを10個に最適化し、構築するデコーディングネットワークの大きさを減らし、効率を最適化することとして、下記のように例を挙げて、説明する。
最初の50個のジャンクワードを10に最適化し、且つ効果がほぼ変わらないように維持させるプロセスは、下記の通りである。
ステップ1:全ての音節序列を一つの認識ネットワークに並列連結させてから、大量の音声入力を通じて、認識結果を取得し、ここで、認識結果の数が一番多いtop20がちょうど一番常用される20個のジャンクワードを表し、この20個のジャンクワードで全部の発音音節序列を代表できる。
ステップ2:上の20個のジャンクワードを得るだけでは足りなく、更に簡素化すべきであり、出現確率が一番高いワードAを選択すべきであり、残りはB1、B2……B19であり、編集距離E(A B1)、E(A B2)……E(A Bi)を別々に計算し、ここで、編集距離が一番大きい一つのBkは保留する。
それから、AとBkは保留することに決定し、残りの18個及びBkに対しては編集距離を計算してから、Bkとの編集距離が一番大きいBjを保留したあと、残りの17個及びBjに対しては編集距離を計算する。
このように類推すると、こんなアルゴリズムで十回運算すると、毎回編集距離が一番大きいポイント、即ち分散が一番良好なポイントを得ることができ、それからこの10個のジャンクワードを用いてテストした効果は50個のジャンクワードの効果と大きな差異がなかった。
従って、最初の50個のジャンクワードとウェイクアップワードとを並列連結させたデコーディングネットワークの代わりに、簡素化を通じた、ただ10個のジャンクワードとウェイクアップワードとを並列連結させたデコーディングネットワークにより、後続のビタビ運算の計算量を減らすことができる。
ステップ303:深層ニューラルネットワークの音声学モデルを構築し、前記深層ニューラルネットワークの次元Mが予め設定された閾値以下である。
具体的には、本実施例は、深層ニューラルネットワークDNNの音声学モデルを構築し、且つ深層ニューラルネットワークの次元Mに対する閾値を設定し、Mが予め設定された閾値以下であるべきである。ひいては、最適化した後の音声学モデルをローディングし、即ちDNNネットワークの次元を減らし、DNN尤度計算の原理はマトリック運算である。下記のように例を挙げて、説明する。
入力した特徴が次元がAであるベクトルだと仮定すると、ニューラルネットワークは、マトリックB1、B2、B3……BNであり、
そうすると、計算過程はA*B1*B2*B3……BNであり、出力結果は、尤度であり、
そうすると、Nの数及びそのうち各マトリックの大きさを減らすことにより、尤度計算の計算量を効果的に減らすことができる。
ひいては、最適化した後のジャンクワードネットワークにビタビデコーディングを行い、この時点で刈り込み強度を増やして、即ち、同時に存在するアクティビティノードの数を減らすことにより、電力消耗を減らす。
前記実施例に基づいて、本実施例の音声ウェイクアップ方法は、更に認識ネットワークに対するジャンクワードの数及び音声学モデルの次元を減らし、更に認識ネットワークを簡素化し、後続のビタビ運算の計算量を減らすことができる。
前記実施例に基づいて、前記予め設定された認識ネットワーク及び音声学モデルによって前記音声学特徴に対する音声認識を行った後、下記のステップを更に含む。
予め設定された拒絶策略に基づいて音声認識を停止することにより、すぐにウェイクアップ失敗を判定し、ビタビデコーディング実行を停止し、計算量を大きく減らす。
説明すべきことは、異なる活用シナリオによって異なる拒絶策略を設定でき、図4に示す実施例を通じて下記のように説明する。
図4は、本出願のもう一つの実施例の音声ウェイクアップ方法のフローチャートである。
図4に示すように、図1におけるステップ103以後に、下記のステップを更に含むことができる。
ステップ401:音声アクティビティ検出の音声の長さとジャンクワードを認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断する。
ステップ402:前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。
具体的には、本実施例は、VAD判断の音声の長さ及び認識されたジャンクワードの数の加重和を拒絶根拠とし、即ち音声の長さ及び認識されたジャンクワードの数の加重和がある閾値より大きい場合、ウェイクアップ失敗であると判定し、ビタビデコーディング実行を停止し、計算量を大きく減らす。使用可能な式は下記の通りである。
Score=M * Length + N * GbgCnt(Lengthは、音声の長さであり、GbgCntは、認識結果におけるジャンクワードの数であり、両者に係数を掛け算してから、足し算し、M及びNは、実験数値である。)
若しScore >Thresholdである場合、認識を停止する。
上記の実施例に基づいて、本実施例の音声ウェイクアップ方法は、ひいては、音声アクティビティ検出の音声の長さ及び認識されたジャンクワードの数の加重和が予め設定された閾値より大きいか否かを判断することにより、前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。更にデコーディングの計算量を減らし、処理効率を向上させ、電力消耗を節約できる。
前記実施例を実現するために、本出願は音声ウェイクアップ装置を更に提供する。
図5は、本出願の一つの実施例の音声ウェイクアップ装置の構造図である。
図5に示すように、当該音声ウェイクアップ装置は、取得モジュール11と、音声アクティビティ検出モジュール12と、抽出モジュール13と、認識モジュール14と、処理モジュール15と、を含む。
取得モジュール11は、ユーザーが入力した音声を取得する。
音声アクティビティ検出モジュール12は、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行う。
ここで、前記音声アクティビティ検出モジュール12は、
前記音声の第(2n-1)のフレームの特徴を抽出して、前記音声の第2nのフレームの特徴が第(2n-1)のフレームの処理の結果を使用するようにするのに用いられ、nは正の整数であり、または、
前記音声の第2nのフレームの特徴を抽出して、前記音声の第(2n-1)のフレームの特徴が第2nのフレームの処理結果を使用するようにするのに用いられ、ここで、nは正の整数である。
抽出モジュール13は、前記音声の音声学特徴を抽出する。
認識モジュール14は、予め設定された認識ネットワーク及び音声学モデルによって、前記音声学特徴に対する音声認識を行う。
具体的には、前記認識モジュール14は、
予め設定された認識ネットワーク及び音声学モデルによって、ビタビアルゴリズムを使用して前記音声学特徴に対する音声認識を行う。
処理モジュール15は、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。
説明すべきことは、前述された音声ウェイクアップ方法実施例に対する解釈説明は、当該実施例の音声ウェイクアップ装置にも使用され、ここで更に詳細に記述しないことにする。
本出願の実施例の音声ウェイクアップ装置は、ユーザーが入力した音声を取得することにより、フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行い、前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行い、前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。
図6は、本出願のもうひとつの実施例の音声ウェイクアップ装置の構造図であり、図6に示すように、図5に示す実施例に基づいて、前記抽出モジュール13は、第1取得ユニット131、第2取得ユニット132、第3取得ユニット133、決定ユニット134を含む。
第1取得ユニット131は、フィルタバンクを使用して抽出した第1次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数(mfcc)の第2次元特徴を取得する。
第2取得ユニット132は、前記音声の振幅を取得して第3次元特徴とする。
第3取得ユニット133は、前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とする。
決定ユニット134は、前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴に基づいて、前記音声の音声学特徴を決定する。
説明すべきことは、前述された音声ウェイクアップ方法実施例に対する解釈及び説明は、当該実施例の音声ウェイクアップ装置にも使用され、ここで更に詳細に記述しないことにする。
本出願の実施例の音声ウェイクアップ装置は、ひいては、フィルタバンクを使用して抽出した第1次元特徴に対して離散コサイン変換を行うことにより、メル周波数ケプストラム係数の第2次元特徴を取得し、前記音声の振幅を取得して第3次元特徴とし、前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とし、前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴に基づいて、前記音声の音声学特徴を決定し、予め設定された認識ネットワーク及び音声学モデルに基づいて、前記音声学特徴に対する音声認識を行う。従って、音声ウェイクアップの処理過程を最適化し、ウェイクアップの正確率が低下しないことを保障する前提で、計算量を大きく減らし、設備電力消耗を下げ、処理性能を向上させる。ひいては、特徴の数を減らす手段により、特徴抽出運算の計算量を減らす同時に、後続のベクトルと行列の積の計算量を減らすことにより、更に処理電力消耗を減らす。
図7は、本出願のもう一つの実施例の音声ウェイクアップ装置の構造図であり、図7に示すように、前記実施例に基づいて、図5に示す実施例を例として、決定モジュール16と、第1構築モジュール17と、第2構築モジュール18と、を更に含む。
決定モジュール16は、編集距離を利用してクラスタリングするアルゴリズムにより前記認識ネットワークのジャンクワードを決定する。
一つの実施例において、前記決定モジュール16は、
全ての音節序列を一つの認識ネットワークに並列連結させ、前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第1閾値より大きい認識結果を取得し、
前記認識結果から出現確率が一番高い音節Aを取得し、残りの音節はB1〜BNであり、AとB1〜BNの編集距離Eをそれぞれ計算し、編集距離が一番大きいBkを保留し、保留した音節の数が予め設定された第2閾値を満たすまで残った音節を逐一に計算し、
保留した音節数を前記認識ネットワークのジャンクワードとする。
第1構築モジュール17は、前記ジャンクワード及び予め設定したウェイクアップワードによって前記認識ネットワークを構築する。
第2構築モジュール18は、深層ニューラルネットワークの音声学モデルを構築し、前記深層ニューラルネットワークの次元Mが予め設定された閾値以下である。
説明すべきことは、前述された音声ウェイクアップ方法実施例に対する解釈及び説明は、当該実施例の音声ウェイクアップ装置にも使用され、ここで更に詳細に記述しないことにする。
本出願の実施例の音声ウェイクアップ装置は、更に認識ネットワークに対するジャンクワードの数及び音声学モデルの次元を減らし、更に認識ネットワークを簡素化し、後続のビタビ運算の計算量を減らすことができる。
図8は、本出願のもう一つの実施例の音声ウェイクアップ装置の構造図であり、図8に示すように、前記実施例に基づいて、図5を例として、予め設定された拒絶策略によって音声認識を停止する拒絶モジュール19を更に含む。
一つの実施例において、前記拒絶モジュール19は、
音声アクティビティ検出の音声の長さとジャンクワードを認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断し、
前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。
説明すべきことは、前述された音声ウェイクアップ方法実施例に対する解釈及び説明は、当該実施例の音声ウェイクアップ装置にも使用され、ここで更に詳細に記述しないことにする。
本出願の実施例の音声ウェイクアップ装置は、ひいては、音声アクティビティ検出の音声の長さとジャンクワードを認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断することにより、前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する。更にデコーディングcの計算量を減らし、処理効率を向上させ、電力消耗を節約できる。
本明細書の説明において、参照用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的な例示」、または「いくつかの例示」などの説明は、当該実施例や例示を結合して説明する具体的特徴、構造、材料、または特点が本出願の少なくとも一つの実施例や例示に含まれることを意味する。本明細書において、上記の用語に対する黙示的な記述が必ずしも同じ実施例や例示に対することではない。また、説明された具体的な特徴または特点は、任意の一つのまたは複数の実施例または例示にて適当な方式で結合されることができる。また、相互に矛盾しない前提で、当業者は、本明細書において説明される異なる実施例または例示及び異なる実施例または例示の特徴に対する結合及び組み合わせを行うことができる。
なお、用語である「第一」、「第二」は、説明のためだけに用いられるものであり、比較的な重要性を指示又は暗示するか、または示された技術特徴の数を黙示的に明示すると理解してはいけない。従って、「第1」、「第2」で限定された特徴は、少なくとも一つの当該特徴を明示又は黙示的に含むことができる。本出願の説明において、別途に明確に具体的な限定をしない限り、「複数の」の意味は少なくとも二つであり、例えば、二つ、三つ等である。
フローチャートまたはここで他の方式で説明されたいかなる過程や方法説明は、一つのまたは複数の、特定ロジック機能または過程のステップの実行できるコマンドのコードのモジュール、セクターまたは部分を含む。また、本出願の望ましい実施形態の範囲は、他の実現を含み、ここで提示または討論された順序に従わなくてもよい。述べられた機能に基づいて基本的に同様な方式または逆の順序でその機能を実行することができる。これは、本出願の実施例の当業者に理解される。
フローチャート中で表され、又はその他の方式で説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための命令実行可能な順序リストであると考えられてよく、具体的には、いかなるコンピュータ読取可能媒体中でも実現することができ、それによって指令実行システム、装置、若しくは設備(例えばコンピュータに基づくシステム、プロセッサを含むシステム又は他の指令実行システム、装置又は設備から指令を取得して指令を実行することができるシステム等)に使用され、又はこれらの指令実行システム、装置、若しくは設備を結合して使用される。本明細書について言えば、「コンピュータ読取可能媒体」は、プログラムを含み、保存し、通信し、伝播し又は伝送して、指令実行システム、装置若しくは設備又はこれらの指令実行システム、装置若しくは設備に使用されるいかなる装置であってもよい。コンピュータ読取可能媒体のさらに具体的な例示(非網羅的リスト)には、1つ以上の配線を有する電気接続部(電子装置)、ポータブル型コンピュータディスク(磁気装置)、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPRCOM又はフラッシュメモリ)、光ファイバ、及びコンパクト光ディスク読み出し専用メモリ(CDROM)が含まれる。また、コンピュータ読取可能媒体は、その上に前述のプログラムを印刷した紙又はその他適当な媒質であってもよい。なぜなら、例えば、紙又はその他の媒質に対して光学スキャニングを行い、続いて編集、解釈又は必要ならその他適当な方式で処理を行って、電子方式によってプログラムを取得し、その後、それをコンピュータメモリ中に保存することができるからである。
理解すべきことは、本発明の各部分は、ハードウェア、ソフトウェア、ファームウエアまたはそれらの組み合わせで実現できる。上記の実施形態において、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたはファームウエアで実現できる。例えば、ハードウェアで実現する場合、他の実施形態と同じように、本領域周知の下記の任意一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する離散ロジック回路、ロジックゲート回路を組み合わせた適当な専用IC、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などである。
実施例の方法における全部または一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、本技術領域の普通の技術者に理解される。前記プログラムは一つの計算機の読み出し書き込み可能な記憶メディアに記憶される。当該プログラムを実行するとき、実施例方法のステップの一つまたはそれらの組み合わせを含む。
この他、本発明の各実施例の各機能ユニットは、一つの処理モジュールに集積され、または、各ユニットの単独的な物理存在であり、あるいは、二つまたは二つ以上のユニットが一つのモジュールに集積されることができる。前記集積されたモジュールは、ハードウェアの形式、または、ソフトウェアの形式で実現できる。前記集積されたモジュールが、ソフトウェアの形式で実現され、独立の製品として販売または使用される場合、コンピューターの読み出し書き込み可能な記憶メディアに記憶されることができる。
上記の記憶メディアは、読み出し専用メモリ、ディスク、または、CDなどである。本出願の実施例を示して説明したが、当業者にとって理解できるのは、上記の実施例は例示性のものであり、本発明に対する限定と理解されてはいけない。本出願の範囲で上記の実施例に対して変化、補正、切り替え及び変形を行うことができる。

Claims (18)

  1. ユーザーが入力した音声を取得するステップと、
    フレームスキップ策略を使用して前記音声のデータフレームを処理し、且つ時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行うステップと、
    前記音声の音声学特徴を抽出し、予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行うステップと、
    前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行うステップと、を含む、
    ことを特徴とする音声ウェイクアップ方法。
  2. 前記フレームスキップ策略を使用して前記音声のデータフレームを処理するステップは、
    前記音声の第(2n-1)のフレームの特徴を抽出して、前記音声の第2nのフレームの特徴が第(2n-1)のフレームの処理結果を使用するようにし、ここで、nは正の整数であるステップ、または、
    前記音声の第2nのフレームの特徴を抽出して、前記音声の第(2n-1)のフレームの特徴が第2nのフレームの処理結果を使用するようにし、ここで、nは正の整数であるステップ、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記音声の音声学特徴を抽出するステップは、
    フィルタバンクを使用して抽出した第1次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数の第2次元特徴を取得するステップと、
    前記音声の振幅を取得して第3次元特徴とするステップと、
    前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とするステップと、
    前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴に基づいて前記音声の音声学特徴を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行うステップは、
    予め設定された認識ネットワーク及び音声学モデルに基づいて、ビタビアルゴリズムを使用して前記音声学特徴に対して音声認識を行うステップを含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記ユーザーが入力した音声を取得する前に、
    編集距離を利用してクラスタリングするアルゴリズムにより前記認識ネットワークのジャンクワードを決定するステップと、
    前記ジャンクワード及び予め設定したウェイクアップワードに基づいて、前記認識ネットワークを構築するステップと、を更に含む、
    ことを特徴とする請求項1に記載の方法。
  6. 前記編集距離を利用してクラスタリングするアルゴリズムにより前記認識ネットワークのジャンクワードを決定するステップは、
    全ての音節序列を一つの認識ネットワークに並列連結させるステップと、
    前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識し、数が予め設定された第1閾値より大きい認識結果を取得するステップと、
    前記認識結果から出現確率が一番高い音節Aを取得し、残りの音節はB1〜BNであり、AとB1〜BNとの間の編集距離Eをそれぞれ計算し、編集距離が一番大きいBkを保留し、保留した音節の数が予め設定された第2閾値を満たすまで残った音節を逐一に計算するステップと、
    保留した音節の数を前記認識ネットワークのジャンクワードとするステップと、を含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記ユーザーが入力した音声を取得する前に、
    深層ニューラルネットワークの音声学モデルを構築し、前記深層ニューラルネットワークの次元Mは予め設定された閾値以下であるステップを更に含む、
    ことを特徴とする請求項1に記載の方法。
  8. 前記予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行った後、
    予め設定された拒絶策略に基づいて音声認識を停止するステップ、を更に含む、
    ことを特徴とする請求項1〜7のいずれか一項に記載の方法。
  9. 前記予め設定された拒絶策略に基づいて音声認識を停止するステップは、
    音声アクティビティ検出の音声の長さと認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断するステップと、
    前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止するステップと、を含む、
    ことを特徴とする請求項8に記載の方法。
  10. ユーザーが入力した音声を取得する取得モジュールと、
    フレームスキップ策略を使用して前記音声のデータフレームを処理し、時間領域エネルギーアルゴリズムにより前記データフレームに対して音声アクティビティ検出を行う音声アクティビティ検出モジュールと、
    前記音声の音声学特徴を抽出する抽出モジュールと、
    予め設定された認識ネットワーク及び音声学モデルに基づいて前記音声学特徴に対して音声認識を行う認識モジュールと、
    前記音声が前記認識ネットワークにおける予め設定されたウェイクアップワードである場合、対応する操作を行う処理モジュールと、を含む、
    ことを特徴とする音声ウェイクアップ装置。
  11. 前記音声アクティビティ検出モジュールは、
    前記音声の第(2n-1)のフレームの特徴を抽出して、前記音声の第2nのフレームの特徴が第(2n-1)のフレームの処理結果を使用するようにし、ここで、nは正の整数である、または、
    前記音声の第2nのフレームの特徴を抽出して、前記音声の第(2n-1)のフレームの特徴が第2nのフレームの処理結果を使用するようにし、ここで、nは正の整数である、
    ことを特徴とする請求項10に記載の装置。
  12. 前記抽出モジュールは、
    フィルタバンクを使用して抽出した第1次元特徴に対して離散コサイン変換を行い、メル周波数ケプストラム係数の第2次元特徴を取得する第1取得ユニットと、
    前記音声の振幅を取得して第3次元特徴とする第2取得ユニットと、
    前記音声をハイパスフィルタに通過させて高周波信号を取得し、前記高周波信号の絶対値の対数値を取得して第4次元特徴とする第3取得ユニットと、
    前記第2次元特徴、前記第3次元特徴、及び前記第4次元特徴に基づいて前記音声の音声学特徴を決定する決定ユニットと、を含む、
    ことを特徴とする請求項10に記載の装置。
  13. 前記認識モジュールは、
    予め設定された認識ネットワーク及び音声学モデルに基づいて、ビタビアルゴリズムを使用して前記音声学特徴に対して音声認識を行う、
    ことを特徴とする請求項10に記載の装置。
  14. 編集距離を利用してクラスタリングするアルゴリズムにより、前記認識ネットワークのジャンクワードを決定する決定モジュールと、
    前記ジャンクワード及び予め設定されたウェイクアップワードに基づいて前記認識ネットワークを構築する第1構築モジュールと、を更に含む、
    ことを特徴とする請求項10に記載の装置。
  15. 前記決定モジュールは、
    全ての音節序列を一つの認識ネットワークに並列連結させ、前記認識ネットワークに基づいて予め設定された音声トレーニングセットを認識して、数が予め設定された第1閾値より大きい認識結果を取得し、
    前記認識結果から出現確率が一番高い音節Aを取得し、残りの音節は、B1〜BNであり、AとB1〜BNとの編集距離Eをそれぞれ計算し、編集距離が一番大きいBkを保留し、保留した音節の数が予め設定された第2閾値を満たすまで残った音節を逐一に計算し、保留した音節の数を前記認識ネットワークのジャンクワードとする、
    ことを特徴とする請求項14に記載の装置。
  16. 深層ニューラルネットワークの音声学モデルを構築する第2構築モジュールを更に含み、前記深層ニューラルネットワークの次元Mは予め設定された閾値以下である、
    ことを特徴とする請求項10に記載の装置。
  17. 予め設定された拒絶策略に基づいて音声認識を停止する拒絶モジュールを更に含む、
    ことを特徴とする請求項10〜16のいずれか一項に記載の装置。
  18. 前記拒絶モジュールは、
    音声アクティビティ検出の音声の長さと認識されたジャンクワードの数との加重和が予め設定された閾値より大きいか否かを判断し、
    前記加重和が前記閾値より大きい場合、ウェイクアップ失敗であると決定し、音声認識を停止する、
    ことを特徴とする請求項17に記載の装置。
JP2017005092A 2016-01-20 2017-01-16 音声ウェイクアップ方法及び装置 Active JP6453917B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610039038.9 2016-01-20
CN201610039038.9A CN105741838B (zh) 2016-01-20 2016-01-20 语音唤醒方法及装置

Publications (2)

Publication Number Publication Date
JP2017129860A true JP2017129860A (ja) 2017-07-27
JP6453917B2 JP6453917B2 (ja) 2019-01-16

Family

ID=56246391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017005092A Active JP6453917B2 (ja) 2016-01-20 2017-01-16 音声ウェイクアップ方法及び装置

Country Status (4)

Country Link
US (1) US10482879B2 (ja)
JP (1) JP6453917B2 (ja)
KR (1) KR101922776B1 (ja)
CN (1) CN105741838B (ja)

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079038A (ja) * 2017-10-23 2019-05-23 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び装置
JP2021516790A (ja) * 2018-09-28 2021-07-08 ソノズ インコーポレイテッド ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11405430B2 (en) 2016-02-22 2022-08-02 Sonos, Inc. Networked microphone device control
US11432030B2 (en) 2018-09-14 2022-08-30 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11482978B2 (en) 2018-08-28 2022-10-25 Sonos, Inc. Audio notifications
US11501773B2 (en) 2019-06-12 2022-11-15 Sonos, Inc. Network microphone device with command keyword conditioning
US11500611B2 (en) 2017-09-08 2022-11-15 Sonos, Inc. Dynamic computation of system response volume
US11514898B2 (en) 2016-02-22 2022-11-29 Sonos, Inc. Voice control of a media playback system
US11531520B2 (en) 2016-08-05 2022-12-20 Sonos, Inc. Playback device supporting concurrent voice assistants
US11540047B2 (en) 2018-12-20 2022-12-27 Sonos, Inc. Optimization of network microphone devices using noise classification
US11538451B2 (en) 2017-09-28 2022-12-27 Sonos, Inc. Multi-channel acoustic echo cancellation
US11538460B2 (en) 2018-12-13 2022-12-27 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11545169B2 (en) 2016-06-09 2023-01-03 Sonos, Inc. Dynamic player selection for audio signal processing
US11556306B2 (en) 2016-02-22 2023-01-17 Sonos, Inc. Voice controlled media playback system
US11557294B2 (en) 2018-12-07 2023-01-17 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11563842B2 (en) 2018-08-28 2023-01-24 Sonos, Inc. Do not disturb feature for audio notifications
US11641559B2 (en) 2016-09-27 2023-05-02 Sonos, Inc. Audio playback settings for voice interaction
US11646045B2 (en) 2017-09-27 2023-05-09 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US11646023B2 (en) 2019-02-08 2023-05-09 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11694689B2 (en) 2020-05-20 2023-07-04 Sonos, Inc. Input detection windowing
US11696074B2 (en) 2018-06-28 2023-07-04 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11710487B2 (en) 2019-07-31 2023-07-25 Sonos, Inc. Locally distributed keyword detection
US11714600B2 (en) 2019-07-31 2023-08-01 Sonos, Inc. Noise classification for event detection
US11727933B2 (en) 2016-10-19 2023-08-15 Sonos, Inc. Arbitration-based voice recognition
US11736860B2 (en) 2016-02-22 2023-08-22 Sonos, Inc. Voice control of a media playback system
US11741948B2 (en) 2018-11-15 2023-08-29 Sonos Vox France Sas Dilated convolutions and gating for efficient keyword spotting
US11769505B2 (en) 2017-09-28 2023-09-26 Sonos, Inc. Echo of tone interferance cancellation using two acoustic echo cancellers
US11790937B2 (en) 2018-09-21 2023-10-17 Sonos, Inc. Voice detection optimization using sound metadata
US11792590B2 (en) 2018-05-25 2023-10-17 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11797263B2 (en) 2018-05-10 2023-10-24 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11798553B2 (en) 2019-05-03 2023-10-24 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11854547B2 (en) 2019-06-12 2023-12-26 Sonos, Inc. Network microphone device with command keyword eventing
US11862161B2 (en) 2019-10-22 2024-01-02 Sonos, Inc. VAS toggle based on device orientation
US11869503B2 (en) 2019-12-20 2024-01-09 Sonos, Inc. Offline voice control
US11893308B2 (en) 2017-09-29 2024-02-06 Sonos, Inc. Media playback system with concurrent voice assistance
US11900937B2 (en) 2017-08-07 2024-02-13 Sonos, Inc. Wake-word detection suppression
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11979960B2 (en) 2016-07-15 2024-05-07 Sonos, Inc. Contextualization of voice inputs
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11983463B2 (en) 2016-02-22 2024-05-14 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297777B (zh) * 2016-08-11 2019-11-22 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN106328137A (zh) * 2016-08-19 2017-01-11 镇江惠通电子有限公司 语音控制方法、装置及系统
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
KR20180085931A (ko) * 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
CN107738622B (zh) * 2017-08-29 2020-09-11 科大讯飞股份有限公司 车辆智能响应方法及装置、存储介质、电子设备
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN107643967A (zh) * 2017-10-27 2018-01-30 深圳市传测科技有限公司 一种自动语音唤醒测试装置、系统及方法
CN108010515B (zh) * 2017-11-21 2020-06-30 清华大学 一种语音端点检测和唤醒方法及装置
CN108492827B (zh) * 2018-04-02 2019-07-30 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
CN108764469A (zh) * 2018-05-17 2018-11-06 普强信息技术(北京)有限公司 一种降低神经网络所需功耗的方法和设备
CN108899014B (zh) * 2018-05-31 2021-06-08 中国联合网络通信集团有限公司 语音交互设备唤醒词生成方法及装置
CN109119079B (zh) * 2018-07-25 2022-04-01 天津字节跳动科技有限公司 语音输入处理方法和装置
US11062703B2 (en) * 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing
CN109087630B (zh) * 2018-08-29 2020-09-15 深圳追一科技有限公司 语音识别的方法及相关装置
CN109147774B (zh) * 2018-09-19 2021-07-20 华南理工大学 一种改进的延时神经网络声学模型
CN109243427A (zh) * 2018-09-29 2019-01-18 深圳市智驾实业有限公司 一种车辆故障诊断方法及装置
KR20200059054A (ko) * 2018-11-20 2020-05-28 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN113366508A (zh) 2019-01-04 2021-09-07 蒂普爱可斯有限公司 执行电子设备特定功能的训练模型创建方法、执行相同功能的学习模型、专用芯片及其操作方法及电子设备和系统
KR102227512B1 (ko) * 2019-01-04 2021-03-12 주식회사 딥엑스 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
CN111435593B (zh) * 2019-01-14 2023-08-01 瑞昱半导体股份有限公司 语音唤醒装置及方法
TW202029181A (zh) * 2019-01-28 2020-08-01 正崴精密工業股份有限公司 語音識別用於特定目標喚醒的方法及裝置
CN109872713A (zh) * 2019-03-05 2019-06-11 深圳市友杰智新科技有限公司 一种语音唤醒方法及装置
CN110070857B (zh) * 2019-04-25 2021-11-23 北京梧桐车联科技有限责任公司 语音唤醒模型的模型参数调整方法及装置、语音设备
CN110111789B (zh) * 2019-05-07 2022-02-08 阿波罗智联(北京)科技有限公司 语音交互方法、装置、计算设备和计算机可读介质
CN110473536B (zh) * 2019-08-20 2021-10-15 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN110610710B (zh) * 2019-09-05 2022-04-01 晶晨半导体(上海)股份有限公司 一种自学习语音识别系统的构建装置和构建方法
CN110767231A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 一种基于时延神经网络的声控设备唤醒词识别方法及装置
CN110580908A (zh) * 2019-09-29 2019-12-17 出门问问信息科技有限公司 一种支持不同语种的命令词检测方法及设备
CN111179974B (zh) * 2019-12-30 2022-08-09 思必驰科技股份有限公司 一种命令词识别方法和装置
CN111599371B (zh) * 2020-05-19 2023-10-20 苏州奇梦者网络科技有限公司 语音增加方法、系统、装置及存储介质
CN112435652A (zh) * 2020-09-29 2021-03-02 江苏清微智能科技有限公司 一种基于图卷积神经网络的语音关键词识别系统及方法
CN112669830A (zh) * 2020-12-18 2021-04-16 上海容大数字技术有限公司 一种端到端多唤醒词的识别系统
CN112863497B (zh) * 2020-12-31 2022-10-21 思必驰科技股份有限公司 语音识别的方法及装置、电子设备和计算机可读存储介质
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN112885353B (zh) * 2021-01-26 2023-03-14 维沃移动通信有限公司 语音唤醒方法、装置及电子设备
CN113160823B (zh) * 2021-05-26 2024-05-17 中国工商银行股份有限公司 基于脉冲神经网络的语音唤醒方法、装置及电子设备
CN113593546B (zh) * 2021-06-25 2023-09-15 青岛海尔科技有限公司 终端设备唤醒方法和装置、存储介质及电子装置
KR102378895B1 (ko) * 2021-09-29 2022-03-28 주식회사 인피닉 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US20240071370A1 (en) * 2022-08-26 2024-02-29 Qualcomm Incorporated Adaptive frame skipping for speech recognition
US11893094B1 (en) * 2023-06-05 2024-02-06 University Of Sharjah DCT-based watermarking scheme for deep neural networks

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61281300A (ja) * 1985-06-07 1986-12-11 ソニー株式会社 音声認識装置
JPH0713586A (ja) * 1993-06-23 1995-01-17 Matsushita Electric Ind Co Ltd 音声判別装置と音響再生装置
JP2004219918A (ja) * 2003-01-17 2004-08-05 Canon Inc 音声認識環境判定方法
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JP2007079624A (ja) * 2005-09-09 2007-03-29 Toyota Central Res & Dev Lab Inc 発話検出装置、方法及びプログラム
WO2014093238A1 (en) * 2012-12-11 2014-06-19 Amazon Technologies, Inc. Speech recognition power management

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0607615B1 (en) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
DE69615227T2 (de) * 1995-01-17 2002-04-25 Nec Corp Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
US6314414B1 (en) * 1998-10-06 2001-11-06 Pavilion Technologies, Inc. Method for training and/or testing a neural network with missing and/or incomplete data
US6310652B1 (en) * 1997-05-02 2001-10-30 Texas Instruments Incorporated Fine-grained synchronization of a decompressed audio stream by skipping or repeating a variable number of samples from a frame
WO2000046789A1 (fr) * 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
KR100340045B1 (ko) * 1999-12-24 2002-06-12 오길록 저전력 음성 명령어 구동 휴대 정보단말 장치 및 그를 이용한 음성인식 방법
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command
US6680753B2 (en) * 2001-03-07 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method and apparatus for skipping and repeating audio frames
AU2002354201A1 (en) * 2001-12-17 2003-06-30 Asahi Kasei Kabushiki Kaisha Speech recognition method, remote controller, information terminal, telephone communication terminal and speech recognizer
US20080162129A1 (en) * 2006-12-29 2008-07-03 Motorola, Inc. Method and apparatus pertaining to the processing of sampled audio content using a multi-resolution speech recognition search process
US8260619B1 (en) * 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8566088B2 (en) * 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
US8548812B2 (en) * 2008-12-22 2013-10-01 Avaya Inc. Method and system for detecting a relevant utterance in a voice session
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
WO2015171154A1 (en) * 2014-05-09 2015-11-12 Nuance Communications, Inc. Methods and apparatus for speech recognition using a garbage model
US9520128B2 (en) * 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
CN105096939B (zh) * 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61281300A (ja) * 1985-06-07 1986-12-11 ソニー株式会社 音声認識装置
JPH0713586A (ja) * 1993-06-23 1995-01-17 Matsushita Electric Ind Co Ltd 音声判別装置と音響再生装置
JP2004219918A (ja) * 2003-01-17 2004-08-05 Canon Inc 音声認識環境判定方法
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JP2007079624A (ja) * 2005-09-09 2007-03-29 Toyota Central Res & Dev Lab Inc 発話検出装置、方法及びプログラム
WO2014093238A1 (en) * 2012-12-11 2014-06-19 Amazon Technologies, Inc. Speech recognition power management

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11983463B2 (en) 2016-02-22 2024-05-14 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US11736860B2 (en) 2016-02-22 2023-08-22 Sonos, Inc. Voice control of a media playback system
US11750969B2 (en) 2016-02-22 2023-09-05 Sonos, Inc. Default playback device designation
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11514898B2 (en) 2016-02-22 2022-11-29 Sonos, Inc. Voice control of a media playback system
US11405430B2 (en) 2016-02-22 2022-08-02 Sonos, Inc. Networked microphone device control
US11863593B2 (en) 2016-02-22 2024-01-02 Sonos, Inc. Networked microphone device control
US11832068B2 (en) 2016-02-22 2023-11-28 Sonos, Inc. Music service selection
US11556306B2 (en) 2016-02-22 2023-01-17 Sonos, Inc. Voice controlled media playback system
US11545169B2 (en) 2016-06-09 2023-01-03 Sonos, Inc. Dynamic player selection for audio signal processing
US11979960B2 (en) 2016-07-15 2024-05-07 Sonos, Inc. Contextualization of voice inputs
US11934742B2 (en) 2016-08-05 2024-03-19 Sonos, Inc. Playback device supporting concurrent voice assistants
US11531520B2 (en) 2016-08-05 2022-12-20 Sonos, Inc. Playback device supporting concurrent voice assistants
US11641559B2 (en) 2016-09-27 2023-05-02 Sonos, Inc. Audio playback settings for voice interaction
US11727933B2 (en) 2016-10-19 2023-08-15 Sonos, Inc. Arbitration-based voice recognition
US11900937B2 (en) 2017-08-07 2024-02-13 Sonos, Inc. Wake-word detection suppression
US11500611B2 (en) 2017-09-08 2022-11-15 Sonos, Inc. Dynamic computation of system response volume
US11646045B2 (en) 2017-09-27 2023-05-09 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US11538451B2 (en) 2017-09-28 2022-12-27 Sonos, Inc. Multi-channel acoustic echo cancellation
US11769505B2 (en) 2017-09-28 2023-09-26 Sonos, Inc. Echo of tone interferance cancellation using two acoustic echo cancellers
US11893308B2 (en) 2017-09-29 2024-02-06 Sonos, Inc. Media playback system with concurrent voice assistance
JP2019079038A (ja) * 2017-10-23 2019-05-23 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び装置
JP7158236B2 (ja) 2017-10-23 2022-10-21 三星電子株式会社 音声認識方法及び装置
US11689858B2 (en) 2018-01-31 2023-06-27 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11797263B2 (en) 2018-05-10 2023-10-24 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11792590B2 (en) 2018-05-25 2023-10-17 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11696074B2 (en) 2018-06-28 2023-07-04 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11563842B2 (en) 2018-08-28 2023-01-24 Sonos, Inc. Do not disturb feature for audio notifications
US11482978B2 (en) 2018-08-28 2022-10-25 Sonos, Inc. Audio notifications
US11973893B2 (en) 2018-08-28 2024-04-30 Sonos, Inc. Do not disturb feature for audio notifications
US11432030B2 (en) 2018-09-14 2022-08-30 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11778259B2 (en) 2018-09-14 2023-10-03 Sonos, Inc. Networked devices, systems and methods for associating playback devices based on sound codes
US11790937B2 (en) 2018-09-21 2023-10-17 Sonos, Inc. Voice detection optimization using sound metadata
JP7397920B2 (ja) 2018-09-28 2023-12-13 ソノズ インコーポレイテッド ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
JP2022126805A (ja) * 2018-09-28 2022-08-30 ソノズ インコーポレイテッド ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
JP2021516790A (ja) * 2018-09-28 2021-07-08 ソノズ インコーポレイテッド ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
JP7096353B2 (ja) 2018-09-28 2022-07-05 ソノズ インコーポレイテッド ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
US11790911B2 (en) 2018-09-28 2023-10-17 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11741948B2 (en) 2018-11-15 2023-08-29 Sonos Vox France Sas Dilated convolutions and gating for efficient keyword spotting
US11557294B2 (en) 2018-12-07 2023-01-17 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11538460B2 (en) 2018-12-13 2022-12-27 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11540047B2 (en) 2018-12-20 2022-12-27 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11646023B2 (en) 2019-02-08 2023-05-09 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11798553B2 (en) 2019-05-03 2023-10-24 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11854547B2 (en) 2019-06-12 2023-12-26 Sonos, Inc. Network microphone device with command keyword eventing
US11501773B2 (en) 2019-06-12 2022-11-15 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11710487B2 (en) 2019-07-31 2023-07-25 Sonos, Inc. Locally distributed keyword detection
US11714600B2 (en) 2019-07-31 2023-08-01 Sonos, Inc. Noise classification for event detection
US11862161B2 (en) 2019-10-22 2024-01-02 Sonos, Inc. VAS toggle based on device orientation
US11869503B2 (en) 2019-12-20 2024-01-09 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11961519B2 (en) 2020-02-07 2024-04-16 Sonos, Inc. Localized wakeword verification
US11694689B2 (en) 2020-05-20 2023-07-04 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Also Published As

Publication number Publication date
US20170206895A1 (en) 2017-07-20
KR20170087390A (ko) 2017-07-28
US10482879B2 (en) 2019-11-19
CN105741838A (zh) 2016-07-06
JP6453917B2 (ja) 2019-01-16
KR101922776B1 (ko) 2019-02-20
CN105741838B (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
JP6453917B2 (ja) 音声ウェイクアップ方法及び装置
CN108010515B (zh) 一种语音端点检测和唤醒方法及装置
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN107767863B (zh) 语音唤醒方法、系统及智能终端
JP6759509B2 (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
CN108320733B (zh) 语音数据处理方法及装置、存储介质、电子设备
US8930196B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
WO2017114201A1 (zh) 一种设定操作的执行方法及装置
Tong et al. A comparative study of robustness of deep learning approaches for VAD
US11355102B1 (en) Wakeword detection
CN107731233A (zh) 一种基于rnn的声纹识别方法
US11205428B1 (en) Deleting user data using keys
KR101943381B1 (ko) 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
Kim et al. Multistage data selection-based unsupervised speaker adaptation for personalized speech emotion recognition
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN109272991A (zh) 语音交互的方法、装置、设备和计算机可读存储介质
US20240013784A1 (en) Speaker recognition adaptation
CN112074903A (zh) 用于口语中的声调识别的系统和方法
US20230368796A1 (en) Speech processing
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
Sharma Speaker recognition using machine learning techniques
CN114399992B (zh) 语音指令响应方法、装置及存储介质
CN112189232A (zh) 音频处理方法及装置
CN114171009A (zh) 用于目标设备的语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181213

R150 Certificate of patent or registration of utility model

Ref document number: 6453917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250