JP2018536889A - 音声データを使用して操作を開始するための方法および装置 - Google Patents
音声データを使用して操作を開始するための方法および装置 Download PDFInfo
- Publication number
- JP2018536889A JP2018536889A JP2018518633A JP2018518633A JP2018536889A JP 2018536889 A JP2018536889 A JP 2018536889A JP 2018518633 A JP2018518633 A JP 2018518633A JP 2018518633 A JP2018518633 A JP 2018518633A JP 2018536889 A JP2018536889 A JP 2018536889A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- audio data
- speech
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000977 initiatory effect Effects 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【選択図】図1
Description
[0001] 本願は、2015年10月14日に出願された中国特許第201510662029.0号に基づき、その優先権を主張するものであり、この特許の内容全体を参照によって本願明細書に引用したものとする。
Claims (26)
- 音声を使用して操作を開始するための方法であって、
第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出することと、
前記1つまたは複数の音声特徴に従って前記第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定することであって、前記第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、前記第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、判定することと、
前記類似度に基づいて前記第1の音声モデルに対応する操作を実行することと
を含む、前記方法。 - 前記1つまたは複数の音声特徴を抽出するステップは、
前記第1のオーディオデータが音声データであるか否かを判定することと、
前記第1のオーディオデータが音声データである場合に、前記第1のオーディオデータに基づいて前記1つまたは複数の音声特徴を抽出することと、
前記第1のオーディオデータが音声データでない場合に、前記第1のオーディオデータを破棄することと
を含む、請求項1に記載の方法。 - 前記1つまたは複数の音声特徴を抽出するステップは、
前記第1のオーディオデータを1つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと、
前記音声セグメントデータの各々の1つまたは複数の音声特徴を抽出することと
を含む、請求項1に記載の方法。 - 前記事前設定の第1の音声モデルは、1つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記第1のオーディオデータと前記事前設定の第1の音声モデルとの間の前記類似度を判定するステップは、
分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別することと、
前記音声セグメントデータの各々の前記1つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定することと、
各々の音声セグメント類似度に従って前記第1のオーディオデータと前記第1の音声モデルとの間の前記類似度を判定することと
を含む、請求項3に記載の方法。 - 前記音声モデルに対応する操作を実行するステップは、
前記類似度が事前設定の類似度閾値より大きい場合に前記第1の音声モデルに対応する前記操作を実行することを含み、
デバイスの画面が画面ロック状態であり、前記第1の音声モデルに対応する前記操作はロック解除操作およびアプリケーション開始を含む、請求項1〜請求項4のいずれか一項に記載の方法。 - 登録段階において前記ユーザの1つまたは複数のオーディオデータを取得することと、
前記1つまたは複数のオーディオデータに従って第2の音声モデルをトレーニングすることであって、前記1つまたは複数のオーディオデータは前記ユーザの1つまたは複数の音声コンテンツに関連付けられ、前記1つまたは複数の音声コンテンツは前記1つまたは複数の事前選択の音声コンテンツとは異なる、トレーニングすることと、
前記1つまたは複数のオーディオデータおよび前記第2の音声モデルに従って前記第1の音声モデルをトレーニングすることと
をさらに含む、請求項1〜請求項5のいずれか一項に記載の方法。 - 前記登録段階において前記ユーザの1つまたは複数のオーディオデータを取得するステップは、
オーディオデータが登録段階で検出された後に前記オーディオデータが音声データであるか否かを判定することと、
前記オーディオデータが音声データである場合に、前記オーディオデータが前記ユーザに関連付けられていることを判定することと、
前記オーディオデータが音声データでない場合に、前記オーディオデータを破棄することと
を含む、請求項6に記載の方法。 - 前記1つまたは複数のオーディオデータに従って前記第2の音声モデルをトレーニングするステップは、
事前設定の第3の音声モデルを識別することであって、前記第3の音声モデルは前記ユーザとは異なる1人または複数人の話者のオーディオデータに関連付けられ、1人または複数人の話者の前記オーディオデータは前記1つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも1つの音声コンテンツに関連付けられることと、
前記1つまたは複数のオーディオデータおよび前記第3の音声モデルを使用して前記第2の音声モデルをトレーニングすることと
を含む、請求項6または請求項7に記載の方法。 - 前記第1の音声モデルは、1つまたは複数の音声サブモデルを含み、前記第1の音声モデルをトレーニングするステップは、
前記ユーザの前記オーディオデータの各々を1つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと、
前記音声セグメントデータの各々から少なくとも1つの音声特徴を抽出することと、
前記音声セグメントデータの各々の前記少なくとも1つの音声特徴および前記第2の音声モデルを使用して前記第1の音声モデルをトレーニングすることと
を含む、請求項6〜請求項8のいずれか一項に記載の方法。 - 前記第1のオーディオデータに基づいて前記第1の音声モデルおよび前記第2の音声モデルを更新することをさらに含む、請求項6〜請求項9のいずれか一項に記載の方法。
- 音声を使用して操作を開始するための装置であって、
第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出するように構成された音声特徴抽出モジュールと、
前記1つまたは複数の音声特徴に従って前記第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定するように構成されたモデル類似度判定モジュールであって、前記第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、前記第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、モデル類似度判定モジュールと、
前記類似度に基づいて前記第1の音声モデルに対応する操作を実行するように構成された操作実行モジュールと
を含む、前記装置。 - 前記音声特徴抽出モジュールは、
前記第1のオーディオデータが音声データであるか否かを判定して、抽出サブモジュールを呼び出し、前記第1のオーディオデータが音声データでない場合に、第1の破棄サブモジュールを呼び出すように構成された、第1の音声データ判定サブモジュールと、
前記第1のオーディオデータに基づいて前記1つまたは複数の音声特徴を抽出するように構成された第1の抽出サブモジュールであって、前記第1の音声データ判定サブモジュールが前記第1のオーディオデータが音声データであると判定した場合に呼び出される第1の抽出サブモジュールと、
前記オーディオデータを破棄するように構成された第1の破棄サブモジュールであって、前記第1の音声データ判定サブモジュールが前記第1のオーディオデータが音声データでないと判定した場合に呼び出される第1の破棄サブモジュールと
を含む、請求項11に記載の装置。 - 前記音声特徴抽出モジュールは、
前記第1のオーディオデータを1つまたは複数の音声セグメントデータに分割するように構成された第1の分割サブモジュールであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、第1の分割サブモジュールと、
前記音声セグメントデータの各々の1つまたは複数の音声特徴を抽出するように構成された第2の抽出サブモジュールと
を含む、請求項11に記載の装置。 - 前記事前設定の第1の音声モデルは、1つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記モデル類似度判定モジュールは、
分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別するように構成された音声サブモデル識別サブモジュールと、
前記音声セグメントデータの各々の前記1つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定するように構成された音声セグメント類似度判定サブモジュールと、
各々の音声セグメント類似度に従って前記第1のオーディオデータと前記第1の音声モデルとの間の前記類似度を判定するように構成された類似度判定サブモジュールと
を含む、請求項13に記載の装置。 - 前記操作実行モジュールは、
前記類似度が事前設定の類似度閾値より大きい場合に前記第1の音声モデルに対応する前記操作を実行するように構成された実行サブモジュールを含み、
デバイスの画面が画面ロック状態であり、前記第1の音声モデルに対応する前記操作はロック解除操作およびアプリケーション開始を含む、請求項11〜請求項14のいずれか一項に記載の装置 - 登録段階において前記ユーザの1つまたは複数のオーディオデータを取得するように構成されたオーディオデータ取得モジュールと、
前記1つまたは複数のオーディオデータに従って第2の音声モデルをトレーニングするように構成された第2の音声モデルトレーニングモジュールであって、前記1つまたは複数のオーディオデータは前記ユーザの1つまたは複数の音声コンテンツに関連付けられ、前記1つまたは複数の音声コンテンツは前記1つまたは複数の事前選択の音声コンテンツとは異なる、第2の音声モデルトレーニングモジュールと、
前記1つまたは複数のオーディオデータおよび前記第2の音声モデルに従って前記第1の音声モデルをトレーニングするように構成された第1の音声モデルトレーニングモジュールと
をさらに含む、請求項11〜請求項15のいずれか一項に記載の装置。 - 前記オーディオデータ取得モジュールは、
オーディオデータが登録段階で検出された後に前記オーディオデータが音声データであるか否かを判定するように構成された第2の音声データ判定サブモジュールと、
前記オーディオデータが前記ユーザに関連付けられていることを判定するように構成された判定サブモジュールであって、前記第2の音声データ判定サブモジュールが前記オーディオデータは音声データであると判定した場合に呼び出される判定サブモジュールと、
前記オーディオデータを破棄するように構成された第2の破棄サブモジュールであって、前記第2の音声データ判定サブモジュールが前記オーディオデータは音声データでないと判定した場合に呼び出される第2の破棄サブモジュールと
を含む、請求項16に記載の装置。 - 前記第2の音声モデルトレーニングモジュールは、
事前設定の第3の音声モデルを識別するように構成された第3の音声モデル識別サブモジュールであって、前記第3の音声モデルは前記ユーザとは異なる1人または複数人の話者のオーディオデータに関連付けられ、1人または複数人の話者の前記オーディオデータは前記1つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも1つの音声コンテンツに関連付けられる、第3の音声モデル識別サブモジュールと、
前記1つまたは複数のオーディオデータおよび前記第3の音声モデルを使用して前記第2の音声モデルをトレーニングするように構成された第1のトレーニングサブモジュールと
を含む、請求項16または請求項17に記載の装置。 - 前記第1の音声モデルは、1つまたは複数の音声サブモデルを含み、前記第1の音声モデルトレーニングモジュールは、
前記ユーザの前記オーディオデータの各々を1つまたは複数の音声セグメントデータに分割するよう構成された第2の分割サブモジュールであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、第2の分割サブモジュールと、
前記音声セグメントデータの各々から少なくとも1つの音声特徴を抽出するように構成された第3の抽出サブモジュールと、
前記音声セグメントデータの各々の前記少なくとも1つの音声特徴および前記第2の音声モデルを使用して前記第1の音声モデルをトレーニングするように構成された第2のトレーニングサブモジュールと
を含む、請求項16〜請求項18のいずれか一項に記載の装置。 - 前記第1のオーディオデータに基づいて前記第1の音声モデルおよび前記第2の音声モデルを更新するように構成されたモデル更新モジュールをさらに含む、請求項16〜請求項19のいずれか一項に記載の装置。
- 音声を使用して操作を開始するための方法を電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能な命令セットを記憶する非一時的なコンピュータ可読媒体であって、前記方法は、
第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出することと、
前記1つまたは複数の音声特徴に従って前記第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定することであって、前記第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、前記第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、判定することと、
前記類似度に基づいて前記第1の音声モデルに対応する操作を実行することと
を含む、非一時的なコンピュータ可読媒体。 - 前記命令セットは、
前記第1のオーディオデータが音声データであるか否かを判定することと、
前記第1のオーディオデータが音声データである場合に、前記第1のオーディオデータに基づいて前記1つまたは複数の音声特徴を抽出することと、
前記第1のオーディオデータが音声データでない場合に、前記第1のオーディオデータを破棄することと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項21に記載の非一時的なコンピュータ可読媒体。 - 前記命令セットは、
前記第1のオーディオデータを1つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと
前記音声セグメントデータの各々の1つまたは複数の音声特徴を抽出することと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項21に記載の非一時的なコンピュータ可読媒体。 - 前記事前設定の第1の音声モデルは、1つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記命令セットは、
分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別することと、
前記音声セグメントデータの各々の前記1つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定することと、
各々の音声セグメント類似度に従って前記第1のオーディオデータと前記第1の音声モデルとの間の前記類似度を判定することと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項23に記載の非一時的なコンピュータ可読媒体。 - 前記命令セットは、
登録段階において前記ユーザの1つまたは複数のオーディオデータを取得することと、
前記1つまたは複数のオーディオデータに従って第2の音声モデルをトレーニングすることであって、前記1つまたは複数のオーディオデータは前記ユーザの1つまたは複数の音声コンテンツに関連付けられ、前記1つまたは複数の音声コンテンツは前記1つまたは複数の事前選択の音声コンテンツとは異なる、トレーニングすることと、
前記1つまたは複数のオーディオデータおよび前記第2の音声モデルに従って前記第1の音声モデルをトレーニングすることと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項21〜請求項24のいずれか一項に記載の非一時的なコンピュータ可読媒体。 - 前記命令セットは、
事前設定の第3の音声モデルを識別することであって、前記第3の音声モデルは前記ユーザとは異なる1人または複数人の話者のオーディオデータに関連付けられ、1人または複数人の話者の前記オーディオデータは前記1つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも1つの音声コンテンツに関連付けられる、識別することと、
前記1つまたは複数のオーディオデータおよび前記第3の音声モデルを使用して前記第2の音声モデルをトレーニングすることと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項25に記載の非一時的なコンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510662029.0A CN106601238A (zh) | 2015-10-14 | 2015-10-14 | 一种应用操作的处理方法和装置 |
CN201510662029.0 | 2015-10-14 | ||
PCT/US2016/056804 WO2017066424A1 (en) | 2015-10-14 | 2016-10-13 | Method and apparatus for initiating an operation using voice data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018536889A true JP2018536889A (ja) | 2018-12-13 |
Family
ID=58517892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018518633A Pending JP2018536889A (ja) | 2015-10-14 | 2016-10-13 | 音声データを使用して操作を開始するための方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20170110125A1 (ja) |
EP (1) | EP3405947A4 (ja) |
JP (1) | JP2018536889A (ja) |
CN (1) | CN106601238A (ja) |
SG (1) | SG11201802985PA (ja) |
WO (1) | WO2017066424A1 (ja) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US11979836B2 (en) | 2007-04-03 | 2024-05-07 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12026197B2 (en) | 2017-06-01 | 2024-07-02 | Apple Inc. | Intelligent automated assistant for media exploration |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481718B (zh) * | 2017-09-20 | 2019-07-05 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
US11894008B2 (en) * | 2017-12-12 | 2024-02-06 | Sony Corporation | Signal processing apparatus, training apparatus, and method |
CN108133703A (zh) * | 2017-12-26 | 2018-06-08 | 佛山市道静科技有限公司 | 一种手机控制系统 |
JP7143599B2 (ja) * | 2018-03-09 | 2022-09-29 | オムロン株式会社 | メタデータ評価装置、メタデータ評価方法、およびメタデータ評価プログラム |
CN110415727B (zh) * | 2018-04-28 | 2021-12-07 | 科大讯飞股份有限公司 | 宠物情绪识别方法及装置 |
JP6810720B2 (ja) * | 2018-05-10 | 2021-01-06 | レノボ・シンガポール・プライベート・リミテッド | 電子機器、情報処理システム、情報処理方法、及びプログラム |
DK201870358A1 (en) * | 2018-06-03 | 2020-01-03 | Apple Inc. | ACCELERATED TASK PERFORMANCE |
CN110677532A (zh) * | 2018-07-02 | 2020-01-10 | 深圳市汇顶科技股份有限公司 | 基于指纹识别的语音助手控制方法、系统和电子设备 |
CN109065026B (zh) * | 2018-09-14 | 2021-08-31 | 海信集团有限公司 | 一种录音控制方法及装置 |
CN109192211A (zh) * | 2018-10-29 | 2019-01-11 | 珠海格力电器股份有限公司 | 一种语音信号识别的方法、装置及设备 |
CN111131601B (zh) * | 2018-10-31 | 2021-08-27 | 华为技术有限公司 | 一种音频控制方法、电子设备、芯片及计算机存储介质 |
CN110798318B (zh) * | 2019-09-18 | 2022-06-24 | 深圳云知声信息技术有限公司 | 设备管理方法及装置 |
US11887589B1 (en) * | 2020-06-17 | 2024-01-30 | Amazon Technologies, Inc. | Voice-based interactions with a graphical user interface |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000020088A (ja) * | 1998-07-06 | 2000-01-21 | Matsushita Electric Ind Co Ltd | 話者照合装置 |
JP2000181490A (ja) * | 1998-12-18 | 2000-06-30 | Fujitsu Ltd | 利用者照合方法および利用者照合装置 |
JP2010211122A (ja) * | 2009-03-12 | 2010-09-24 | Nissan Motor Co Ltd | 音声認識装置及び方法 |
JP2011027905A (ja) * | 2009-07-23 | 2011-02-10 | Denso Corp | 音声認識装置およびそれを用いたナビゲーション装置 |
JP2014145932A (ja) * | 2013-01-29 | 2014-08-14 | Sogo Keibi Hosho Co Ltd | 話者認識装置、話者認識方法及び話者認識プログラム |
WO2015005927A1 (en) * | 2013-07-11 | 2015-01-15 | Intel Corporation | Device wake and speaker verification using the same audio input |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2964518B2 (ja) * | 1990-01-30 | 1999-10-18 | 日本電気株式会社 | 音声制御方式 |
US6081782A (en) * | 1993-12-29 | 2000-06-27 | Lucent Technologies Inc. | Voice command control and verification system |
AU5359498A (en) * | 1996-11-22 | 1998-06-10 | T-Netix, Inc. | Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
CN101441869A (zh) * | 2007-11-21 | 2009-05-27 | 联想(北京)有限公司 | 语音识别终端用户身份的方法及终端 |
CN101321387A (zh) * | 2008-07-10 | 2008-12-10 | 中国移动通信集团广东有限公司 | 基于通信系统的声纹识别方法及系统 |
JP5621783B2 (ja) * | 2009-12-10 | 2014-11-12 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
KR200467280Y1 (ko) * | 2010-02-19 | 2013-06-04 | 최육남 | 분기용 배관 |
CN101833951B (zh) * | 2010-03-04 | 2011-11-09 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102333066A (zh) * | 2010-07-13 | 2012-01-25 | 朱建政 | 一种在网络游戏中采用说话者语音身份验证和账号密码保护相结合的网络安全验证方法 |
CN102411929A (zh) * | 2010-09-25 | 2012-04-11 | 盛乐信息技术(上海)有限公司 | 声纹认证系统及其实现方法 |
CN102413101A (zh) * | 2010-09-25 | 2012-04-11 | 盛乐信息技术(上海)有限公司 | 声纹密码语音提示的声纹认证系统及其实现方法 |
CN102446505A (zh) * | 2010-10-15 | 2012-05-09 | 盛乐信息技术(上海)有限公司 | 联合因子分析方法及联合因子分析声纹认证方法 |
CN102543084A (zh) * | 2010-12-29 | 2012-07-04 | 盛乐信息技术(上海)有限公司 | 在线声纹认证系统及其实现方法 |
CN102647521B (zh) * | 2012-04-05 | 2013-10-09 | 福州博远无线网络科技有限公司 | 基于语音短命令和声纹技术解除手机锁屏的方法 |
US9489950B2 (en) * | 2012-05-31 | 2016-11-08 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
EP2865203A4 (en) * | 2012-06-21 | 2016-02-17 | Cellepathy Ltd | DEVICE CONTEXT DETERMINATION |
US9633652B2 (en) * | 2012-11-30 | 2017-04-25 | Stmicroelectronics Asia Pacific Pte Ltd. | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon |
JP6149868B2 (ja) * | 2013-01-10 | 2017-06-21 | 日本電気株式会社 | 端末、ロック解除方法およびプログラム |
US9620123B2 (en) * | 2013-05-02 | 2017-04-11 | Nice Ltd. | Seamless authentication and enrollment |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
US9620105B2 (en) * | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
CN104168270B (zh) * | 2014-07-31 | 2016-01-13 | 腾讯科技(深圳)有限公司 | 身份验证方法、服务器、客户端及系统 |
CN104732978B (zh) * | 2015-03-12 | 2018-05-08 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
CN104901807B (zh) * | 2015-04-07 | 2019-03-26 | 河南城建学院 | 一种可用于低端芯片的声纹密码方法 |
US9658704B2 (en) * | 2015-06-10 | 2017-05-23 | Apple Inc. | Devices and methods for manipulating user interfaces with a stylus |
-
2015
- 2015-10-14 CN CN201510662029.0A patent/CN106601238A/zh active Pending
-
2016
- 2016-10-13 WO PCT/US2016/056804 patent/WO2017066424A1/en active Application Filing
- 2016-10-13 US US15/292,632 patent/US20170110125A1/en not_active Abandoned
- 2016-10-13 EP EP16856174.4A patent/EP3405947A4/en active Pending
- 2016-10-13 SG SG11201802985PA patent/SG11201802985PA/en unknown
- 2016-10-13 JP JP2018518633A patent/JP2018536889A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000020088A (ja) * | 1998-07-06 | 2000-01-21 | Matsushita Electric Ind Co Ltd | 話者照合装置 |
JP2000181490A (ja) * | 1998-12-18 | 2000-06-30 | Fujitsu Ltd | 利用者照合方法および利用者照合装置 |
JP2010211122A (ja) * | 2009-03-12 | 2010-09-24 | Nissan Motor Co Ltd | 音声認識装置及び方法 |
JP2011027905A (ja) * | 2009-07-23 | 2011-02-10 | Denso Corp | 音声認識装置およびそれを用いたナビゲーション装置 |
JP2014145932A (ja) * | 2013-01-29 | 2014-08-14 | Sogo Keibi Hosho Co Ltd | 話者認識装置、話者認識方法及び話者認識プログラム |
WO2015005927A1 (en) * | 2013-07-11 | 2015-01-15 | Intel Corporation | Device wake and speaker verification using the same audio input |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11979836B2 (en) | 2007-04-03 | 2024-05-07 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US12009007B2 (en) | 2013-02-07 | 2024-06-11 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12026197B2 (en) | 2017-06-01 | 2024-07-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
Also Published As
Publication number | Publication date |
---|---|
US20170110125A1 (en) | 2017-04-20 |
SG11201802985PA (en) | 2018-05-30 |
CN106601238A (zh) | 2017-04-26 |
EP3405947A1 (en) | 2018-11-28 |
EP3405947A4 (en) | 2020-03-04 |
WO2017066424A1 (en) | 2017-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018536889A (ja) | 音声データを使用して操作を開始するための方法および装置 | |
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US20180374487A1 (en) | Detection of replay attack | |
US10096321B2 (en) | Reverberation compensation for far-field speaker recognition | |
US11430449B2 (en) | Voice-controlled management of user profiles | |
Baloul et al. | Challenge-based speaker recognition for mobile authentication | |
US20230401338A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
KR102585231B1 (ko) | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 | |
CN116508097A (zh) | 说话者识别准确度 | |
JP2019028465A (ja) | 話者検証方法及び音声認識システム | |
EP4295517A2 (en) | Hybrid multilingual text-dependent and text-independent speaker verification | |
Li et al. | Feature sparsity analysis for i-vector based speaker verification | |
US10762905B2 (en) | Speaker verification | |
WO2018137426A1 (zh) | 用户声音信息的识别方法及装置 | |
Mittal et al. | Age approximation from speech using Gaussian mixture models | |
EP3989219B1 (en) | Method for detecting an audio adversarial attack with respect to a voice command processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
US20230260521A1 (en) | Speaker Verification with Multitask Speech Models | |
GORAI et al. | A GAUSSIAN MIXTURE MODELBASED SPEAKER RECOGNITION SYSTEM | |
Wu et al. | A Study of the Vulnerability of Text-Dependent Speaker Verification System Against Voice Conversion Spoofing Attack | |
Kurniawati et al. | Speaker dependent activation keyword detector based on GMM-UBM. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200911 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201210 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210525 |