JP6938784B2 - オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 - Google Patents
オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 Download PDFInfo
- Publication number
- JP6938784B2 JP6938784B2 JP2020522805A JP2020522805A JP6938784B2 JP 6938784 B2 JP6938784 B2 JP 6938784B2 JP 2020522805 A JP2020522805 A JP 2020522805A JP 2020522805 A JP2020522805 A JP 2020522805A JP 6938784 B2 JP6938784 B2 JP 6938784B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- voiceprint
- target object
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 109
- 238000012549 training Methods 0.000 claims description 150
- 230000008569 process Effects 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 41
- 238000012216 screening Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 description 18
- 230000009471 action Effects 0.000 description 10
- 238000000926 separation method Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本願は、2017年10月23日に提出した中国特許出願第201710992605.7号、発明の名称「オブジェクト識別の方法及びその装置、記憶媒体、端末」の優先権を主張し、その全内容が本願の一部分として援用される。
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップと、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行うステップであって、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得する、ステップと、
前記声紋特徴情報に対応する音声信頼度を取得するステップと、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含む。
プロセッサ及びメモリを備え、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。
コンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ又は複数のプロセッサにより実行されるとき、前記1つ又は複数のプロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行する。
モデル生成モジュール15は声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することに用いられる。
モデル生成モジュール15は、具体的に、目標オブジェクトの訓練音声を含む声紋訓練音声集合を取得し、声紋訓練音声集合における各声紋訓練音声及び声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成することに用いられる。
11 オブジェクト情報取得モジュール
12 特徴情報取得モジュール
13 信頼度取得モジュール
14 結果取得モジュール
15 モデル生成モジュール
111 情報取得ユニット
112 情報決定ユニット
131 マッチング度値取得ユニット
132 信頼度決定ユニット
141 第1結果取得ユニット
142 第2結果取得ユニット
143 第3結果取得ユニット
1000 端末
1001 プロセッサ
1003 ユーザーインターフェース
1004 ネットワークインターフェース 1005 メモリ
1421 情報決定サブユニット
1422 候補結果取得サブユニット
1423 結果取得サブユニット
Claims (14)
- メモリ及びプロセッサを備えるコンピュータ装置において実行されるオブジェクト識別の方法であって、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップと、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行うステップであって、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得する、ステップと、
前記声紋特徴情報に対応する音声信頼度を取得するステップと、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含み、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップは、
前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップと、
前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップと、を含み、
前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定することは、
前記音声信頼度が第1信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定するステップと、
前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定するステップと、
前記音声信頼度が第2信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップと、を含む、前記オブジェクト識別の方法。 - 現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得することは、
マイク配列に基づいて現在の音声環境における音声情報集合を取得するステップと、
前記音声情報集合に対してスクリーニング処理を行うステップであって、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得するステップと、
前記音声情報集合を収集する際の前記マイク配列の位相情報を取得するステップと、
前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップと、を含むことを特徴とする
請求項1に記載の方法。 - 現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得する前に、更に、
声紋訓練音声集合を取得するステップと、
前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練するステップであって、訓練後の声紋マッチングモデルを生成するステップと、を含むことを特徴とする
請求項1に記載の方法。 - 前記声紋特徴情報に対応する音声信頼度を取得するステップは、
前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングするステップであって、特徴マッチング度の最も高い際のマッチング度値を取得する、ステップと、
前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップと、を含むことを特徴とする
請求項3に記載の方法。 - 前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップは、
前記声紋特徴情報に基づいて前記目標オブジェクトの候補識別結果を取得するステップと、
前記方位情報を用いて前記候補識別結果から前記目標オブジェクトのオブジェクト識別結果を特定するステップと、を含むことを特徴とする
請求項1に記載の方法。 - コンピュータ装置であって、
プロセッサ及びメモリを備え、前記メモリにコンピュータ可読命令が記憶され、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行し、
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定し、
前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行し、
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、
前記音声信頼度が第1信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
前記音声信頼度が第2信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップを実行する、前記コンピュータ装置。 - 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行するとき、
マイク配列に基づいて現在の音声環境における音声情報集合を取得し、
前記音声情報集合に対してスクリーニング処理を行って、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得し、
前記音声情報集合を収集する際の前記マイク配列の位相情報を取得し、
前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップを実行することを特徴とする
請求項6に記載のコンピュータ装置。 - 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行する前に、更に、
声紋訓練音声集合を取得し、
前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行することを特徴とする
請求項6に記載のコンピュータ装置。 - 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、
前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、
前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップを実行することを特徴とする
請求項8に記載のコンピュータ装置。 - 前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
前記声紋特徴情報に基づいて前記目標オブジェクトの候補識別結果を取得し、
前記方位情報を用いて前記候補識別結果から前記目標オブジェクトのオブジェクト識別結果を特定するステップを実行することを特徴とする
請求項6に記載のコンピュータ装置。 - 不揮発性のコンピュータ装置可読記憶媒体であって、
コンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つ又は複数のプロセッサにより実行されるとき、前記1つ又は複数のプロセッサは、
現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得し、
訓練後の声紋マッチングモデルに基づいて前記音声情報に対して声紋特徴抽出を行って、前記声紋特徴抽出後の前記音声情報に対応する声紋特徴情報を取得し、
前記声紋特徴情報に対応する音声信頼度を取得し、
前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行し、
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度に基づいて、前記方位情報及び前記声紋特徴情報を用いて、前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行するとき、
前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定し、
前記オブジェクト識別情報に基づいて前記目標オブジェクトのオブジェクト識別結果を取得するステップを実行し、
前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記音声信頼度と所定の音声信頼度閾値との関係に基づき、前記方位情報及び前記声紋特徴情報から、使用されるオブジェクト識別情報を決定するステップを実行するとき、
前記音声信頼度が第1信頼度閾値以上である場合、前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
前記音声信頼度が第2信頼度閾値以上であって、前記第1信頼度閾値より小さい場合、前記方位情報及び前記声紋特徴情報を使用されるオブジェクト識別情報として決定し、
前記音声信頼度が第2信頼度閾値より小さい場合、前記方位情報を使用されるオブジェクト識別情報として決定するステップを実行する、前記不揮発性のコンピュータ装置可読記憶媒体。 - 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行するとき、
マイク配列に基づいて現在の音声環境における音声情報集合を取得し、
前記音声情報集合に対してスクリーニング処理を行って、前記スクリーニング処理後の前記目標オブジェクトの音声情報を取得し、
前記音声情報集合を収集する際の前記マイク配列の位相情報を取得し、
前記位相情報によって示される音声方位に基づいて前記目標オブジェクトの方位情報を決定するステップを実行することを特徴とする
請求項11に記載のコンピュータ装置可読記憶媒体。 - 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、現在の音声環境における目標オブジェクトの音声情報及び前記目標オブジェクトの方位情報を取得するステップを実行する前に、更に、
声紋訓練音声集合を取得し、
前記声紋訓練音声集合における各声紋訓練音声及び前記声紋訓練音声に対応するサンプル特徴情報に基づき、確立された声紋マッチングモデルを訓練して、訓練後の声紋マッチングモデルを生成するステップを実行することを特徴とする
請求項11に記載のコンピュータ装置可読記憶媒体。 - 前記コンピュータ可読命令が前記プロセッサにより実行されるとき、前記プロセッサは、前記声紋特徴情報に対応する音声信頼度を取得するステップを実行するとき、
前記声紋特徴情報及び前記声紋訓練音声に対応するサンプル特徴情報をマッチングして、特徴マッチング度の最も高い際のマッチング度値を取得し、
前記マッチング度値に基づいて前記声紋特徴情報に対応する音声信頼度を決定するステップを実行することを特徴とする
請求項13に記載のコンピュータ装置可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710992605.7 | 2017-10-23 | ||
CN201710992605.7A CN108305615B (zh) | 2017-10-23 | 2017-10-23 | 一种对象识别方法及其设备、存储介质、终端 |
PCT/CN2018/103255 WO2019080639A1 (zh) | 2017-10-23 | 2018-08-30 | 一种对象识别方法、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021500616A JP2021500616A (ja) | 2021-01-07 |
JP6938784B2 true JP6938784B2 (ja) | 2021-09-22 |
Family
ID=62869914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020522805A Active JP6938784B2 (ja) | 2017-10-23 | 2018-08-30 | オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11289072B2 (ja) |
EP (1) | EP3614377B1 (ja) |
JP (1) | JP6938784B2 (ja) |
KR (1) | KR102339594B1 (ja) |
CN (1) | CN108305615B (ja) |
WO (1) | WO2019080639A1 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305615B (zh) | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
CN107945815B (zh) * | 2017-11-27 | 2021-09-07 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
CN108197449A (zh) * | 2017-12-27 | 2018-06-22 | 廖晓曦 | 一种基于移动终端的询问笔录装置、系统及其笔录方法 |
EP3829161B1 (en) * | 2018-07-24 | 2023-08-30 | Sony Group Corporation | Information processing device and method, and program |
CN110782622A (zh) * | 2018-07-25 | 2020-02-11 | 杭州海康威视数字技术股份有限公司 | 一种安全监控系统、安全检测方法、装置及电子设备 |
CN109256147B (zh) * | 2018-10-30 | 2022-06-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频节拍检测方法、装置及存储介质 |
CN111199741A (zh) * | 2018-11-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 声纹识别方法、声纹验证方法、装置、计算设备及介质 |
CN109346083A (zh) * | 2018-11-28 | 2019-02-15 | 北京猎户星空科技有限公司 | 一种智能语音交互方法及装置、相关设备及存储介质 |
CN111292733A (zh) * | 2018-12-06 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 一种语音交互方法和装置 |
CN109410956B (zh) * | 2018-12-24 | 2021-10-08 | 科大讯飞股份有限公司 | 一种音频数据的对象识别方法、装置、设备及存储介质 |
CN109903522A (zh) * | 2019-01-24 | 2019-06-18 | 珠海格力电器股份有限公司 | 一种监控方法、装置、存储介质及家用电器 |
CN110058892A (zh) * | 2019-04-29 | 2019-07-26 | Oppo广东移动通信有限公司 | 电子设备交互方法、装置、电子设备及存储介质 |
CN111951809B (zh) * | 2019-05-14 | 2024-06-21 | 深圳市金桐科技有限公司 | 多人声纹辨别方法及系统 |
CN110082723B (zh) * | 2019-05-16 | 2022-03-15 | 浙江大华技术股份有限公司 | 一种声源定位方法、装置、设备及存储介质 |
CN110505504B (zh) * | 2019-07-18 | 2022-09-23 | 平安科技(深圳)有限公司 | 视频节目处理方法、装置、计算机设备及存储介质 |
CN110491411B (zh) * | 2019-09-25 | 2022-05-17 | 上海依图信息技术有限公司 | 结合麦克风声源角度和语音特征相似度分离说话人的方法 |
CN110767226B (zh) * | 2019-10-30 | 2022-08-16 | 山西见声科技有限公司 | 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端 |
US11664033B2 (en) | 2020-06-15 | 2023-05-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
CN111833899B (zh) * | 2020-07-27 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 一种基于多音区的语音检测方法、相关装置及存储介质 |
CN111916065B (zh) * | 2020-08-05 | 2024-07-02 | 北京百度网讯科技有限公司 | 用于处理语音的方法和装置 |
CN111904424B (zh) * | 2020-08-06 | 2021-08-24 | 苏州国科医工科技发展(集团)有限公司 | 基于相阵麦克风的睡眠监测及调控系统 |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN111988426B (zh) * | 2020-08-31 | 2023-07-18 | 深圳康佳电子科技有限公司 | 基于声纹识别的通信方法、装置、智能终端及存储介质 |
CN112233694B (zh) * | 2020-10-10 | 2024-03-05 | 中国电子科技集团公司第三研究所 | 一种目标识别方法、装置、存储介质及电子设备 |
CN112507294B (zh) * | 2020-10-23 | 2022-04-22 | 重庆交通大学 | 一种基于人机交互的英语教学系统及教学方法 |
CN112530452B (zh) * | 2020-11-23 | 2024-06-28 | 北京海云捷迅科技股份有限公司 | 一种后置滤波补偿方法、装置和系统 |
CN112885370B (zh) * | 2021-01-11 | 2024-05-31 | 广州欢城文化传媒有限公司 | 一种声音卡片有效性检测方法及装置 |
CN112820300B (zh) | 2021-02-25 | 2023-12-19 | 北京小米松果电子有限公司 | 音频处理方法及装置、终端、存储介质 |
CN113113044B (zh) * | 2021-03-23 | 2023-05-09 | 北京小米松果电子有限公司 | 音频处理方法及装置、终端及存储介质 |
US11996087B2 (en) | 2021-04-30 | 2024-05-28 | Comcast Cable Communications, Llc | Method and apparatus for intelligent voice recognition |
CN113707173B (zh) * | 2021-08-30 | 2023-12-29 | 平安科技(深圳)有限公司 | 基于音频切分的语音分离方法、装置、设备及存储介质 |
CN114694635A (zh) * | 2022-03-29 | 2022-07-01 | 青岛海尔空调器有限总公司 | 一种睡眠场景设置方法及装置 |
CN114863932A (zh) * | 2022-03-29 | 2022-08-05 | 青岛海尔空调器有限总公司 | 一种工作模式设置方法及装置 |
CN114999472A (zh) * | 2022-04-27 | 2022-09-02 | 青岛海尔空调器有限总公司 | 一种空调控制方法、装置及一种空调 |
CN115331673B (zh) * | 2022-10-14 | 2023-01-03 | 北京师范大学 | 一种复杂声音场景下的声纹识别家电控制方法和装置 |
CN116299179B (zh) * | 2023-05-22 | 2023-09-12 | 北京边锋信息技术有限公司 | 一种声源定位方法、声源定位装置和可读存储介质 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2991144B2 (ja) * | 1997-01-29 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
FR2761848B1 (fr) * | 1997-04-04 | 2004-09-17 | Parrot Sa | Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile |
US6751590B1 (en) * | 2000-06-13 | 2004-06-15 | International Business Machines Corporation | Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP4595364B2 (ja) * | 2004-03-23 | 2010-12-08 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
US20070219801A1 (en) * | 2006-03-14 | 2007-09-20 | Prabha Sundaram | System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user |
JP4982807B2 (ja) * | 2008-03-06 | 2012-07-25 | 独立行政法人産業技術総合研究所 | 操作方法およびそのための操作装置、プログラム |
JP4730404B2 (ja) * | 2008-07-08 | 2011-07-20 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
US8442824B2 (en) * | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
JP2010165305A (ja) * | 2009-01-19 | 2010-07-29 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US8265341B2 (en) * | 2010-01-25 | 2012-09-11 | Microsoft Corporation | Voice-body identity correlation |
US8606579B2 (en) * | 2010-05-24 | 2013-12-10 | Microsoft Corporation | Voice print identification for identifying speakers |
CN102270451B (zh) * | 2011-08-18 | 2013-05-29 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
US20130162752A1 (en) * | 2011-12-22 | 2013-06-27 | Advanced Micro Devices, Inc. | Audio and Video Teleconferencing Using Voiceprints and Face Prints |
US9401058B2 (en) * | 2012-01-30 | 2016-07-26 | International Business Machines Corporation | Zone based presence determination via voiceprint location awareness |
US9800731B2 (en) * | 2012-06-01 | 2017-10-24 | Avaya Inc. | Method and apparatus for identifying a speaker |
CN102930868A (zh) * | 2012-10-24 | 2013-02-13 | 北京车音网科技有限公司 | 身份识别方法和装置 |
EP2797078B1 (en) * | 2013-04-26 | 2016-10-12 | Agnitio S.L. | Estimation of reliability in speaker recognition |
US9711148B1 (en) * | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
US9922667B2 (en) * | 2014-04-17 | 2018-03-20 | Microsoft Technology Licensing, Llc | Conversation, presence and context detection for hologram suppression |
US20150302856A1 (en) * | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for performing function by speech input |
CN105321520A (zh) * | 2014-06-16 | 2016-02-10 | 丰唐物联技术(深圳)有限公司 | 一种语音控制方法及装置 |
US9384738B2 (en) * | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
CN104219050B (zh) * | 2014-08-08 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 声纹验证方法、服务器、客户端及系统 |
US10262655B2 (en) * | 2014-11-03 | 2019-04-16 | Microsoft Technology Licensing, Llc | Augmentation of key phrase user recognition |
US10397220B2 (en) * | 2015-04-30 | 2019-08-27 | Google Llc | Facial profile password to modify user account data for hands-free transactions |
CN104935819B (zh) * | 2015-06-11 | 2018-03-02 | 广东欧珀移动通信有限公司 | 一种控制摄像头拍摄方法及终端 |
US10178301B1 (en) * | 2015-06-25 | 2019-01-08 | Amazon Technologies, Inc. | User identification based on voice and face |
CN105280183B (zh) * | 2015-09-10 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10026403B2 (en) * | 2016-08-12 | 2018-07-17 | Paypal, Inc. | Location based voice association system |
CN106503513A (zh) * | 2016-09-23 | 2017-03-15 | 北京小米移动软件有限公司 | 声纹识别方法及装置 |
US20190182176A1 (en) * | 2016-12-21 | 2019-06-13 | Facebook, Inc. | User Authentication with Voiceprints on Online Social Networks |
CN106898355B (zh) * | 2017-01-17 | 2020-04-14 | 北京华控智加科技有限公司 | 一种基于二次建模的说话人识别方法 |
CN106961418A (zh) * | 2017-02-08 | 2017-07-18 | 北京捷通华声科技股份有限公司 | 身份认证方法和身份认证系统 |
US10467510B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
CN107123421A (zh) * | 2017-04-11 | 2017-09-01 | 广东美的制冷设备有限公司 | 语音控制方法、装置及家电设备 |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
CN107221331A (zh) * | 2017-06-05 | 2017-09-29 | 深圳市讯联智付网络有限公司 | 一种基于声纹的身份识别方法和设备 |
CN108305615B (zh) * | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
CN107862060B (zh) * | 2017-11-15 | 2021-03-23 | 吉林大学 | 一种追踪目标人的语义识别装置及识别方法 |
-
2017
- 2017-10-23 CN CN201710992605.7A patent/CN108305615B/zh active Active
-
2018
- 2018-08-30 KR KR1020197038790A patent/KR102339594B1/ko active IP Right Grant
- 2018-08-30 JP JP2020522805A patent/JP6938784B2/ja active Active
- 2018-08-30 WO PCT/CN2018/103255 patent/WO2019080639A1/zh unknown
- 2018-08-30 EP EP18870826.7A patent/EP3614377B1/en active Active
-
2019
- 2019-10-24 US US16/663,086 patent/US11289072B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11289072B2 (en) | 2022-03-29 |
EP3614377B1 (en) | 2022-02-09 |
KR20200012963A (ko) | 2020-02-05 |
US20200058293A1 (en) | 2020-02-20 |
WO2019080639A1 (zh) | 2019-05-02 |
JP2021500616A (ja) | 2021-01-07 |
CN108305615B (zh) | 2020-06-16 |
EP3614377A1 (en) | 2020-02-26 |
EP3614377A4 (en) | 2020-12-30 |
CN108305615A (zh) | 2018-07-20 |
KR102339594B1 (ko) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6938784B2 (ja) | オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 | |
Sahidullah et al. | Introduction to voice presentation attack detection and recent advances | |
US10593336B2 (en) | Machine learning for authenticating voice | |
Tom et al. | End-To-End Audio Replay Attack Detection Using Deep Convolutional Networks with Attention. | |
US11508381B2 (en) | Voiceprint recognition method, model training method, and server | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
US9865253B1 (en) | Synthetic speech discrimination systems and methods | |
CN103503060B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
EP3156978A1 (en) | A system and a method for secure speaker verification | |
JP2019522840A (ja) | アイデンティティ認証方法及び装置 | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
CN111199741A (zh) | 声纹识别方法、声纹验证方法、装置、计算设备及介质 | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
CN112017633B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN111179940A (zh) | 一种语音识别方法、装置及计算设备 | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN112397093A (zh) | 一种语音检测方法与装置 | |
EP3816996B1 (en) | Information processing device, control method, and program | |
Kanrar | Dimension compactness in speaker identification | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
JP7287442B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
Madhusudhana Rao et al. | Machine hearing system for teleconference authentication with effective speech analysis | |
CN116863953A (zh) | 语音分离方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210901 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6938784 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |