JP7221258B2 - 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 - Google Patents
声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 Download PDFInfo
- Publication number
- JP7221258B2 JP7221258B2 JP2020156101A JP2020156101A JP7221258B2 JP 7221258 B2 JP7221258 B2 JP 7221258B2 JP 2020156101 A JP2020156101 A JP 2020156101A JP 2020156101 A JP2020156101 A JP 2020156101A JP 7221258 B2 JP7221258 B2 JP 7221258B2
- Authority
- JP
- Japan
- Prior art keywords
- voiceprint
- user
- loss function
- training
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 157
- 238000000034 method Methods 0.000 title claims description 97
- 239000000284 extract Substances 0.000 title claims description 11
- 230000006870 function Effects 0.000 claims description 186
- 238000003062 neural network model Methods 0.000 claims description 131
- 238000000605 extraction Methods 0.000 claims description 97
- 238000012545 processing Methods 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims 2
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000000926 separation method Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 101000666171 Homo sapiens Protein-glutamine gamma-glutamyltransferase 2 Proteins 0.000 description 1
- 102100038095 Protein-glutamine gamma-glutamyltransferase 2 Human genes 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本出願は、2020年4月22日付の中国特許出願第2020103241128号に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含む。
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含む。
勾配反転により、前記声紋特徴情報を処理することを含む。
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む。
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含む。
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュールと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成される。
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成される。
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成される。
ユーザの音声を取得するように構成される、上記訓練された声紋抽出モデルが設けられた音声取得装置と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュールとを備える。
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成される。
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを実現させるように構成される。
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む。
例えば、本願は以下の項目を提供する。
(項目1)
声紋抽出モデル訓練方法であって、上記声紋抽出モデルは、ニューラルネットワークモデルであり、上記方法は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記方法。
(項目2)
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
上記声紋特徴情報及びチャネル雑音情報に基づいて、上記差異損失関数を算出することとを含むことを特徴とする
上記項目に記載の方法。
(項目3)
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を上記ニューラルネットワークモデルのドメイン分類器に入力することと、
上記ドメイン分類器の分類結果と、上記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、上記類似損失関数を取得することとを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目4)
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、上記声紋特徴情報を処理することを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目5)
声紋認識方法であって、上記方法は、上記項目いずれか一項に記載の声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、上記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを含むことを特徴とする、上記方法。
(項目6)
上記方法は、
決定された上記声紋特徴と上記ユーザ情報との対応関係をメモリに記憶することを更に含み、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することは、
上記ユーザ情報に基づいて、上記メモリから、上記ユーザの声紋特徴を取得することを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目7)
声紋抽出モデル訓練装置であって、ニューラルネットワークモデルに適用され、上記装置は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュールと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記装置。
(項目8)
上記損失関数取得モジュールは更に、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
上記声紋特徴情報及びチャネル雑音情報に基づいて、上記差異損失関数を算出するように構成されることを特徴とする
上記項目に記載の装置。
(項目9)
上記損失関数取得モジュールは更に、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を上記ニューラルネットワークモデルのドメイン分類器に入力し、
上記ドメイン分類器の分類結果と、上記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、上記類似損失関数を取得するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目10)
上記損失関数取得モジュールは更に、
勾配反転により、上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目11)
声紋認識装置であって、
ユーザの音声を取得するように構成される、上記項目いずれか一項に記載の訓練された声紋抽出モデルが設けられた音声取得装置と、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うように構成される認識モジュールとを備えることを特徴とする、上記装置。
(項目12)
上記装置は、
決定された上記声紋特徴と上記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
上記声紋取得モジュールは更に、上記ユーザ情報に基づいて、上記メモリから、上記ユーザの声紋特徴を取得するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目13)
声紋認識装置であって、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
上記プロセッサは、上記実行可能な命令を実行する時、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記装置。
(項目14)
非一時的コンピュータ可読記憶媒体であって、上記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、上記方法は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、上記非一時的コンピュータ可読記憶媒体。
(項目15)
声紋抽出モデル訓練装置であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
上記プロセッサは、上記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを実現させるように構成されることを特徴とする、上記装置。
(項目16)
非一時的コンピュータ可読記憶媒体であって、上記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、上記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを含む、上記非一時的コンピュータ可読記憶媒体。
(摘要)
本出願は、声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体に関する。声紋抽出モデル訓練方法は、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。該方法によれば、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含む。
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含む。
勾配反転により、前記声紋特徴情報を処理することを含む。
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含む
ここのメモリは、クラウドメモリであってもよい。ユーザが他の装置で声紋認識を行う場合、クラウド側のユーザ情報とのマッチングを行い、該ユーザを認識し、ユーザの音声命令に基づいて、対応する操作を完了する。
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュール501と、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュール502と、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュール503と、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュール504とを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成される。
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成される。
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成される。
ユーザの音声を取得するように構成される、訓練された声紋抽出モデルが設けられた音声取得装置601と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュール602と、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュール603と、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュール604と、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュール605とを備える。
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成される。
Claims (16)
- 声紋抽出モデルを訓練する方法であって、前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築することであって、Tが2以上の正整数である、ことと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することと
を含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、方法。 - 前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することと
を含む、請求項1に記載の方法。 - 前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理することによって、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器によって、前記処理された声紋特徴情報が前記T個の装置の中の各装置に属するか否かの分類結果を決定し、前記ニューラルネットワークモデルによって、前記分類結果の正確率を決定し、前記分類結果と、前記ニューラルネットワークモデルから出力された前記分類結果の正確率とに基づいて、前記類似損失関数を取得することと
を含む、請求項1に記載の方法。 - 前記声紋特徴情報を処理することによって、前記声紋特徴情報と所属チャネルとの関連性を除去することは、勾配反転により、前記声紋特徴情報を処理することを含む、請求項3に記載の方法。
- 声紋を認識する方法であって、前記方法は、請求項1~4のいずれか1項に記載の声紋抽出モデルを訓練する方法で訓練された声紋抽出モデルを利用し、前記方法は、
ユーザに対して声紋認識する時に、前記ユーザのユーザ情報を取得することと、
訓練された声紋抽出モデルが設けられた音声取得装置により、前記ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの音声に対して声紋抽出を行い、それによって、前記ユーザの識別しようとする声紋特徴を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴及び前記識別しようとする声紋特徴に基づいて、前記ユーザに対して声紋認識を行うことと
を含む、方法。 - ユーザに対して声紋認識する前に、前記方法は、
前記音声取得装置により、前記ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することと
を更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、前記ユーザ情報に基づいて、前記メモリから前記ユーザの声紋特徴を取得することを含む、請求項5に記載の方法。 - 声紋抽出モデルを訓練する装置であって、ニューラルネットワークモデルに適用され、前記装置は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築するように構成される音声取得モジュールであって、Tが2以上の正整数である、音声取得モジュールと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールと
を備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、装置。 - 前記損失関数取得モジュールは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することと
を行うように更に構成される、請求項7に記載の装置。 - 前記損失関数取得モジュールは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理することによって、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器によって、前記処理された声紋特徴情報が前記T個の装置の中の各装置に属するか否かの分類結果を決定し、前記ニューラルネットワークモデルによって、前記分類結果の正確率を決定し、前記分類結果と、前記ニューラルネットワークモデルから出力された前記分類結果の正確率とに基づいて、前記類似損失関数を取得することと
を行うように更に構成される、請求項7に記載の装置。 - 前記損失関数取得モジュールは、勾配反転により、前記声紋特徴情報を処理することによって、前記声紋特徴情報と所属チャネルとの関連性を除去するように更に構成される、
請求項9に記載の装置。 - 声紋を認識する装置であって、
ユーザに対して声紋認識する時に、前記ユーザの音声を取得するように構成される、請求項7~10いずれか1項に記載の訓練された声紋抽出モデルが設けられた音声取得装置と、
前記訓練された声紋抽出モデルにより、前記ユーザの音声に対して声紋抽出を行い、それによって、前記ユーザの識別しようとする声紋特徴を取得するように構成される第1声紋取得モジュールと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される第2声紋取得モジュールと、
前記ユーザの声紋特徴及び前記識別しようとする声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュールと
を備える、装置。 - 前記音声取得装置は、ユーザに対して声紋認識する前に、前記ユーザの音声を取得するように更に構成され、
前記装置は、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールと
を更に備え、
前記声紋取得モジュールは、前記ユーザ情報に基づいて、前記メモリから前記ユーザの声紋特徴を取得するように更に構成される、請求項11に記載の装置。 - 声紋を認識する装置であって、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリと
を備え、
前記プロセッサは、前記実行可能な命令を実行すると、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築することであって、Tが2以上の正整数である、ことと、
前記訓練データ集合をニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することと
を実現させるように構成され、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、装置。 - 非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令は、装置のプロセッサによって実行されると、声紋を認識する方法を実行することを前記装置に行わせ、前記方法は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築することであって、Tが2以上の正整数である、ことと、
前記訓練データ集合をニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することと
を含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、非一時的なコンピュータ読み取り可能な記憶媒体。 - 声紋抽出モデルを訓練する装置であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと
を備え、
前記プロセッサは、前記実行可能な命令を実行すると、
ユーザに対して声紋認識する時に、前記ユーザのユーザ情報を取得することと、
訓練された声紋抽出モデルが設けられた音声取得装置により、前記ユーザの音声を取得することであって、前記訓練された声紋抽出モデルは、請求項1~4のいずれか1項に記載の声紋抽出モデルを訓練する方法で訓練されたものである、ことと、
前記訓練された声紋抽出モデルにより、前記ユーザの音声に対して声紋抽出を行い、それによって、前記ユーザの識別しようとする声紋特徴を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴及び前記識別しようとする声紋特徴に基づいて、前記ユーザに対して声紋認識を行うことと
を実現するように構成される、装置。 - 非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令は、装置のプロセッサによって実行されると、声紋抽出モデルを訓練する方法を実行することを前記装置に行わせ、前記方法は、
ユーザに対して声紋認識する時に、前記ユーザのユーザ情報を取得することと、
訓練された声紋抽出モデルが設けられた音声取得装置により、前記ユーザの音声を取得することであって、前記訓練された声紋抽出モデルは、請求項1~4のいずれか1項に記載の声紋抽出モデルを訓練する方法で訓練されたものである、ことと、
前記訓練された声紋抽出モデルにより、前記ユーザの音声に対して声紋抽出を行い、それによって、前記ユーザの識別しようとする声紋特徴を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴及び前記識別しようとする声紋特徴に基づいて、前記ユーザに対して声紋認識を行うことと
を含む、非一時的なコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010324112.8A CN111524521B (zh) | 2020-04-22 | 2020-04-22 | 声纹提取模型训练方法和声纹识别方法、及其装置和介质 |
CN202010324112.8 | 2020-04-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021173987A JP2021173987A (ja) | 2021-11-01 |
JP7221258B2 true JP7221258B2 (ja) | 2023-02-13 |
Family
ID=71904118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020156101A Active JP7221258B2 (ja) | 2020-04-22 | 2020-09-17 | 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210335368A1 (ja) |
EP (1) | EP3901948A1 (ja) |
JP (1) | JP7221258B2 (ja) |
KR (1) | KR102603466B1 (ja) |
CN (1) | CN111524521B (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112017670B (zh) * | 2020-08-13 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 一种目标账户音频的识别方法、装置、设备及介质 |
CN112259105B (zh) * | 2020-10-10 | 2022-09-20 | 西南政法大学 | 一种声纹识别模型的训练方法、存储介质和计算机设备 |
CN112435672A (zh) * | 2020-10-15 | 2021-03-02 | 讯飞智元信息科技有限公司 | 一种声纹识别方法、装置、设备及存储介质 |
WO2022086045A1 (ko) * | 2020-10-22 | 2022-04-28 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN112466311B (zh) * | 2020-12-22 | 2022-08-19 | 深圳壹账通智能科技有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
CN112820298B (zh) * | 2021-01-14 | 2022-11-22 | 中国工商银行股份有限公司 | 声纹识别方法及装置 |
CN112597984B (zh) * | 2021-03-04 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、计算机设备和存储介质 |
US11926279B2 (en) | 2021-08-17 | 2024-03-12 | Hyundai Mobis Co., Ltd. | Roof airbag apparatus for a vehicle |
CN113921030B (zh) * | 2021-12-07 | 2022-06-07 | 江苏清微智能科技有限公司 | 一种基于加权语音损失的语音增强神经网络训练方法及装置 |
CN114049900B (zh) * | 2021-12-08 | 2023-07-25 | 马上消费金融股份有限公司 | 模型训练方法、身份识别方法、装置及电子设备 |
CN117470976B (zh) * | 2023-12-28 | 2024-03-26 | 烟台宇控软件有限公司 | 一种基于声纹特征的输电线路缺陷检测方法及系统 |
CN117672200B (zh) * | 2024-02-02 | 2024-04-16 | 天津市爱德科技发展有限公司 | 一种物联网设备的控制方法、设备及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019522810A (ja) | 2016-06-13 | 2019-08-15 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | ニューラルネットワークベースの声紋情報抽出方法及び装置 |
JP2019185605A (ja) | 2018-04-16 | 2019-10-24 | パスロジ株式会社 | 認証システム、認証方法、ならびに、プログラム |
JP2021117245A (ja) | 2020-01-22 | 2021-08-10 | クリスタルメソッド株式会社 | 学習方法、評価装置、データ構造、及び評価システム |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767266B2 (en) * | 2013-12-20 | 2017-09-19 | The Mitre Corporation | Methods and systems for biometric-based user authentication by voice |
CN106373575B (zh) * | 2015-07-23 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种用户声纹模型构建方法、装置及系统 |
US10970589B2 (en) * | 2016-07-28 | 2021-04-06 | Google Llc | Domain separation neural networks |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
WO2018053518A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
KR102563752B1 (ko) * | 2017-09-29 | 2023-08-04 | 삼성전자주식회사 | 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들 |
CN110444214B (zh) * | 2017-11-24 | 2021-08-17 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN108958810A (zh) * | 2018-02-09 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种基于声纹的用户识别方法、装置及设备 |
CN110349585B (zh) * | 2018-04-04 | 2023-05-05 | 富士通株式会社 | 语音认证方法和信息处理设备 |
CN108766440B (zh) * | 2018-05-28 | 2020-01-14 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN108766445A (zh) * | 2018-05-30 | 2018-11-06 | 苏州思必驰信息科技有限公司 | 声纹识别方法及系统 |
US11995800B2 (en) * | 2018-08-07 | 2024-05-28 | Meta Platforms, Inc. | Artificial intelligence techniques for image enhancement |
CN110164452B (zh) * | 2018-10-10 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
CN109243467B (zh) * | 2018-11-14 | 2019-11-05 | 龙马智声(珠海)科技有限公司 | 声纹模型构建方法、声纹识别方法及系统 |
CN109346088A (zh) * | 2018-12-06 | 2019-02-15 | 泰康保险集团股份有限公司 | 身份识别方法、装置、介质及电子设备 |
CN109801636A (zh) * | 2019-01-29 | 2019-05-24 | 北京猎户星空科技有限公司 | 声纹识别模型的训练方法、装置、电子设备及存储介质 |
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
CN110265040B (zh) * | 2019-06-20 | 2022-05-17 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110491393B (zh) * | 2019-08-30 | 2022-04-22 | 科大讯飞股份有限公司 | 声纹表征模型的训练方法及相关装置 |
CN110675881B (zh) * | 2019-09-05 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 一种语音校验方法和装置 |
CN110610709A (zh) * | 2019-09-26 | 2019-12-24 | 浙江百应科技有限公司 | 基于声纹识别的身份辨别方法 |
CN110838295B (zh) * | 2019-11-17 | 2021-11-23 | 西北工业大学 | 一种模型生成方法、声纹识别方法及对应装置 |
CN110942777B (zh) * | 2019-12-05 | 2022-03-08 | 出门问问信息科技有限公司 | 一种声纹神经网络模型的训练方法、装置及存储介质 |
CN110970036B (zh) * | 2019-12-24 | 2022-07-12 | 网易(杭州)网络有限公司 | 声纹识别方法及装置、计算机存储介质、电子设备 |
-
2020
- 2020-04-22 CN CN202010324112.8A patent/CN111524521B/zh active Active
- 2020-09-17 US US17/023,821 patent/US20210335368A1/en active Pending
- 2020-09-17 JP JP2020156101A patent/JP7221258B2/ja active Active
- 2020-09-28 EP EP20198729.4A patent/EP3901948A1/en active Pending
- 2020-12-03 KR KR1020200167099A patent/KR102603466B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019522810A (ja) | 2016-06-13 | 2019-08-15 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | ニューラルネットワークベースの声紋情報抽出方法及び装置 |
JP2019185605A (ja) | 2018-04-16 | 2019-10-24 | パスロジ株式会社 | 認証システム、認証方法、ならびに、プログラム |
JP2021117245A (ja) | 2020-01-22 | 2021-08-10 | クリスタルメソッド株式会社 | 学習方法、評価装置、データ構造、及び評価システム |
Also Published As
Publication number | Publication date |
---|---|
CN111524521A (zh) | 2020-08-11 |
US20210335368A1 (en) | 2021-10-28 |
CN111524521B (zh) | 2023-08-08 |
EP3901948A1 (en) | 2021-10-27 |
JP2021173987A (ja) | 2021-11-01 |
KR20210131211A (ko) | 2021-11-02 |
KR102603466B1 (ko) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7221258B2 (ja) | 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 | |
CN109740516B (zh) | 一种用户识别方法、装置、电子设备及存储介质 | |
TWI766286B (zh) | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介 | |
WO2019196196A1 (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
WO2021031609A1 (zh) | 活体检测方法及装置、电子设备和存储介质 | |
EP3855360A1 (en) | Method and device for training image recognition model, and storage medium | |
US9904840B2 (en) | Fingerprint recognition method and apparatus | |
WO2021035812A1 (zh) | 一种图像处理方法及装置、电子设备和存储介质 | |
CN111612070B (zh) | 基于场景图的图像描述生成方法及装置 | |
CN109934275B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
WO2020010927A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111435432B (zh) | 网络优化方法及装置、图像处理方法及装置、存储介质 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111242303B (zh) | 网络训练方法及装置、图像处理方法及装置 | |
TWI735112B (zh) | 圖像生成方法、電子設備和儲存介質 | |
CN110659690B (zh) | 神经网络的构建方法及装置、电子设备和存储介质 | |
CN109360197A (zh) | 图像的处理方法、装置、电子设备及存储介质 | |
CN109034106B (zh) | 人脸数据清洗方法及装置 | |
CN110399934A (zh) | 一种视频分类方法、装置及电子设备 | |
CN110135349A (zh) | 识别方法、装置、设备及存储介质 | |
CN113362813A (zh) | 一种语音识别方法、装置和电子设备 | |
CN104077597A (zh) | 图像分类方法及装置 | |
CN114333804B (zh) | 音频分类识别方法、装置、电子设备及存储介质 | |
CN114693905A (zh) | 文本识别模型构建方法、文本识别方法以及装置 | |
CN111178115B (zh) | 对象识别网络的训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7221258 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |