JP2021173987A - 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 - Google Patents

声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 Download PDF

Info

Publication number
JP2021173987A
JP2021173987A JP2020156101A JP2020156101A JP2021173987A JP 2021173987 A JP2021173987 A JP 2021173987A JP 2020156101 A JP2020156101 A JP 2020156101A JP 2020156101 A JP2020156101 A JP 2020156101A JP 2021173987 A JP2021173987 A JP 2021173987A
Authority
JP
Japan
Prior art keywords
voiceprint
loss function
user
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020156101A
Other languages
English (en)
Other versions
JP7221258B2 (ja
Inventor
グオドゥ ツァイ
Guodu Cai
シン ワン
Xin Wang
イーフェン ワン
Yifeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Publication of JP2021173987A publication Critical patent/JP2021173987A/ja
Application granted granted Critical
Publication of JP7221258B2 publication Critical patent/JP7221258B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体の提供。【解決手段】声紋抽出モデル訓練方法であって、前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、前記方法。【選択図】図1

Description

(関連出願の相互参照)
本出願は、2020年4月22日付の中国特許出願第2020103241128号に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。
本出願は、声紋処理技術分野に関し、特に声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体に関する。
音声技術の継続的な進歩に伴い、声紋認識は、生体認証技術として、種々のインテリジェント機器に適用されつつある。声紋推薦システム、声紋ロッキング機能、声紋支払い等はよく知られている。音声には、一般的にチャネル情報、環境雑音情報及び話者情報が含まれているが、声紋認識技術にとって、話者情報のみが必要である。しかしながら、これらの情報の完全な分離は困難であるため、現在の声紋認識システムは、チャネルによる影響が大きいである。異なる録音装置が異なるチャネル情報を取り入れているため、異なる装置の間での適用は、効果が低い。
話者情報(即ち、話者の声紋特徴)と種々の雑音情報を好適に分離するための方法が望まれている。
関連技術における課題を解決するために、本出願は、声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体を提供する。
本出願の実施例の第1態様によれば、声紋抽出モデル訓練方法を提供する。前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
ここで、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含む。
ここで、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含む。
ここで、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、前記声紋特徴情報を処理することを含む。
本出願の第2態様によれば、声紋認識方法を提供する。前記方法は、上記声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、前記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む。
ここで、前記方法は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含む。
本出願の実施例の第3態様によれば、声紋抽出モデル訓練装置を提供する。前記装置は、ニューラルネットワークモデルに適用され、前記装置は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュールと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
ここで、前記損失関数取得モジュールは更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成される。
ここで、前記損失関数取得モジュールは更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成される。
ここで、前記損失関数取得モジュールは更に、
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成される。
本出願の実施例の第4態様によれば、声紋認識装置を提供する。前記装置は、
ユーザの音声を取得するように構成される、上記訓練された声紋抽出モデルが設けられた音声取得装置と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュールとを備える。
ここで、前記装置は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成される。
本出願の第5態様によれば、声紋認識装置を提供する。該装置は、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
本出願の実施例の第6態様によれば、非一時的コンピュータ可読記憶媒体を提供する。前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、前記方法は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
本出願の第7態様によれば、声紋抽出モデル訓練装置を提供する。該装置は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを実現させるように構成される。
本出願の実施例の第8態様によれば、非一時的コンピュータ可読記憶媒体を提供する。前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、前記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む。
例えば、本願は以下の項目を提供する。
(項目1)
声紋抽出モデル訓練方法であって、上記声紋抽出モデルは、ニューラルネットワークモデルであり、上記方法は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記方法。
(項目2)
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
上記声紋特徴情報及びチャネル雑音情報に基づいて、上記差異損失関数を算出することとを含むことを特徴とする
上記項目に記載の方法。
(項目3)
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を上記ニューラルネットワークモデルのドメイン分類器に入力することと、
上記ドメイン分類器の分類結果と、上記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、上記類似損失関数を取得することとを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目4)
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、上記声紋特徴情報を処理することを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目5)
声紋認識方法であって、上記方法は、上記項目いずれか一項に記載の声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、上記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを含むことを特徴とする、上記方法。
(項目6)
上記方法は、
決定された上記声紋特徴と上記ユーザ情報との対応関係をメモリに記憶することを更に含み、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することは、
上記ユーザ情報に基づいて、上記メモリから、上記ユーザの声紋特徴を取得することを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目7)
声紋抽出モデル訓練装置であって、ニューラルネットワークモデルに適用され、上記装置は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュールと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記装置。
(項目8)
上記損失関数取得モジュールは更に、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
上記声紋特徴情報及びチャネル雑音情報に基づいて、上記差異損失関数を算出するように構成されることを特徴とする
上記項目に記載の装置。
(項目9)
上記損失関数取得モジュールは更に、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を上記ニューラルネットワークモデルのドメイン分類器に入力し、
上記ドメイン分類器の分類結果と、上記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、上記類似損失関数を取得するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目10)
上記損失関数取得モジュールは更に、
勾配反転により、上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目11)
声紋認識装置であって、
ユーザの音声を取得するように構成される、上記項目いずれか一項に記載の訓練された声紋抽出モデルが設けられた音声取得装置と、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うように構成される認識モジュールとを備えることを特徴とする、上記装置。
(項目12)
上記装置は、
決定された上記声紋特徴と上記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
上記声紋取得モジュールは更に、上記ユーザ情報に基づいて、上記メモリから、上記ユーザの声紋特徴を取得するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目13)
声紋認識装置であって、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
上記プロセッサは、上記実行可能な命令を実行する時、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記装置。
(項目14)
非一時的コンピュータ可読記憶媒体であって、上記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、上記方法は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、上記非一時的コンピュータ可読記憶媒体。
(項目15)
声紋抽出モデル訓練装置であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
上記プロセッサは、上記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを実現させるように構成されることを特徴とする、上記装置。
(項目16)
非一時的コンピュータ可読記憶媒体であって、上記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、上記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを含む、上記非一時的コンピュータ可読記憶媒体。
(摘要)
本出願は、声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体に関する。声紋抽出モデル訓練方法は、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。該方法によれば、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。
本出願は、声紋認識方法を提供する。該方法において、音声取得装置により、ユーザの音声を取得する。前記音声取得装置には、訓練された声紋抽出モデルが設けられている。前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。前記ユーザに対して声紋認識の時に、ユーザ情報を取得し、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。続いて、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。本出願は、声紋抽出モデル訓練方法を更に提供する。該方法により訓練された声紋抽出モデルは、取得したユーザ音声からユーザの声紋特徴を抽出することができ、声紋特徴とチャネル雑音とを好適に分離させることを実現する。
本出願の声紋認識方法において、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。また、ユーザが使用する時、1台の装置で登録すれば、他の装置で利用可能になり、ユーザの使用体験を向上させる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。
一例示的な実施例による声紋抽出モデル訓練方法を示すフローチャートである。 一例示的な実施例による声紋抽出モデルのネットワーク構造を示す概略図である。 一例示的な実施例による声紋認識方法を示すフローチャートである。 一例示的な実施例による声紋認識方法を示すフローチャートである。 一例示的な実施例による声紋抽出モデル訓練装置を示すブロック図である。 一例示的な実施例による声紋認識装置を示すブロック図である。 一例示的な実施例による装置を示すブロック図である。 一例示的な実施例による装置を示すブロック図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。
ここで、例示的な実施例を詳細に説明し、その例を図面に示す。以下の記述が図面に係る場合、別途にて示さない限り、異なる図面における同じ数字は、同じまたは類似する要素を示す。以下の例示的な実施例において記述する実施形態は、本発明の実施例に合致するすべての実施形態を代表するものではない。一方、それらは、添付された特許請求の範囲に詳細に記載されたような、本発明の一部の形態に合致する装置及び方法の例に過ぎない。
現在の声紋認識システムは、チャネルから大きな影響を受けている。異なる録音装置が異なるチャネル情報を取り入れているするため、異なる装置の間での適用は、効果が低い。
上記課題に対して、現在、異なるチャネル間のマッピング関係を学習することで、声紋マッピングモデルを確立し、1つの録音装置で得られた音声に対してい、話者特徴を抽出し、当該ユーザとバインディングし、異なる装置の間での声紋マッピングモデルに基づいて、他の装置における該音声の深度特徴を得て、即ち他の録音装置における該ユーザの話者特徴を得るという方法が利用されている。
しかしながら、該方法において、異なる装置の間のマッピング関係を別途1つずつ学習する必要がある。装置が多い時、多くの声紋マッピングモデルを確立する必要がある。インテリジェント機器がどんどん増加するにつれて、各装置に対して声紋モデルを確立する必要があり、また、常にメンテナンスする必要があり、作業負荷が極めて大きい。また、ユーザが利用する時、各装置に登録する必要があり、処理を繰り返して行い、また煩雑である。
本出願は、声紋認識方法を提供する。該方法において、音声取得装置により、ユーザの音声を取得する。前記音声取得装置には、訓練された声紋抽出モデルが設けられている。前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。前記ユーザに対して声紋認識の時に、ユーザ情報を取得し、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。続いて、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。本出願は、声紋抽出モデル訓練方法を更に提供する。該方法により訓練された声紋抽出モデルは、取得したユーザ音声からユーザの声紋特徴を抽出することができ、声紋特徴とチャネル雑音とを好適に分離させることを実現する。
本出願の声紋認識方法において、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。また、ユーザが使用する時、1台の装置で登録すれば、他の装置で利用可能になり、ユーザの使用体験を向上させる。
図1は、一例示的な実施例による声紋抽出モデル訓練方法を示すフローチャートである。前記声紋抽出モデルは、ニューラルネットワークモデルである。図1に示すように、該方法は、下記ステップを含む。
ステップ101、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数である。
ステップ102、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得する。
ステップ103、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定する。
ここで、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
該方法における声紋抽出モデルは、深層ニューラルネットワークモデルのような、当業者に既知のニューラルネットワークである。該声紋抽出モデルは、装置と無関係の汎用のモデルである。該モデルにおいて、異なるチャネルからのデータに対して、共有スペースとプライベートスペースをそれぞれ確立する。共有スペースは、異なるチャネルに共有され、共有特徴、即ち話者の声紋特徴を学習するために用いられる。プライベートスペースは、各チャネルに使用されるように限定されるものであり、各装置のプライベート特徴、即ち、各装置により生じされるチャネル雑音を学習するために用いられる。従って、オーディオデータが共有スペースにおいて表されるものは、チャネルと無関係の話者声紋特徴であり、つまり、装置と無関係の話者声紋特徴である。
本出願で用いられる深層ニューラルネットワークモデルは図2に示すとおりである。その各モジュールに関する説明は、以下のとおりである。
1,2,…,Tは、訓練セットである。ただし、Tは、装置の総数を表す。
(x)は、共有スペースのエンコーダであり、異なる装置の共有特徴hを抽出するためのものである。
(x)は、プライベートスペースのエンコーダであり、異なる装置のプライベート特徴hをそれぞれ抽出するためのものである。
D(h)は、エンコーダにより抽出された隠れ特徴hを復号して再構築するためのデコーダである。
G(h)は、エンコーダにより抽出された隠れ特徴hに対して予測し、予測タグ
Figure 2021173987
を得るための予測器である。
Figure 2021173987
は、入力Xをエンコードしてから復号して再構築することを表す。
Figure 2021173987
は、入力Xをエンコードしてから予測することを表す。
Figure 2021173987
はそれぞれ、共有スペースエンコーダ、プライベートスペースエンコーダにより装置のサブスペースをエンコードしてから得られた隠れ層特徴行列を表す。
classは、最終的な出力タグを予測するための分類損失関数である。
reconは、プライベートスペース特徴を学習対象に作用させることを確保するための再構築損失関数である。
differenceは、共有スペースとプライベートスペースとの直交性を表すための差異損失関数である。
similarityは、ネットワークが異なる装置の類似性特徴を抽出できることを確保するための類似損失関数である。
当業者であれば、深層ニューラルネットワークモデルにより、差異損失関数及び類似損失関数以外の上記各モジュールを取得することができるため、ここで、詳細な説明を省略する。
本出願の深層ニューラルネットワークモデルの損失関数Lは、下記式で表されてもよい。
Figure 2021173987
ただし、λ、α、β、γはそれぞれ、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の重みである。これらの重みは、深層ニューラルネットワークモデルの訓練過程において更新され、重みの更新により、各回の訓練の損失関数を取得する。ここで、重みの更新は、当業者により深層ニューラルネットワークモデルの訓練に基づいて実現されてもよく、ここで、詳細な説明を省略する。
本方法において、深層ニューラルネットワークモデルの損失関数に差異損失関す及び類似損失関数を引き入れることで、声紋特徴とチャネル雑音を好適に分離させる。
任意選択的な実施形態において、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含む。
差異損失関数Ldifferenceは、下記式により算出される。
Figure 2021173987
ただし、
Figure 2021173987
は、F−ノルムの二乗を表す。当然ながら、他のタイプのノルムにより算出してもい。
Figure 2021173987
はそれぞれ、ニューラルネットワークモデルの毎回の訓練により得られた声紋特徴行列及びチャネル雑音行列である。該差異損失関数により、声紋特徴とチャネル雑音との直交性を得ることができる。2つのパラメータ同士間の直交性は、2つのパラメータ同士が互いに依存しないことを表す。従って、声紋特徴とチャネル雑音との直交性が小さいほど、声紋特徴とチャネル雑音との分離が好適になる。
任意選択な実施形態において、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含む。
異なるサブスペース間が移行可能であることを確保するために、共有特徴
Figure 2021173987
の分布が類似性を持つことを確保する必要がある。従って、声紋特徴情報を処理し、声紋特徴情報と所属チャネルとの関連性を除去し、続いて、ドメイン分類器に入力する。従って、ドメイン分類器は、入力がどのサブ空間からのものであるかを判別付かないようにし、これにより、ネットワークが異なる装置の類似性特徴を抽出することができる。つまり、入力される共通特徴である共有特徴を取得する。類似損失関数の定義は、以下のとおりである。
Figure 2021173987
ただし、dは、ドメイン分類器が話者の音声における各センテンスを分類した結果(共有特徴を所属の装置、即ちチャネルの中に分類した結果)を表し、その値は、0又は1である。正確に分類した場合、その値は、1である。正確に分類しなかった場合、その値は、0である。
Figure 2021173987
は、ニューラルネットワークモデルから出力された分類の正確率を表し、その値は、0〜1の間にある。
任意選択的な実施形態において、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、前記声紋特徴情報を処理することを含む。
勾配反転は、ネットワークの訓練過程において同期して行うことができる。声紋特徴情報を勾配反転してから、ネットワーク全体は、入力された音声がどの装置からのものであるかを判別することができなくなる。それによって、入力された音声の共有特徴を取得するという目的を達成する。
また、分類損失関数Lclassは以下のとおりである。
Figure 2021173987
ただし、Nは、取得された話者の音声に含まれたセンテンスの数を表す。
Figure 2021173987
は、入力された実の音声を表し、
Figure 2021173987
は、モデルにより予測された音声を表す。
再構築損失関数Lreconは、下記式により算出される。
Figure 2021173987
ただし、
Figure 2021173987
は、スケール不変平均二乗誤差損失関数を表し、下記式により算出される。
Figure 2021173987
ただし、kは、入力xの次元数を表し、
Figure 2021173987
は、要素が1であり、長さがkである行列を表し、
Figure 2021173987
は、L−ノルムを表す。勿論、他のタイプのノルムにより算出してもよい。
分類損失関数及び再構築損失関数は、いずれも従来方法により算出される。ここで、分類損失関数は、softmaxであってもよいし、A−Softmax、L−Softmax、AM−Softmaxのような、softmaxの最適化した変形であってもよい。同様に、再構築損失関数は、スケール不変平均二乗誤差損失関数以外の他の関数であってもよく、ここでこれを制限しない。
本出願は、声紋認識方法を更に提供する。図3に示すように、該方法は、以下を含む。
ステップ301、訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得する。
ステップ302、前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。
ステップ303、前記ユーザに対して声紋認識の時に、ユーザ情報を取得する。
ステップ304、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。
ステップ305、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。
該声紋認識方法は、上記声紋抽出モデル訓練方法で訓練された声紋抽出モデルにより実現する。つまり、ステップ301における訓練された声紋抽出モデルは、上記声紋抽出モデル訓練方法で訓練された。上記声紋抽出モデルは、訓練された後に、声紋特徴とチャネル雑音を好適に分離させることができる。従って、ユーザの音声を訓練された声紋抽出モデルに入力してから、ユーザの声紋特徴を取得することができる。該声紋特徴とユーザ情報を一対一に対応付ける。続いて、上記訓練された声紋抽出モデルを異なる音声取得装置で共有する。ユーザが1つの装置に登録する時、ユーザ登録情報に基づいて、該情報に一対一に対応する声紋特徴を取得し、該声紋特徴により、ユーザに対して声紋認識を行う。
任意選択的な実施形態において、前記方法は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含む
ここのメモリは、クラウドメモリであってもよい。ユーザが他の装置で声紋認識を行う場合、クラウド側のユーザ情報とのマッチングを行い、該ユーザを認識し、ユーザの音声命令に基づいて、対応する操作を完了する。
以下、具体的な適用シナリオを参照しながら、本出願の具体的な実施例を説明する。該実施例において、声紋抽出モデルは、深層ニューラルネットワークモデルである。図4に示すように、該方法は下記ステップを含む。
ステップ401、5つの装置におけるユーザの音声データを取得し、これらの音声データに基づいて、訓練データ集合を構築する。
ステップ402、訓練データ集合を深層ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練する。
ステップ403、毎回の訓練の損失関数を取得する。
ステップ404、損失関数が収束する時、深層ニューラルネットワークモデルの訓練が完了したと判定する。
ステップ405、訓練された深層ニューラルネットワークモデルを複数の音声取得装置に設ける。
ステップ406、訓練された深層ニューラルネットワークモデルが設けられた音声取得装置により、ユーザの音声を取得する。
ステップ407、前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、ユーザとその声紋特徴との対応関係をクラウドメモリに記憶する。
ステップ408、前記ユーザに対して声紋認識の時に、ユーザ情報を取得する。
ステップ409、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。
ステップ410、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行い、更に、対応する操作を実行する。
本出願は、声紋抽出モデル訓練装置を更に提供する。前記装置は、ニューラルネットワークモデルに適用され、図5に示すように、前記装置は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュール501と、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュール502と、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュール503と、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュール504とを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
任意選択的な実施形態において、前記損失関数取得モジュール503は更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成される。
任意選択的な実施形態において、前記損失関数取得モジュール503は更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成される。
任意選択的な実施形態において、前記損失関数取得モジュール503は更に、
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成される。
本出願は、声紋認識装置を更に提供する。図6に示すように、前記装置は、
ユーザの音声を取得するように構成される、訓練された声紋抽出モデルが設けられた音声取得装置601と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュール602と、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュール603と、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュール604と、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュール605とを備える。
任意選択的な実施形態において、前記装置は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成される。
上記実施例における装置について、各モジュールによる操作実行の具体的な形態は、該方法に関わる実施例において詳しく説明したため、ここで詳しく説明しないようにする。
本出願は、声紋認識方法を提供する。該方法において、音声取得装置により、ユーザの音声を取得する。前記音声取得装置には、訓練された声紋抽出モデルが設けられている。前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。前記ユーザに対して声紋認識の時に、ユーザ情報を取得し、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。続いて、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。本出願は、声紋抽出モデル訓練方法を更に提供する。該方法により訓練された声紋抽出モデルは、取得したユーザ音声からユーザの声紋特徴を抽出することができ、声紋特徴とチャネル雑音とを好適に分離させることを実現する。
本出願の声紋認識方法において、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。また、ユーザが使用する時、1台の装置で登録すれば、他の装置で利用可能になり、ユーザの使用体験を向上させる。
図7は、一例示的な実施例による声紋抽出モデル訓練装置700を示すブロック図である。
図7を参照すると、装置700は、処理ユニット702、メモリ704、電源ユニット706、マルチメディアユニット708、オーディオユニット710、入力/出力(I/O)インタフェース712、センサユニット714及び通信ユニット716のうちの1つ又は複数を備えてもよい。
処理ユニット702は一般的には、装置700の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット702は、指令を実行するための1つ又は複数のプロセッサ720を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット702は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理ユニット702はマルチメディアモジュールを備えることで、マルチメディアユニット708と処理ユニット702とのインタラクションに寄与する。
メモリ704は、各種のデータを記憶することで装置700における操作をサポートするように構成される。これらのデータの例として、装置700上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ704は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源ユニット706は装置700の様々なユニットに電力を提供する。電源ユニット706は、電源管理システム、1つ又は複数の電源、及び装置700のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアユニット708は、上記装置700とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット708は、フロントカメラ及び/又はリアカメラを備える。装置700が、撮影モード又は映像モードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオユニット710は、オーディオ信号を出力/入力するように構成される。例えば、オーディオユニット710は、マイクロホン(MIC)を備える。装置700が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ704に記憶するか、又は通信ユニット716を経由して送信することができる。幾つかの実施例において、オーディオユニット710は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース712は、処理ユニット702と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサユニット714は、1つ又は複数のセンサを備え、装置700のために様々な状態の評価を行うように構成される。例えば、センサユニット714は、装置700のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが装置700のディスプレイ及びキーパッドである。センサユニット714は装置700又は装置700における1つのユニットの位置の変化、ユーザと装置800との接触の有無、装置700の方位又は加速/減速及び装置700の温度の変動を検出することもできる。センサユニット714は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット714は、CMOS又はCCD画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット714は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信ユニット716は、装置700と他の機器との有線又は無線方式の通信に寄与するように構成される。装置700は、WiFi、2G又は3G又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット716は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット716は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、装置700は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
例示的な実施例において、命令を記憶したメモリ704のような非一時的コンピュータ可読記憶媒体を更に提供する。上記命令は、装置700のプロセッサ720により実行され上記方法を完了する。例えば、前記非一時的コンピュータ可読記憶媒体はROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置等であってもよい。
非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が携帯端末のプロセッサにより実行される場合、携帯端末に声紋抽出モデル訓練方法を実行させ、前記方法は、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
図8は、一例示的な実施例による声紋抽出モデル訓練装置800を示すブロック図である。例えば、装置800は、サーバとして提供されてもよい。図8を参照すると、装置800は、処理ユニットを822を含む。それは1つ又は複数のプロセッサと、メモリ832で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット822により実行される命令を記憶するためのものである。メモリ832に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理ユニット822は、命令を実行して、上記方法を実行するように構成される。該方法は、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
装置800は、装置800の電源管理を実行するように構成される電源ユニット826と、装置800をネットワークに接続するように構成される有線又は無線ネットワークインタフェース850と、入力出力(I/O)インタフェース858を更に備えてもよい。装置800は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標), Linux(登録商標)、FreeBSDTM又は類似したものような、メモリ832に記憶されているオペレーティングシステムを実行することができる。
当業者は明細書を検討し、ここで開示した発明を実践した後、本発明のその他の実施方案を容易に思いつくことができる。本発明の実施例は、本発明の実施例のいかなる変形、用途、又は適応的な変化を含むことを目的としており、いかなる変形、用途、又は適応的な変化は、本発明の一般原理に基づいて、且つ本発明の実施例において公開されていない本技術分野においての公知常識又は慣用技術手段を含む。明細書及び実施例は、例示的なものを開示しており、本発明の保護範囲と主旨は、特許請求の範囲に記述される。
本発明の実施例は、上記で説明した、また図面において示した精確な構造に限定されず、その範囲を逸脱しない前提のもとで種々の変更及び修正を行うことができることを理解すべきである。本発明の実施例の範囲は付された特許請求の範囲によってのみ限定される。

Claims (16)

  1. 声紋抽出モデル訓練方法であって、前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、
    T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
    前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
    前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
    前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、前記方法。
  2. 前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
    前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
    前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含むことを特徴とする
    請求項1に記載の方法。
  3. 前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
    前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
    前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
    処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
    前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含むことを特徴とする
    請求項1に記載の方法。
  4. 前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することは、
    勾配反転により、前記声紋特徴情報を処理することを含むことを特徴とする
    請求項3に記載の方法。
  5. 声紋認識方法であって、前記方法は、請求項1−4のいずれか1項に記載の声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、前記方法は、
    訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
    前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
    前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
    前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
    前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含むことを特徴とする、前記方法。
  6. 前記方法は、
    決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
    前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
    前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含むことを特徴とする
    請求項5に記載の方法。
  7. 声紋抽出モデル訓練装置であって、ニューラルネットワークモデルに適用され、前記装置は、
    T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュールと、
    前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
    前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
    前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
    前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、前記装置。
  8. 前記損失関数取得モジュールは更に、
    前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
    前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成されることを特徴とする
    請求項7に記載の装置。
  9. 前記損失関数取得モジュールは更に、
    前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
    前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
    処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
    前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成されることを特徴とする
    請求項7に記載の装置。
  10. 前記損失関数取得モジュールは更に、
    勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成されることを特徴とする
    請求項9に記載の装置。
  11. 声紋認識装置であって、
    ユーザの音声を取得するように構成される、請求項7−10いずれか1項に記載の訓練された声紋抽出モデルが設けられた音声取得装置と、
    前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
    前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
    前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
    前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュールとを備えることを特徴とする、前記装置。
  12. 前記装置は、
    決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
    前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成されることを特徴とする
    請求項11に記載の装置。
  13. 声紋認識装置であって、
    プロセッサと
    プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
    前記プロセッサは、前記実行可能な命令を実行する時、
    T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
    前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
    前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
    前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、前記装置。
  14. 非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、前記方法は、
    T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
    前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
    前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
    前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、前記非一時的コンピュータ可読記憶媒体。
  15. 声紋抽出モデル訓練装置であって、
    プロセッサと、
    プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
    前記プロセッサは、前記実行可能な命令を実行する時、
    訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
    前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
    前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
    前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
    前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを実現させるように構成されることを特徴とする、前記装置。
  16. 非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、前記方法は、
    訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
    前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
    前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
    前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
    前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む、前記非一時的コンピュータ可読記憶媒体。
JP2020156101A 2020-04-22 2020-09-17 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 Active JP7221258B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010324112.8A CN111524521B (zh) 2020-04-22 2020-04-22 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN202010324112.8 2020-04-22

Publications (2)

Publication Number Publication Date
JP2021173987A true JP2021173987A (ja) 2021-11-01
JP7221258B2 JP7221258B2 (ja) 2023-02-13

Family

ID=71904118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020156101A Active JP7221258B2 (ja) 2020-04-22 2020-09-17 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体

Country Status (5)

Country Link
US (1) US20210335368A1 (ja)
EP (1) EP3901948A1 (ja)
JP (1) JP7221258B2 (ja)
KR (1) KR102603466B1 (ja)
CN (1) CN111524521B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017670B (zh) * 2020-08-13 2021-11-02 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CN112259105B (zh) * 2020-10-10 2022-09-20 西南政法大学 一种声纹识别模型的训练方法、存储介质和计算机设备
CN112435672A (zh) * 2020-10-15 2021-03-02 讯飞智元信息科技有限公司 一种声纹识别方法、装置、设备及存储介质
WO2022086045A1 (ko) * 2020-10-22 2022-04-28 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112466311B (zh) * 2020-12-22 2022-08-19 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112820298B (zh) * 2021-01-14 2022-11-22 中国工商银行股份有限公司 声纹识别方法及装置
CN112597984B (zh) * 2021-03-04 2021-05-25 腾讯科技(深圳)有限公司 图像数据处理方法、装置、计算机设备和存储介质
US11926279B2 (en) 2021-08-17 2024-03-12 Hyundai Mobis Co., Ltd. Roof airbag apparatus for a vehicle
CN113921030B (zh) * 2021-12-07 2022-06-07 江苏清微智能科技有限公司 一种基于加权语音损失的语音增强神经网络训练方法及装置
CN114049900B (zh) * 2021-12-08 2023-07-25 马上消费金融股份有限公司 模型训练方法、身份识别方法、装置及电子设备
CN117470976B (zh) * 2023-12-28 2024-03-26 烟台宇控软件有限公司 一种基于声纹特征的输电线路缺陷检测方法及系统
CN117672200B (zh) * 2024-02-02 2024-04-16 天津市爱德科技发展有限公司 一种物联网设备的控制方法、设备及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019522810A (ja) * 2016-06-13 2019-08-15 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited ニューラルネットワークベースの声紋情報抽出方法及び装置
JP2019185605A (ja) * 2018-04-16 2019-10-24 パスロジ株式会社 認証システム、認証方法、ならびに、プログラム
JP2021117245A (ja) * 2020-01-22 2021-08-10 クリスタルメソッド株式会社 学習方法、評価装置、データ構造、及び評価システム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
JP6771645B2 (ja) * 2016-07-28 2020-10-21 グーグル エルエルシー ドメイン分離ニューラルネットワーク
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053518A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
KR102563752B1 (ko) * 2017-09-29 2023-08-04 삼성전자주식회사 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들
CN110444214B (zh) * 2017-11-24 2021-08-17 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN108958810A (zh) * 2018-02-09 2018-12-07 北京猎户星空科技有限公司 一种基于声纹的用户识别方法、装置及设备
CN110349585B (zh) * 2018-04-04 2023-05-05 富士通株式会社 语音认证方法和信息处理设备
CN108766440B (zh) * 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN108766445A (zh) * 2018-05-30 2018-11-06 苏州思必驰信息科技有限公司 声纹识别方法及系统
EP3834135A4 (en) * 2018-08-07 2022-05-04 BlinkAI Technologies, Inc. IMAGE ENHANCEMENT ARTIFICIAL INTELLIGENCE TECHNIQUES
CN110164452B (zh) * 2018-10-10 2023-03-10 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109243466A (zh) * 2018-11-12 2019-01-18 成都傅立叶电子科技有限公司 一种声纹鉴权训练方法及系统
CN109243467B (zh) * 2018-11-14 2019-11-05 龙马智声(珠海)科技有限公司 声纹模型构建方法、声纹识别方法及系统
CN109346088A (zh) * 2018-12-06 2019-02-15 泰康保险集团股份有限公司 身份识别方法、装置、介质及电子设备
CN109801636A (zh) * 2019-01-29 2019-05-24 北京猎户星空科技有限公司 声纹识别模型的训练方法、装置、电子设备及存储介质
CN109903774A (zh) * 2019-04-12 2019-06-18 南京大学 一种基于角度间隔损失函数的声纹识别方法
CN110265040B (zh) * 2019-06-20 2022-05-17 Oppo广东移动通信有限公司 声纹模型的训练方法、装置、存储介质及电子设备
CN110491393B (zh) * 2019-08-30 2022-04-22 科大讯飞股份有限公司 声纹表征模型的训练方法及相关装置
CN110675881B (zh) * 2019-09-05 2021-02-19 北京捷通华声科技股份有限公司 一种语音校验方法和装置
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110838295B (zh) * 2019-11-17 2021-11-23 西北工业大学 一种模型生成方法、声纹识别方法及对应装置
CN110942777B (zh) * 2019-12-05 2022-03-08 出门问问信息科技有限公司 一种声纹神经网络模型的训练方法、装置及存储介质
CN110970036B (zh) * 2019-12-24 2022-07-12 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019522810A (ja) * 2016-06-13 2019-08-15 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited ニューラルネットワークベースの声紋情報抽出方法及び装置
JP2019185605A (ja) * 2018-04-16 2019-10-24 パスロジ株式会社 認証システム、認証方法、ならびに、プログラム
JP2021117245A (ja) * 2020-01-22 2021-08-10 クリスタルメソッド株式会社 学習方法、評価装置、データ構造、及び評価システム

Also Published As

Publication number Publication date
KR102603466B1 (ko) 2023-11-17
JP7221258B2 (ja) 2023-02-13
CN111524521A (zh) 2020-08-11
CN111524521B (zh) 2023-08-08
US20210335368A1 (en) 2021-10-28
EP3901948A1 (en) 2021-10-27
KR20210131211A (ko) 2021-11-02

Similar Documents

Publication Publication Date Title
JP2021173987A (ja) 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体
US11042728B2 (en) Electronic apparatus for recognition of a user and operation method thereof
US11263473B2 (en) Method and device for recommending cloth coordinating information
WO2021077529A1 (zh) 神经网络模型压缩方法、语料翻译方法及其装置
US20200018006A1 (en) Operating mode determining method and operating mode determining device
EP3522036B1 (en) Electronic device that provides a user based dictionary using semantic word embedding of user-specific words that are not learned in a neural network-based language model and a control method therefor
TW202131281A (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介
KR102454515B1 (ko) 네트워크 최적화 방법 및 장치, 이미지 처리 방법 및 장치, 및 기억 매체
KR20220042356A (ko) 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품
US11030991B2 (en) Method and device for speech processing
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
KR20210114511A (ko) 얼굴 이미지 인식 방법 및 장치, 전자 기기 및 저장 매체
TWI735112B (zh) 圖像生成方法、電子設備和儲存介質
CN109360197A (zh) 图像的处理方法、装置、电子设备及存储介质
CN112906484B (zh) 一种视频帧处理方法及装置、电子设备和存储介质
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
CN111814538A (zh) 目标对象的类别识别方法、装置、电子设备及存储介质
CN109784537A (zh) 广告点击率的预估方法、装置及服务器和存储介质
US11322144B2 (en) Method and device for providing information
CN114693905A (zh) 文本识别模型构建方法、文本识别方法以及装置
CN111178115B (zh) 对象识别网络的训练方法及系统
CN115035596B (zh) 行为检测的方法及装置、电子设备和存储介质
CN113486978B (zh) 文本分类模型的训练方法、装置、电子设备及存储介质
CN115422932A (zh) 一种词向量训练方法及装置、电子设备和存储介质
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230201

R150 Certificate of patent or registration of utility model

Ref document number: 7221258

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150