JP2020524308A - 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 - Google Patents

声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 Download PDF

Info

Publication number
JP2020524308A
JP2020524308A JP2019570559A JP2019570559A JP2020524308A JP 2020524308 A JP2020524308 A JP 2020524308A JP 2019570559 A JP2019570559 A JP 2019570559A JP 2019570559 A JP2019570559 A JP 2019570559A JP 2020524308 A JP2020524308 A JP 2020524308A
Authority
JP
Japan
Prior art keywords
model
voiceprint
target user
voice
voiceprint model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019570559A
Other languages
English (en)
Other versions
JP6906067B2 (ja
Inventor
元哲 蔡
元哲 蔡
健宗 王
健宗 王
▲寧▼ 程
▲寧▼ 程
京 肖
京 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2020524308A publication Critical patent/JP2020524308A/ja
Application granted granted Critical
Publication of JP6906067B2 publication Critical patent/JP6906067B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本願は、声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体を提供する。声紋モデルを構築する方法は、音声信号における音声音響特徴を複数のクラスタ構造としてまとめるステップと、複数のクラスタ構造の平均値と標準偏差を計算して座標変換及び活性化関数算出を行い、特徴ベクトルパラメータを取得するステップと、特徴ベクトルパラメータに基づいて声紋モデルを取得するステップとを含む。本願が提供する声紋モデルは声紋モデルの音声認識エラー率を低減することができる。

Description

本出願は、2018年5月08日に中国特許庁に出願された、「声紋モデルを構築する方法、装置、コンピュータデバイス及び記憶媒体」と題された申請番号第201810433792X号に基づく優先権を主張し、その全ての内容は参照により本出願に組み込まれる。
本願は、コンピュータの技術分野に関し、特に、声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体に関する。
声紋は、電気音響装置により表示される口頭情報を搬送する音波スペクトルである。現代の科学研究によると、声紋の特徴は、特定性を有するだけでなく、相対的安定性も有する。成年になった後、人々の声は長期に渡って比較的安定である。声紋認識アルゴリズムは、音声スペクトルから抽出した種々の音声特徴を学習し、認識モデルを構築することで、話者を確認する。現在の声紋認識方法は、長い音声テキスト(話者の音声長さが1分以上)に対して効果が高いが、短い音声テキスト(話者の音声長さが1分未満、例えば20秒程度)に対して、認識エラー率が比較的高い。
したがって、短い音声テキストの認識エラー率を低減できる声紋モデルをどのように構築するかは早急に解決すべき問題である。
本願の主な目的は、短い音声テキストの認識エラー率を低減する声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体を提供することである。
上記目的を達成するために、本願は、声紋モデルの構築方法を提供する。この方法は、
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するステップと、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるステップと、
前記クラスタ構造の平均値と標準偏差を計算するステップと、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するステップと、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するステップであって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、ステップとを含む。
本願は、さらに声紋モデルを構築する装置を提供する。この装置は、
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出手段と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるために用いられるクラスタ構造手段と、
前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出手段と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル手段と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含む。
本願は、さらにコンピュータデバイスを提供する。このコンピュータデバイスは、コンピュータ読み取り可能な命令即ちコンピュータプログラムを記憶するメモリと、前記コンピュータ読み取り可能な命令を実行する際に上記の方法のステップを実現するプロセッサとを含む。
本願は、さらにコンピュータ読み取り可能な不揮発性の記憶媒体を提供する。このコンピュータ読み取り可能な不揮発性の記憶媒体にはコンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、プロセッサによって実行されると上記の方法のステップを実現する。
本願の声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体は、ニューラルネットワークの深層トレーニングに基づいて、抽出した音声音響特徴からクラスタ構造を取得し、クラスタ構造を座標マッピング及び活性化関数算出することで、声紋モデルを取得し、声紋モデルの音声認識エラー率を低減することができる。
本願の実施形態による声紋モデルを構築する方法のフローチャートである。 本願の実施形態による声紋モデルを構築する方法のステップS2のフローチャートである。 本願の実施形態による声紋モデルを構築する方法のステップS22のフローチャートである。 本願の実施形態による声紋モデルを構築する方法のステップS5のフローチャートである。 本願の実施形態による声紋モデルを構築する方法のステップS1のフローチャートである。 本願の実施形態による声紋モデルを構築する方法のステップS11のフローチャートである。 本願の実施形態による声紋モデルを構築する方法のフローチャートである。 本願の実施形態による声紋モデルを構築する方法のステップS1のフローチャートである。 本願の実施形態による声紋モデルを構築する装置の構造概略図である。 本願の実施形態による声紋モデルを構築する装置のクラスタ構造部の構造概略図である。 本願の実施形態による声紋モデルを構築する装置のモデル部の構造概略図である。 本願の実施形態による声紋モデルを構築する装置の抽出部の構造概略図である。 本願の実施形態による声紋モデルを構築する装置の構造概略図である。 本願の実施形態による声紋モデルを構築する装置の抽出部の構造概略図である。 本願の実施形態によるコンピュータデバイスの構造を示すブロック図である。
図1を参照すると、本発明の実施形態は、声紋モデルを構築する方法を提供し、以下のステップを含む。
S1:入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する;
S2:複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる;
S3:前記クラスタ構造の平均値と標準偏差を計算する;
S4:前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する;
S5:前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得し、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる。
上記ステップS1の説明のように、声紋は、電気音響装置により表示される口頭情報を搬送する音波スペクトルである。人間の言語の発生は、人体の言語中枢と発声器官との間の複雑な生理学的及び物理的プロセスである。人々が話すときに使用する発声器官(舌、歯、咽頭、肺、及び鼻腔)は、大きさや形状などで人によって著しく変わるため、いずれか2人の声紋は異なる。音声信号は、特定の情報アナログ信号が搭載されたもので、人が発した声信号から変換されたものである。人々の声紋はそれぞれであるため、同じ人が同じ言語を話して、その音声を変換して得られた音声信号も異なる。したがって、音声信号に含まれる音声音響特徴も異なる。音声音響特徴は、人が発した音声に含まれる声紋情報である。フレーム化とは、連続する音声信号を複数のセグメントに分けるものである。人々の通常の話速では、音素の継続時間が約50〜200ミリ秒であるため、フレーム長さは一般に50ミリ秒未満とされる。微視的にみれば、十分に多い振動周期を含む必要がある。音声の周波数について、男声で100ヘルツ程度、女声で200ヘルツ程度であり、周期に換算すると、10ミリ秒と5ミリ秒である。一般に1フレームには複数の周期が含まれるため、一般に少なくとも20ミリ秒とされる。音声信号は、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。前記音声音響特徴は、前記音声セグメントの、メル周波数ケプストラム係数(MFCC)、知覚線形予測(PLP)係数、フィルタバンク特徴(Filter Bank Feature)などを有することができる。外見上、前記音声音響特徴は、前記音声セグメントの、元の、又は生の発話データであることもできる。対象ユーザの音声信号における音声音響特徴を抽出するのは、声紋モデルを構築する必要がある人が発声した音声信号を抽出し、非対象ユーザが発声した音声信号であれば抽出しない。音声音響特徴は、連続する音声信号から抽出した人の発話が含まれる音声信号であるので、連続する音声信号でもある。音声信号をフレーム化して、複数セグメントの音声信号を取得し、それぞれ各音声信号の音声音響特徴を抽出すると、複数の音声音響特徴を取得する。
上記ステップS2で説明したように、音声音響特徴は、フレーム化の音声信号から抽出され、音声信号であり、音声音響特徴を集計し計算しやすくするために、該音声信号をニューラルネットワークトレーニングモデルに入力して、音声音響特徴を集計して算出しやすくなる。クラスタ構造は1つ又は複数の音声音響特徴に対する集計と計算の結果であり、複数の音声音響特徴をまとめたときの共通特徴を表すことができる。
上記ステップS3で説明したように、複数の音声音響特徴をニューラルネットワークに基づいた深層学習モデルに入力した後、少なくとも1つのクラスタ構造x1、x2、x1、…、xnを出力し、クラスタ構造がp次元ベクトルであると想定すれば、xn=(xi1,xi2,…,xip)(i=1,2,…,n)。これらのクラスタ構造の平均値と標準偏差を計算する。クラスタ構造の平均値と標準偏差を取得する。ここで、複数のクラスタ構造の平均値を計算する方法は以下のとおりである。まず、式:
Figure 2020524308
により、各成分の平均値を算出し、次に、式:x0=(x1,x2,…,xj)に従って、p次元の平均ベクトルを算出し、p次元の平均ベクトルを組み合わせてクラスタ構造の平均値とする:E(x)。複数のクラスタ構造の平均値を計算する式は以下のとおりである。D(x)=E{[x−E(x)][x−E(x)]}。
上述のステップS4で説明したように、上述したE(x)とD(x)に対して、a級マッピングとb級マッピングを行う。ここで、a級マッピングは、クラスタ構造の平均値と標準偏差を座標変換し、b級マッピングはクラスタ構造の平均値と標準偏差を活性化関数で算出して非線形結果、すなわち声紋モデルを構築する特徴ベクトルパラメータを取得する。
上記ステップS5で説明したように、システムは、特徴ベクトルパラメータ及び対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、対象ユーザの声紋モデルを取得し、該声紋モデルが音声信号を受信すると、音声信号を生成した人が対象ユーザの発話音声であるか否かを判定する。ベーシックモデルとは、ニューラルネットワークモデル、例えばBPニューラルネットワークモデルである。BPニューラルネットワークは、微分可能な非線形関数に対して重み値トレーニングを行う多層ネットワークである。その最大の特徴は、システム的な数学モデルを構築することなく、サンプルデータのみを用いて、システムに対して、m個の入力ニューロンのモードベクトルpからなるpm空間からyn空間n(=出力ノード数)までの高非線形マッピングを実現できることである。上述したa級マッピングとb級マッピングについて、2つのマッピングの処理は順序を問わずに行うことができる。b級マッピングの活性化関数は、Sigmoidを採用することができ、Sigmoid関数は生物学において一般的なS字型関数であり、S型成長曲線とも呼ばれ、主にニューラルネットワークの閾値関数として用いられ、物理的な意味としては、生物学上のニューロンに最も類似し、その非線形活性化関数の形式がσ(x)=1/(1+e−x)であり、該式において、xは入力した音声音響特徴で、eは自然定数で、数学科での法則の1つであり、約2.71828である。
図2を参照すると、本実施形態では、前記深層学習モデルは複数のモデル層を含み、複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる前記ステップは、以下を含む。
S21:複数の前記音声音響特徴を深層学習モデルに入力する;
S22:複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのtn時間毎の音声音響特徴でn番目のモデル層を構築し、nは正の整数である;
S23:前記多層のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも1つのクラスタ構造を取得する;
上記ステップS21で説明したように、複数の音声音響特徴は、いずれも連続する音声信号から抽出されるため、複数の音声音響特徴も連続している。複数の前記音声音響特徴を深層学習モデルに入力する時、時間順で入力する。
上記ステップS22で説明したように、複数の音声音響特徴は、いずれも連続する音声信号で、組み合わせても連続する音声信号であり、複数の音声音響特徴の中から任意の時間ノードtを選択し、t時刻からのtn期間内の音声音響特徴をまとめ、その1つのモデル層にクラスタ構造を形成する。深層学習モデルが複数のモデル層を有しているため、各モデル層に選択された時間ノードtとt時刻からの時間帯tnと異なり、各モデル層から生成するクラスタ構造の数は全く同じではない。例えば、該複数の音声音響特徴が合計10秒、すなわち10000msで、選択された時間ノードが2000ms目で、t1(1ms)おきの時間内に第1モデル層を構築すると、計10000フレームを有する。そして、第2のモデル層を構築し、t2を2msとし、2msおきの時間内に第2のモデル層を構築すると、第2のモデル層で計500フレームを有する。
上記ステップS23で説明したように、深層学習モデルによる学習を行うと、複数のモデル層が得られ、モデル層毎に複数のクラスタ構造があり、システムは、1つのモデル層をターゲットモデル層として選択し、ターゲットモデル層上のクラスタ構造をその後に声紋モデルを生成するパラメータとして選択する。
図3を参照すると、具体的な実施形態では、5層のモデル層が構築され、上記ステップS22は、以下のステップを含む。
S221:複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのt1時間毎の音声音響特徴で第1のモデル層を構築する;
S222:第1のモデル層において、当該時間ノードtからのt2時間毎の音声音響特徴で第2のモデル層を構築する;
S223:第2のモデル層において、当該時間ノードtからのt3時間毎の音声音響特徴で第3のモデル層を構築する;
S224:第3のモデル層において、当該時間ノードtからのt4時間毎の音声音響特徴で第4のモデル層を構築する;
S225:第4のモデル層において、当該時間ノードtからのt5時間毎の音声音響特徴で第5のモデル層を構築し、ここで、t1<t2<t3<t4<t5。
上記S221のステップで説明したように、いずれかの時間ノードtを選択し、例えば、該音声音響特徴が10秒、すなわち10000msで、選択された時間ノードが2000ms目であり、第1モデル層を構築し、t1(1ms)おきの時間内に第1モデル層を構築すると、第1モデル層は計10000フレームを有する。
ステップS222では、第1のモデル層に加えて、選択された時間ノードも2000ms目であり、t2(2ms)おきの時間内に第2のモデル層を構築すると、第2のモデル層は計5000フレームを有する。ステップS223では、第2のモデル層に加えて、選択された時間ノードも2000ms目であり、t3(3ms)おきの時間内に第3のモデル層を構築すると、第3のモデル層は計3334フレームを有する。ステップS224では、第3のモデル層に加えて、選択された時間ノードも2000ms目であり、t4(4ms)おきの時間内に第4のモデル層を構築すると、第4のモデル層は計2500フレームを有する。ステップS225では、第4のモデル層に加えて、選択された時間ノードも2000ms目であり、t5(8ms)おきの時間内に第2のモデル層を構築すると、第2のモデル層は計1250フレームを有する。最終的に、この5番目のモデル層上の1250フレームをクラスタ構造としてまとめ、5層の深層学習モデルを経て、最終的に1250個のクラスタ構造を取得する。
図4を参照すると、さらに、本実施形態では、前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、前記対象ユーザに対応する声紋モデルを取得する前記ステップは、以下を含む。
S51:前記声紋モデルの特徴ベクトルパラメータを次元削減する;
S52:前記次元削減後の特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、声紋モデルを取得する。
上記のステップにおいて、システムは、確率に基づいた線形判別分析(Linear Discriminant Analysis、LDA)を用いて次元削減を行う。その後に対象ユーザの声紋モデルを設計する。同時に、出力層はSoftmax関数で結果を計算し、すべてのノードは[−0.05〜0.05]区間内の均一ランダムな重み初期化を用い、オフセット初期値が0となり、最終的な声紋モデルを取得する。softmax関数の入力は1つのベクトルであり、その出力も1つのベクトルであり、ベクトルの各要素は0と1の間にある確率値である。オフセットトレーニングモデルの場合、トレーニング毎に得られたトレーニングセットの予測ラベルと元の実ラベルとの乖離度合について、この乖離度合が小さすぎると、オーバーフィッティングの発生を招き、トレーニングセットのノイズも学習してしまう可能性がある。したがって、オフセットは、学習アルゴリズム自体のフィッティング能力をプロットしたものであり、フィッティング能力が悪いとオフセットが大きく、アンダーフィッティングとなる;逆にフィッティング能力が良くなりすぎると、オフセットが小さく、オーバーフィッティングが発生しやすくなる。トレーニング時にこのオフセットが理論上で徐々に小さくすべきであり、モデルは、有用なものを学習していることを示す。
図5を参照すると、本実施形態において、フレーム化後の音声信号の音声音響特徴を抽出する前記ステップは以下を含む:
S11:フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得する;
S12:前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力する;
S13:前記共鳴ピーク特徴を離散コサイン変換して、音声音響特徴を取得する。
上記ステップS11では、フレーム化後の音声信号を高速フーリエ変換計算して、時間領域の音声信号を周波数領域のパワースペクトルに変換する。高速フーリエ変換(FFT)は、離散フーリエ変換の高速アルゴリズムであり、離散フーリエ変換の奇、偶、虚、実等の特性に基づいて、離散フーリエ変換のアルゴリズムを工夫したものである。
上記ステップS12では、共振ピークは、音声チャンネルの共振特性を反映した重要な特徴であり、発音情報の最も直接的なソースを表しており、人々も音声感知において共振ピークの情報を利用している。そのため、共振ピークは、音声信号処理において非常に重要な特徴パラメータであり、音声認識の主要な特徴や音声符号化伝送の基本的な情報として広く利用されている。共振ピーク情報が周波数包絡中に含まれるため、共振ピークパラメータ抽出の鍵は自然音声スペクトル包絡を推定することであり、一般にスペクトル包絡における最大値が共振ピークであると考えられる。その後、パワースペクトルをメル尺度の三角フィルタに入力して各フィルタ群が出力する対数エネルギーを計算し、フィルタ群が出力する特徴がFilter Bank(FBANK)特徴とも呼ばれる。メル尺度のフィルタ群を用いてフィルタリングする目的は、周波数領域信号に冗長が多く、フィルタ群が周波数領域の幅を合理化し、周波数帯域毎に1つの値で表すことである。フィルタリングの具体的なステップは、高速フーリエ変換後に得られたスペクトルをそれぞれ各フィルタと周波数乗算累算を行い、得られた値が該フレームデータの該フィルタに対応する周波数帯域におけるエネルギー値である。
上記ステップS13では、共振ピーク特徴を対数エネルギー計算した後、離散コサイン変換してMFCC係数(mel frequency cepstrum coefficient)、すなわちMFCC音響特徴を得ることができる。人の耳の音声に対する知覚は線形ではなく、logという非線形関係を用いてよりよく説明できる。logを取ってから逆スペクトル分析を行うことができる。そこで、エネルギー値を対数計算し、対数エネルギーを得る。離散コサイン変換の結果は虚部がなく、より計算しやすく、そのため、対数エネルギーを離散コサイン変換し、最終的にMFCC係数(mel frequency cepstrum coefficient)、すなわちMFCC音響特徴を得る。
さらに、声紋モデルを取得する上記ステップの後には、以下を含む。
S6:検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した認証結果を取得する。
上記ステップS6で説明したように、声紋モデルが構築された後、当該声紋モデルは、音声信号を受信するポートを1つ有する。この声紋モデルは、音声信号を受信すると、該音声信号を計算し、対象ユーザの音声信号であれば、標的正確の信号を出力する;対象ユーザの音声信号でなければ、標的エラーの信号を出力する。
図6を参照すると、さらに、フレーム化後の音声信号を高速フーリエ変換計算した前記ステップは以下を含む。
S111:フレーム化後の音声信号をプリエンファシス処理する;
S112:プリエンファシス処理された音声信号をウィンドウイングする;
S113:音声端点の検出により、発話音声が含まれる有効部分の音声信号を抽出する;
S114:前記有効部分の音声信号に高速フーリエ変換計算を行う。
上記ステップS111では、音声信号にプリエンファシス処理を行い、音声信号に異音やノイズが若干含まれているため、音声信号を直接声紋モデリング処理すると、含まれている雑音やノイズにより影響され、確立されるモデルが不正確で、認識エラー率を高める。有効音声の直接抽出とは、音声端点検出の方法を用いて実現され、すなわち、その音声において、どの時点から人が発話を開始し、どの時点で発話を終了したかを認識するものである。音声端点検出の主な原理は次のようである。人発話音声が含まれる音声ファイルの音声スペクトルは、人発話音声が含まれない音声ファイルの音声スペクトルよりも高いため、有効音声を抽出する前に、まず音声信号をプリエンファシスし、すなわち音声信号を増幅して、人発話部分が含まれる周波数スペクトルをより高くし、両者の差をよりはっきりし、音声端点の検出をより良く行う。
上記ステップS112では、音声信号処理は、一般に音声中の各周波数成分の分布を明確にするという目的を実現すべきである。当該目的を実現する数学的ツールはフーリエ変換である。フーリエ変換は、入力信号が安定的であることを要求する。音声は巨視的には安定的ではない。微視的にみると、音声信号は安定的なものと見做すことができ、切り出してフーリエ変換してもよい。ウィンドウイングの目的は1フレームの信号の振幅を両端で0に徐変させることである。0への徐変はフーリエ変換にはメリットがあり、変換結果(すなわちスペクトル)の分解能を向上させることができる。
上記ステップS113では、音声信号に異音やノイズが若干含まれているため、音声信号を直接声紋モデリング処理すると、含まれている雑音やノイズにより影響され、確立されるモデルが不正確で、認識エラー率の向上に直接つながる。有効音声の直接抽出とは、音声端点検出の方法を用いて実現され、すなわち、その音声において、どの時点から人が発話を開始し、どの時点で発話を終了したかを認識するものである。端点検出により、音声とノイズとを区別し、有効な音声部分を抽出する。人々は話した時に間を置くことがある。有効部分の音声を抽出し、すなわち人が発話したときに間を置くときの雑音部分を取り除き、人発話部分の有効音声のみを抽出する。
上述のステップS114では、高速フーリエ変換(FFT)は、離散フーリエ変換の高速アルゴリズムであり、離散フーリエ変換の奇、偶、虚、実等の特性に基づいて、離散フーリエ変換のアルゴリズムを工夫したものである。このようにして音声における話者の音声音響特徴を算出することができる。
図7を参照すると、さらに、声紋モデルを取得する前記ステップの後に、以下を含む。
S7:ユーザが前記声紋モデルにマークした属性情報を受信し、前記属性情報は前記対象ユーザの性別、年齢、民族を含む。
上記S7ステップでは、声紋モデルを構築した後、システムは、ユーザが声紋モデルに付与するマーカを受信し、当該声紋モデルに対応する対象ユーザの個人情報をマーカし、性別、年齢、民族、身長、体重等を含む。声紋情報が発話の器官に関連し、発話調音器官は声帯、顎、舌、歯、唇等を含む;発音共鳴器は咽頭、口腔、鼻腔を含む。発話の器官が近い人は、発した音が一定の共通性又は比較的近いことから、属性情報が同じ人の声紋情報が比較的近いことになる。複数の人の声紋情報を収集しまとめて、声紋情報と人との関係を見つける。
図8を参照すると、さらに、本実施形態において、フレーム化後の音声信号の音声音響特徴を抽出する前記ステップは以下を含む。
S14:入力されたフレーム化後の音声信号の音声内容を認識する;
S15:前記音声内容の発音部位を判定する;
S16:前記発音部位に基づいて前記音声信号を分割する;
S17:それぞれ分割された音声信号に対して音声音響特徴を抽出する。
上記ステップS14では、入力されたフレーム化後の音声信号の音声内容を認識し、すなわち音声認識の手段により、音声信号を認識し、話者の具体的な発話テキスト情報を認識する。
前記ステップS15では、前記音声内容の発音部位を判断し、前記S14で認識した音声内容に基づいて、その音声内容のピンイン又は音声記号を読み出し、ピンイン又は音声記号の内容から発音部位を判定する。一般的に用いられる主な発音部位には、喉頭、舌、鼻、歯等がある。例えば、中国語の共通語では、対応する発音部位を異なる声母から特定できる。具体的な声母と発音部位の対応テーブルは以下のとおりである。
Figure 2020524308
上記ステップS16では、音声内容の発音部位を判断した上で、音声信号の発音部位を遡って検索し、音声信号に対応する発音部位に応じて、音声信号を複数セグメントに分割し、各音声信号がそれぞれ1つの発音部位に対応する。例えば、時間長が10秒の音声信号では、0〜2秒目の音声内容には、いずれもb又はp又はmの声母が含まれ、3〜5秒目の音声内容には、いずれもj又はq又はxの声母が含まれ、6〜10秒目の音声内容には、いずれもd又はt又はn又はlの声母が含まれるため、該音声信号を3セグメントの音声信号に分割する。1セグメント目が0〜2秒目の音声内容で、2セグメント目が3〜5秒目の音声内容で、3セグメント目が6〜10秒目の音声内容である。
上記ステップS17では、これら3つの音声内容のそれぞれについて音響特徴を抽出し、そして、それぞれその後の深層学習モデルに入力して算出する。
要約すると、本願の声紋モデルを構築する方法は、ニューラルネットワークの深層トレーニングに基づいて、抽出した音声音響特徴からクラスタ構造を取得し、クラスタ構造を座標マッピング及び活性化関数算出することで、声紋モデルを取得して、声紋モデルの音声認識エラー率を低減することができる。
図9を参照すると、本願はさらに声紋モデルを構築する装置を提供する。この装置は、
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出部1と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるクラスタ構造部2と、
前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出部3と、
前記平均値と標準偏差を座標変換及び活性化関数算出し、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル部4と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル部5であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル部5とを含む。
本実施形態において、抽出部1における声紋は、電気音響装置により表示される口頭情報を搬送する音波スペクトルである。人間の言語の発生は、人体の言語中枢と発声器官との間の複雑な生理学的及び物理的プロセスである。人々が話すときに使用する発声器官(舌、歯、咽頭、肺、及び鼻腔)は、大きさや形状は人によって著しく変わるため、いずれか2人の声紋は異なる。音声信号は、特定の情報アナログ信号を搭載したもので、人が発した声信号から変換されたものである。人々の声紋はそれぞれであるため、同じ人が同じ言語を話して、その音声を変換して得られた音声信号も異なる。したがって、音声信号に含まれる音声音響特徴も異なる。音声音響特徴は、人が発した音声に含まれる声紋情報である。フレーム化とは、連続する音声信号を複数のセグメントに分けるものである。人々の通常の話速では、音素の継続時間が約50〜200ミリ秒であるため、フレーム長さは一般に50ミリ秒未満とされる。微視的にみれば、十分に多い振動周期を含む必要がある。音声の周波数について、男声で100ヘルツ程度、女声で200ヘルツ程度であり、周期に換算すると、10ミリ秒と5ミリ秒である。一般に1フレームには複数の周期が含まれるため、一般に少なくとも20ミリ秒とされる。音声信号は、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。前記音声音響特徴は、前記音声セグメントの、メル周波数ケプストラム係数(MFCC)、知覚線形予測(PLP)係数、フィルタバンク特徴(Filter Bank Feature)などを有することができる。外見上、前記音声音響特徴は、前記音声セグメントの、元の、又は生の発話データであることもできる。抽出部1が対象ユーザの音声信号における音声音響特徴を抽出するのは、声紋モデルを構築する必要がある人が発声した音声信号を抽出し、非対象ユーザが発声した音声信号であれば抽出しない。音声音響特徴は、連続する音声信号から抽出した人の発話部分が含まれる音声信号であるので、連続する音声信号でもある。抽出部1は音声信号をフレーム化した後、複数の音声信号を得て、それぞれ各音声信号の音声音響特徴を抽出すると、複数の音声音響特徴が取得される。
音声音響特徴は、フレーム化の音声信号から抽出され、音声信号であり、クラスタ構造部2は、音声音響特徴を集計し計算しやすくするために、該音声信号をニューラルネットワークトレーニングモデルに入力して、音声音響特徴を統計して算出する。クラスタ構造部2は、該音声音響特徴の集合であり、複数の音声音響特徴をまとめたときの共通特徴を表すことができる。
算出部3は、複数の音声音響特徴をニューラルネットワークに基づいた深層学習モデルに入力した後、少なくとも1つのクラスタ構造x1、x2、x1、…、xnを出力し、クラスタ構造がp次元ベクトルであると想定すれば、xn=(xi1,xi2,…,xip)(i=1,2,…,n)。これらのクラスタ構造の平均値と標準偏差を計算する。クラスタ構造の平均値と標準偏差を取得する。ここで、複数のクラスタ構造の平均値を計算する方法は以下のとおりである。まず、算出部3は式:
Figure 2020524308
に従って、各成分の平均値を算出し、次に算出部3はx0=(x1,x2,…,xj)に従って、p次元の平均ベクトルを算出し、算出部3はp次元の平均ベクトルを組み合わせてクラスタ構造の平均値とする:E(x)。複数のクラスタ構造の平均値を計算する式は以下のとおりである。D(x)=E{[x−E(x)][x−E(x)]}。
特徴ベクトル部4は、上述したE(x)とD(x)に対して、a級マッピングとb級マッピングを行う。ここで、a級マッピングは、クラスタ構造の平均値と標準偏差を座標変換し、b級マッピングはクラスタ構造の平均値と標準偏差を活性化関数で算出して非線形結果、すなわち声紋モデルを構築する特徴ベクトルパラメータを取得する。
そして、モデル部5は、特徴ベクトルパラメータ及び対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、対象ユーザの声紋モデルを取得し、該声紋モデルが音声信号を受信すると、音声信号を生成した人が対象ユーザの発話音声であるか否かを判定する。ベーシックモデルとは、ニューラルネットワークモデル、例えばBPニューラルネットワークモデルである。BPニューラルネットワークは、微分可能な非線形関数に対して重み値トレーニングを行う多層ネットワークである。その最大の特徴は、システム的な数学モデルを構築することなく、サンプルデータのみを用いて、システムに対して、m個の入力ニューロンのモードベクトルpからなるpm空間からyn空間n(=出力ノード数)までの高非線形マッピングを実現できることである。上述したa級マッピングとb級マッピングについて、2つのマッピングの処理は順序を問わずに行うことができる。b級マッピングの活性化関数は、Sigmoidを採用することができ、Sigmoid関数は生物学において一般的なS字型関数であり、S型成長曲線とも呼ばれ、主にニューラルネットワークの閾値関数として用いられ、物理的な意味としては、生物学上のニューロンに最も類似し、その非線形活性化関数の形式はσ(x)=1/(1+e−x)であり、該式において、xは入力した音声音響特徴で、eは自然定数で、数学科での法則の1つであり、約2.71828である。
図10を参照すると、本実施形態では、前記深層学習モデルは、複数のモデル層を含み、前記クラスタ構造部2は、
複数の前記音声音響特徴を深層学習モデルに入力するために用いられる入力ユニット21と、
複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのtn時間毎の音声音響特徴でn番目のモデル層を構築するために用いられる構築ユニットであって、nが正整数である、構築ユニット22と、
前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも1つのクラスタ構造を取得するために用いられる選択ユニット23とを含む。
本実施形態において、複数の音声音響特徴は、いずれも連続する音声信号から抽出されるため、複数の音声音響特徴も連続している。入力ユニット21は複数の前記音声音響特徴を深層学習モデルに入力する時、時間順で入力する。
複数の音声音響特徴は、いずれも連続する音声信号で、組み合わせても連続する音声信号であり、構築ユニット22は、複数の音声音響特徴の中からいずれかの時間ノードtを選択し、t時刻からのtn期間内の音声音響特徴をまとめ、その1つのモデル層にクラスタ構造を形成する。深層学習モデルが複数のモデル層を有しているため、各モデル層に選択された時間ノードtとt時刻からの時間帯tnと異なり、各モデル層から生成するクラスタ構造の数は全く同じではない。例えば、該複数の音声音響特徴が合計10秒、すなわち10000msで、選択された時間ノードが2000ms目で、構築ユニット22は第1モデル層を構築し、t1(1ms)おきの時間内に第1モデル層を構築すると、計10000フレームを有する。そして、構築ユニット22は第2のモデル層を構築し、2を2msとし、2msおきの時間内に第2のモデル層を構築すると、第2のモデル層で計500フレームを有する。
深層学習モデルによる学習を行うと、複数のモデル層が得られ、モデル層毎に複数のクラスタ構造があり、選択ユニット23は、そのうち1つのモデル層上のクラスタ構造をその後に声紋モデルを生成するパラメータとして選択する。
図11を参照すると、さらに、前記モデル部4は、
前記声紋モデルの特徴ベクトルパラメータを次元削減するために用いられる次元削減ユニット51と、
前記次元削減後の特徴ベクトルパラメータを予め設定されたベーシックモデルに入力して、声紋モデルを取得するために用いられるモデルユニット52とを含む。
本実施形態において、次元削減ユニット51は、確率に基づいた線形判別分析(Linear Discriminant Analysis、LDA)を用いて次元削減を行う。その後、モデルユニット52は、対象ユーザの声紋のモデル設計を行う。同時に、出力層はSoftmax関数で結果を計算し、すべてのノードは[−0.05〜0.05]区間内の均一ランダムな重み初期化を用い、オフセット初期値が0となり、最終的な声紋モデルを取得する。softmax関数の入力は1つのベクトルであり、その出力も1つのベクトルであり、ベクトルの各要素は0と1の間にある確率値である。オフセットトレーニングモデルの場合、トレーニング毎に得られたトレーニングセットの予測ラベルと元の実ラベルとの乖離度合について、この乖離度合が小さすぎると、オーバーフィッティングの発生を招き、トレーニングセットのノイズも学習してしまう可能性がある。したがって、オフセットは、学習アルゴリズム自体のフィッティング能力をプロットしたものであり、フィッティング能力が悪いとオフセットが大きく、アンダーフィッティングとなる;逆にフィッティング能力が良くなりすぎると、オフセットが小さく、オーバーフィッティングが発生しやすくなる。トレーニング時にこのオフセットは理論上徐々に小さくすべきであり、モデルは、有用なものを学習していることを示す。
図12を参照すると、さらに、前記抽出部1は、
フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得するために用いられる算出ユニット11と、
前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力するために用いられるメル入力ユニット12と、
前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するために用いられる変換ユニット13とを含む。
本実施形態において、算出ユニット11は、フレーム化後の音声信号を高速フーリエ変換計算して、時間領域の音声信号を周波数領域のパワースペクトルに変換する。高速フーリエ変換(FFT)は、離散フーリエ変換の高速アルゴリズムであり、離散フーリエ変換の奇、偶、虚、実等の特性に基づいて、離散フーリエ変換のアルゴリズムを工夫したものである。共振ピークは、音声チャンネルの共振特性を反映した重要な特徴であり、発音情報の最も直接的なソースを表しており、人々も音声感知において共振ピークの情報を利用している。そのため、共振ピークは、音声信号処理において非常に重要な特徴パラメータであり、音声認識の主要な特徴や音声符号化伝送の基本的な情報として広く利用されている。共振ピーク情報が周波数包絡中に含まれるため、共振ピークパラメータ抽出の鍵は自然音声スペクトル包絡を推定することであり、一般にスペクトル包絡における最大値が共振ピークであると考えられる。その後、メル入力ユニット12は、パワースペクトルをメル尺度の三角フィルタ群に入力して各フィルタ群が出力する対数エネルギーを計算し、フィルタ群が出力する特徴がFilter Bank(FBANK)特徴とも呼ばれる。メル尺度のフィルタ群を用いてフィルタリングする目的は、周波数領域信号に冗長が多く、フィルタ群が周波数領域の幅を合理化し、周波数帯域毎に1つの値で表すことである。フィルタリングの具体的なステップは、高速フーリエ変換後に得られたスペクトルにそれぞれ各フィルタと周波数乗算累算を行い、得られた値が該フレームデータの該フィルタに対応する周波数帯域におけるエネルギー値である。共振ピーク特徴を対数エネルギー計算した後、変換ユニット13により離散コサイン変換してMFCC係数(mel frequency cepstrum coefficient)、すなわちMFCC音響特徴を得ることができる。人の耳の音声に対する知覚は線形ではなく、logという非線形関係を用いてよりよく説明できる。logを取ってから逆スペクトル分析を行うことができる。そこで、エネルギー値を対数計算し、対数エネルギーを得る。離散コサイン変換の結果は、虚部がなく、より計算しやすく、そのため、対数エネルギーを離散コサイン変換し、最終的にMFCC係数(mel frequency cepstrum coefficient)、すなわちMFCC音響特徴を得る。
さらに、声紋モデルを構築する上記装置は、
検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元認証結果を取得するために用いられる検証部6を含む。
本実施形態では、声紋モデルを構築した後、該声紋モデルは、音声信号を受信するポートを1つ有している。検証部6は、音声信号を受信すると、その音声信号を計算し、対象ユーザの音声信号であれば、検証部6は標的正確の信号を出力する;対象ユーザの音声信号でなければ、検証部6は標的エラーの信号を出力する。
図13を参照すると、さらに、声紋モデルを構築する前記装置は、
ユーザが前記声紋モデルにマークした属性情報を受信するために用いられる属性手段であって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、属性部7を含む。
本実施形態において、声紋モデルを構築した後、属性部7は、ユーザが声紋モデルに付与するマーカを受信し、当該声紋モデルに対応する対象ユーザの個人情報をマーカし、性別、年齢、民族、身長、体重等を含む。声紋情報が発話の器官に関連するため、発話調音器官は声帯、顎、舌、歯、唇等を含む;発音共鳴器は咽頭、口腔、鼻腔を含む。発話の器官が近い人は、発した音が一定の共通性又は比較的近いことから、属性情報が同じ人の声紋情報が比較的近いことになる。複数の人の声紋情報を収集しまとめて、声紋情報と人との関係を見つける。
図14を参照すると、さらに、前記抽出部1は、
入力されたフレーム化後の音声信号の音声内容を認識するために用いられる認識ユニット14と、
前記音声内容の発音部位を判定するために用いられる判断ユニット15と、
前記発音部位に基づいて前記音声信号を分割するために用いられる分割ユニット16と、
それぞれ分割された音声信号に対して音声音響特徴を抽出するために用いられる抽出ユニット17とを含む。
本実施形態において、認識ユニット14は、入力された音声信号の音声内容を認識し、すなわち音声認識の手段により、音声信号を認識し、話者の具体的な発話テキスト情報を認識する。
判断ユニット15は、前記音声内容の発音部位を判断し、上記認識ユニット14で認識した音声内容に基づいて、その音声内容のピンイン又は音声記号を読み出し、ピンイン又は音声記号の内容から発音部位を判定する。一般的に用いられる主な発音部位には、喉頭、舌、鼻、歯等がある。例えば、中国語の共通語では、対応する発音部位を異なる声母から特定できる。具体的な声母と発音部位の対応テーブルは以下のとおりである。
Figure 2020524308
判断ユニット15が音声内容の発音部位を判断した上で、分割ユニット16が音声信号の発音部位を遡って検索し、そして分割ユニット16は、音声信号に対応する発音部位に応じて、音声信号を複数セグメントに分割し、各音声信号がそれぞれ1つの発音部位に対応する。例えば、時間長が10秒の音声信号では、0〜2秒目の音声内容には、いずれもb又はp又はmの声母が含まれ、3〜5秒目の音声内容には、いずれもj又はq又はxの声母が含まれ、6〜10秒目の音声内容には、いずれもd又はt又はn又はlの声母が含まれるため、分割ユニット16は、該音声信号を3セグメントの音声信号に分割する。1セグメント目が0〜2秒目の音声内容で、2セグメント目が3〜5秒目の音声内容で、3セグメント目が6〜10秒目の音声内容である。そして、抽出ユニット17は、これら3つの音声内容のそれぞれについて音響特徴を抽出して、それぞれその後の深層学習モデルに入力して算出する。
要約すると、本願の声紋モデルを構築する装置は、ニューラルネットワークの深層トレーニングに基づいて、抽出した音声音響特徴からクラスタ構造を取得し、クラスタ構造を座標マッピング及び活性化関数算出することで、声紋モデルを取得し、声紋モデルの音声認識エラー率を低減することができる。
図15を参照すると、本願の実施形態では、さらにコンピュータデバイスを提供し、該コンピュータデバイスは、サーバであってもよく、その内部構造が図15に示すようである。該コンピュータデバイスは、システムバスにより接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。ここで、該コンピュータデバイスのプロセッサは、計算及び制御能力を提供するために用いられる。該コンピュータデバイスのメモリは、不揮発性の記憶媒体と、内部メモリとを含む。この不揮発性記憶媒体は、オペレーティングシステム、コンピュータ可読命令、及びデータベースを記憶する。該メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ可読命令の実行に環境を提供する。該コンピュータデバイスのデータベースは、声紋モデル等のデータを記憶するために用いられる。該コンピュータデバイスのネットワークインタフェースは、外部の端末とネットワーク接続により通信するために用いられる。このコンピュータ可読命令が実行される際に、上述した各方法の実施形態のようなフローを実行する。図15に示すような構造は、本願の特許請求の範囲に関係する部分的構造のブロック図のみであり、本願の特許請求の範囲が適用されるコンピュータデバイスを限定するものではないことが当業者に明らかである。
本願の実施形態は、さらにコンピュータ読み取り可能な不揮発性の記憶媒体を提供し、前記記憶媒体にコンピュータ読み取り可能な命令が記憶され、該コンピュータ可読命令が実行される時、上記各方法の実施形態のフローを実行する。以上で述べたのは、本願の好ましい実施形態に過ぎず、本願の特許請求の範囲を限定するものではない。本願明細書及び図面の内容を用いて作成された等価構造又は等価的なフロー変換、又は他の関連する技術分野に直接又は間接的に適用されるものは、いずれも本発明の特許請求の範囲に含まれる。
1 抽出部
11 算出ユニット
12 メル入力ユニット
13 変換ユニット
14 認識ユニット
15 判断ユニット
16 分割ユニット
17 抽出ユニット
2 クラスタ構造部
21 入力ユニット
22 構築ユニット
23 選択ユニット
3 算出部
4 特徴ベクトル部
5 モデル部
51 次元削減ユニット
52 モデルユニット
6 検証部
7 属性部

Claims (15)

  1. 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するステップと、
    複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるステップと、
    前記クラスタ構造の平均値と標準偏差を計算するステップと、
    前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するステップと、
    前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するステップであって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、ステップとを含む、ことを特徴とする声紋モデルを構築する方法。
  2. 前記深層学習モデルは、複数のモデル層を含み、複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる前記ステップは、
    複数の前記音声音響特徴を深層学習モデルに入力するステップと、
    複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのtn時間毎の音声音響特徴でn番目のモデル層を構築するステップであって、nが正の整数である、ステップと、
    前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層上に生成された少なくとも1つのクラスタ構造を取得するステップとを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。
  3. 前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する前記ステップは、
    前記声紋モデルの特徴ベクトルパラメータを次元削減するステップと、
    前記次元削減後の特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、声紋モデルを取得するステップとを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。
  4. フレーム化後の音声信号の音声音響特徴を抽出する前記ステップは、
    フレーム化後の音声信号を高速フーリエ変換計算して、パワースペクトルを取得するステップと、
    前記パワースペクトルをメル尺度の三角フィルタ群に入力して、共振ピーク特徴を出力するステップと、
    前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するステップとを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。
  5. 声紋モデルを取得する前記ステップの後に、検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元確認結果を取得するステップを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。
  6. 声紋モデルを取得する前記ステップの後に、ユーザが前記声紋モデルにマークした属性情報を受信するステップであって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、ステップを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。
  7. 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出手段と、
    複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるために用いられるクラスタ構造手段と、
    前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出手段と、
    前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル手段と、
    前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含む、ことを特徴とする声紋モデルを構築する装置。
  8. 前記深層学習モデルは、複数のモデル層を含み、前記クラスタ構造手段は、
    複数の前記音声音響特徴を深層学習モデルに入力するために用いられる入力ユニットと、
    複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのtn時間毎の音声音響特徴でn番目のモデル層を構築するために用いられる構築ユニットであって、nが正の整数である、構築ユニットと、
    前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも1つのクラスタ構造を取得するために用いられる選択ユニットとを含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。
  9. 前記モデル手段は、
    前記声紋モデルの特徴ベクトルパラメータを次元削減するために用いられる次元削減ユニットと、
    前記次元削減後の特徴ベクトルパラメータを予め設定されたベーシックモデルに入力して、声紋モデルを取得するために用いられるモデルユニットとを含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。
  10. 前記抽出手段は、
    フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得するために用いられる算出ユニットと、
    前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力するために用いられる入力ユニットと、
    前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するために用いられる変換ユニットとを含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。
  11. 声紋モデルを構築する前記装置は、検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元認証結果を取得するために用いられる検証手段をさらに含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。
  12. 声紋モデルを構築する前記装置は、ユーザが前記声紋モデルにマークした属性情報を受信するために用いられる属性手段であって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、属性手段をさらに含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。
  13. 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するための抽出手段と、
    複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるためのクラスタ構造手段と、
    前記クラスタ構造の平均値と標準偏差を計算するための算出手段と、
    前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するための特徴ベクトル手段と、
    前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するためのモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含む、ことを特徴とするコンピュータデバイス。
  14. 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する機能と、
    複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる機能と、
    前記クラスタ構造の平均値と標準偏差を計算する機能と、
    前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する機能と、
    前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する機能であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、機能と、をコンピュータによって実行させるプログラム。
  15. 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する機能と、
    複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる機能と、
    前記クラスタ構造の平均値と標準偏差を計算する機能と、
    前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する機能と、
    前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する機能であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、機能と、をコンピュータによって実行させるプログラムを格納する読み取り可能な記憶媒体。
JP2019570559A 2018-05-08 2018-07-06 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 Active JP6906067B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810433792.X 2018-05-08
CN201810433792.XA CN108806696B (zh) 2018-05-08 2018-05-08 建立声纹模型的方法、装置、计算机设备和存储介质
PCT/CN2018/094888 WO2019214047A1 (zh) 2018-05-08 2018-07-06 建立声纹模型的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
JP2020524308A true JP2020524308A (ja) 2020-08-13
JP6906067B2 JP6906067B2 (ja) 2021-07-21

Family

ID=64092054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019570559A Active JP6906067B2 (ja) 2018-05-08 2018-07-06 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体

Country Status (5)

Country Link
US (1) US11322155B2 (ja)
JP (1) JP6906067B2 (ja)
CN (1) CN108806696B (ja)
SG (1) SG11202002083WA (ja)
WO (1) WO2019214047A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246503A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 黑名单声纹库构建方法、装置、计算机设备和存储介质
CN110265040B (zh) * 2019-06-20 2022-05-17 Oppo广东移动通信有限公司 声纹模型的训练方法、装置、存储介质及电子设备
CN110211569A (zh) * 2019-07-09 2019-09-06 浙江百应科技有限公司 基于语音图谱和深度学习的实时性别识别方法
CN110491393B (zh) * 2019-08-30 2022-04-22 科大讯飞股份有限公司 声纹表征模型的训练方法及相关装置
CN110428853A (zh) * 2019-08-30 2019-11-08 北京太极华保科技股份有限公司 语音活性检测方法、语音活性检测装置以及电子设备
CN110600040B (zh) * 2019-09-19 2021-05-25 北京三快在线科技有限公司 声纹特征注册方法、装置、计算机设备及存储介质
CN110780741B (zh) * 2019-10-28 2022-03-01 Oppo广东移动通信有限公司 模型训练方法、应用运行方法、装置、介质及电子设备
CN111292510A (zh) * 2020-01-16 2020-06-16 广州华铭电力科技有限公司 一种城市电缆被外力破坏的识别预警方法
CN113409793B (zh) * 2020-02-28 2024-05-17 阿里巴巴集团控股有限公司 语音识别方法及智能家居系统、会议设备、计算设备
CN111414511B (zh) * 2020-03-25 2023-08-22 合肥讯飞数码科技有限公司 自动声纹建模入库方法、装置以及设备
IL274741B1 (en) * 2020-05-18 2024-07-01 Cognyte Tech Israel Ltd A system and method for obtaining voiceprints for large populations
CN113948089B (zh) * 2020-06-30 2024-06-14 北京猎户星空科技有限公司 声纹模型训练和声纹识别方法、装置、设备及介质
TWI807203B (zh) * 2020-07-28 2023-07-01 華碩電腦股份有限公司 聲音辨識方法及使用其之電子裝置
CN112466311B (zh) * 2020-12-22 2022-08-19 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112637428A (zh) * 2020-12-29 2021-04-09 平安科技(深圳)有限公司 无效通话判断方法、装置、计算机设备及存储介质
CN113011302B (zh) * 2021-03-11 2022-04-01 国网电力科学研究院武汉南瑞有限责任公司 一种基于卷积神经网络的雷声信号识别系统及方法
CN113179442B (zh) * 2021-04-20 2022-04-29 浙江工业大学 一种基于语音识别的视频中音频流替换方法
CN113077536B (zh) * 2021-04-20 2024-05-28 深圳追一科技有限公司 一种基于bert模型的嘴部动作驱动模型训练方法及组件
CN113421575B (zh) * 2021-06-30 2024-02-06 平安科技(深圳)有限公司 声纹识别方法、装置、设备及存储介质
CN114113837B (zh) * 2021-11-15 2024-04-30 国网辽宁省电力有限公司朝阳供电公司 一种基于声学特征的变压器带电检测方法及系统
CN114495948B (zh) * 2022-04-18 2022-09-09 北京快联科技有限公司 一种声纹识别方法及装置
CN115831152B (zh) * 2022-11-28 2023-07-04 国网山东省电力公司应急管理中心 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法
CN118155463B (zh) * 2024-05-10 2024-07-19 兰州大学 嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170160813A1 (en) * 2015-12-07 2017-06-08 Sri International Vpa with integrated object recognition and facial expression recognition
US20170358306A1 (en) * 2016-06-13 2017-12-14 Alibaba Group Holding Limited Neural network-based voiceprint information extraction method and apparatus

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
KR100679051B1 (ko) * 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN104485102A (zh) * 2014-12-23 2015-04-01 智慧眼(湖南)科技发展有限公司 声纹识别方法和装置
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
CN105845140A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 应用于短语音条件下的说话人确认方法和装置
CN106448684A (zh) * 2016-11-16 2017-02-22 北京大学深圳研究生院 基于深度置信网络特征矢量的信道鲁棒声纹识别系统
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
CN110337807A (zh) * 2017-04-07 2019-10-15 英特尔公司 针对深度通道和卷积神经网络图像和格式使用相机设备的方法和系统
EP3607495A4 (en) * 2017-04-07 2020-11-25 Intel Corporation METHODS AND SYSTEMS USING IMPROVED TRAINING AND LEARNING FOR DEEP NEURAL NETWORKS
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US20180358003A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Methods and apparatus for improving speech communication and speech interface quality using neural networks
CN107357875B (zh) * 2017-07-04 2021-09-10 北京奇艺世纪科技有限公司 一种语音搜索方法、装置及电子设备
CN107680582B (zh) * 2017-07-28 2021-03-26 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
US11055604B2 (en) * 2017-09-12 2021-07-06 Intel Corporation Per kernel Kmeans compression for neural networks
CN107993071A (zh) * 2017-11-21 2018-05-04 平安科技(深圳)有限公司 电子装置、基于声纹的身份验证方法及存储介质
US11264037B2 (en) * 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US10437936B2 (en) * 2018-02-01 2019-10-08 Jungle Disk, L.L.C. Generative text using a personality model
WO2020035085A2 (en) * 2019-10-31 2020-02-20 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170160813A1 (en) * 2015-12-07 2017-06-08 Sri International Vpa with integrated object recognition and facial expression recognition
US20170358306A1 (en) * 2016-06-13 2017-12-14 Alibaba Group Holding Limited Neural network-based voiceprint information extraction method and apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAVID SNYDER ET AL.: "Deep Neural Network Embeddings for Text-Independent Speaker Verification", INTERSPEECH 2017, JPN6020050168, August 2017 (2017-08-01), pages 999 - 1003, XP055636895, ISSN: 0004415790, DOI: 10.21437/Interspeech.2017-620 *
DAVID SNYDER ET AL.: "X-Vectors: Robust DNN Embeddings for Speaker Recognition", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6020050169, April 2018 (2018-04-01), pages 5329 - 5333, XP033403941, ISSN: 0004415791, DOI: 10.1109/ICASSP.2018.8461375 *

Also Published As

Publication number Publication date
US20200294509A1 (en) 2020-09-17
CN108806696A (zh) 2018-11-13
US11322155B2 (en) 2022-05-03
WO2019214047A1 (zh) 2019-11-14
SG11202002083WA (en) 2020-04-29
CN108806696B (zh) 2020-06-05
JP6906067B2 (ja) 2021-07-21

Similar Documents

Publication Publication Date Title
JP6906067B2 (ja) 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体
Gonzalez et al. Direct speech reconstruction from articulatory sensor data by machine learning
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
Pahwa et al. Speech feature extraction for gender recognition
Kinnunen Spectral features for automatic text-independent speaker recognition
Patel et al. Speech recognition and verification using MFCC & VQ
JP6973304B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN113436612B (zh) 基于语音数据的意图识别方法、装置、设备及存储介质
Sefara The effects of normalisation methods on speech emotion recognition
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
CN100543840C (zh) 基于情感迁移规则及语音修正的说话人识别方法
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
KR20240135018A (ko) 감정 자극을 이용한 음성-기반 정신 건강 평가를 위한 멀티-모달 시스템 및 방법
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
Siriwardena et al. The secret source: Incorporating source features to improve acoustic-to-articulatory speech inversion
WO2003098597A1 (fr) Dispositif d'extraction de noyau syllabique et progiciel associe
Paul et al. Automated speech recognition of isolated words using neural networks
CN113782032A (zh) 一种声纹识别方法及相关装置
CN110838294B (zh) 一种语音验证方法、装置、计算机设备及存储介质
Johar Paralinguistic profiling using speech recognition
KR20230029757A (ko) 환자 특정 음성 모델 합성
Sahoo et al. Detection of speech-based physical load using transfer learning approach

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191224

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210104

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210628

R150 Certificate of patent or registration of utility model

Ref document number: 6906067

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250